欧稽里得
命题 XXIX — 机器学习 · 大语言模型

深度拆解 Mixture of Agents:最强模型被一封信关停的那几天,一桌便宜货合议差点掀了王座

半个月前我写过一篇速报,讲 Anthropic 最强的模型 Fable 5 上线 72 小时,被美国政府一封出口管制信摁下线,连同它的孪生兄弟 Mythos 5 一起,对全球所有人关停。当时我结尾写了句:那条戴着笼口的神话,这次连笼子一起,被搬进了证物间。

到今天,发布过去十九天,下线也满了十六天。证物间没开门。

6 月 26 日政府松了半个口子,允许 Mythos 5 重新部署给一百多家美国关键基础设施机构。但这次松口只放了 Mythos 5,Fable 5 提都没提;Anthropic 那边说还在争取恢复。换句话说,那个 SWE-Bench Pro 跑 80.3 分、把第二名甩开 11 分的国王,你现在花钱也买不到。你能买到的最强 Claude,还是上一代的 Opus 4.8。

就在这个国王缺席的窗口里,一件挺反常识的事发生了。

OpenRouter 上线了一个叫 Fusion 的新模式。它干的事,说穿了特别土:把你的一个问题,同时甩给三五个便宜模型各写一份草稿,再拉一个模型当裁判,把这几份草稿合成一份终稿。然后它甩出一张成绩单——在一个深度研究的擂台上,一桌由 Gemini 3 Flash、Kimi K2.6、DeepSeek V4 Pro 凑起来的"杂牌军",分数盖过了 GPT-5.5、盖过了 Opus 4.8,离那个被锁进证物间的 Fable 5 只差 0.6 分。

这三个模型我都单独跑过。单拎出来,没一个是 T0,最强的 DeepSeek V4 Pro 也就 T1 中游。可它们拼一桌,在那张深度研究的榜单上,压过了每一个你今天还买得到的单模型。

这篇就拆这件事:这套"合议"到底是什么、凭什么成立、为什么偏偏是现在这个时刻显得格外聪明。最后,再挑明它哪些地方其实是文字游戏。

要先立一个判断,整篇都围着它转:Anthropic 这两年押的是"造神",把模型越练越大、给神戴上笼口、当成护城河和 SKU 来卖;而 MoA 押的是反过来的那条路——别造神,攒一个草台班子,让一群随时可换的便宜模型互相吵、合议出共识。神被一封信没收的这几天,恰好替草台班子做了次实战检验。

一、先把"三个臭皮匠"这事讲明白——合议到底怎么合

MoA 全称 Mixture of Agents,直译"智能体的混合",我更愿意叫它"多模型合议"。这名字不是 OpenRouter 发明的,是 Together AI 2024 年 6 月一篇论文里提的,编号 arxiv 2406.04692,圈里人当时讨论过一阵,然后就放凉了。两年后被重新捡起来做成产品,才有了今天这一出。

它的机制,掰开看就两步。

第一步叫扇出。你的一个问题,不再只问一个模型,而是同时发给好几个模型,让它们各写各的。论文里管这些打头阵的模型叫 proposer,提议者——它们的任务不是给最终答案,是各自端出一个有自己角度的草稿。

第二步叫合稿。所有草稿收齐,交给另一个模型,论文里叫 aggregator,聚合者。它把这几份草稿通读一遍,挑出大家都同意的地方、标出互相打架的地方、补上谁都没提到的盲点,然后合成一份终稿。

讲究一点的做法会把这套流程叠好几层:第一层几个提议者出草稿,第二层的聚合者读完草稿再各自重写一遍,第三层再合……Together 那篇的参考实现是三层。但内核就是"扇出—合稿"这一下。

一个问题扇给几个便宜模型各写一稿,再由一个聚合者读完所有草稿、合成终稿。下面那条灰带是传统做法的对照。

真正反直觉的,是论文里那个被反复引用的发现,他们起了个名字叫 collaborativeness of LLMs,模型的"协作性"——

把别的模型的答案摆给一个模型看,哪怕那些答案比它自己写的还烂,它接下来写出的东西,也会变好。

这句话值得停一下。它的意思是,合议带来的提升,不全靠"找几个更强的帮手"。哪怕给你看的是几份不如你的草稿,光是"先看看别人怎么答、再动笔"这个动作本身,就能把你的水平往上拽一截。像极了开卷考试——哪怕同桌抄给你的答案是错的,你瞄一眼他的思路,自己那道题反而做对了。

Together 当年拿这套机制做过一次最出名的实验。六个开源模型当提议者,没一个是顶配,全是 WizardLM、Qwen1.5、Llama-3、Mixtral 这个级别的开源货,聚合者用的也只是 Qwen1.5-110B。结果在 AlpacaEval 2.0 这个评测上,这套全开源的草台班子拿了 65.1 分,把当时如日中天的 GPT-4o 的 57.5 分,干下去了将近八分。

这是 MoA 第一次证明:一群单独都打不过国王的模型,抱团合议,能掀翻当时的国王。

只不过那是 2024 年的国王。两年后的今天,国王换人了,玩法也从一篇论文变成了你点一下就能用的按钮。

二、OpenRouter Fusion:把老主意做成按钮,再甩出一张刺眼的成绩单

先说 OpenRouter 是谁,圈外读者可能没概念。它是一个 AI 模型的"中转站"——你不用分别去 Anthropic、OpenAI、谷歌、月之暗面各开一个账号,在它这儿一个 Key 就能调用四百多个模型。我自己一直把它当"消费者之选"看,因为它能真实反映出大量在构建 AI 应用的人,掏钱在用哪些模型。

它这次上的 Fusion,就是把上一节那套合议机制,做成了一个开箱即用的端点。3 月底先放了预览,6 月 12 日补上了成绩单。它的合稿做得比论文更细:那个当裁判的聚合者,会先输出一段结构化分析——哪些是共识、哪些互相矛盾、哪些只覆盖了一部分、哪些是独有的洞见、哪些是集体盲点,然后才落笔写终稿。

关键是那张成绩单。它用的擂台叫 DRACO,是 Perplexity 出的一个深度研究基准,一百道题,横跨十个领域,专门考"把复杂问题查清楚、综合成一篇有理有据的分析"这种活。

OpenRouter 官方那张成绩单。紫色是合议、橙色是单跑。注意最底下那行小字:Fable 5 只跑了 100 道里的 93 道,剩下 7 道被它自己的内容过滤器挡掉了。来源:openrouter.ai

翻成中文,把关键几行标出来:

配置 DRACO 得分 类型
Fable 5 + GPT-5.5(聚合者 Opus 4.8) 69.0 合议
Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro 68.3 合议
Opus 4.8 + GPT-5.5 67.6 合议
Opus 4.8 + Opus 4.8(自己跟自己) 65.5 合议
Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro 64.7 合议·预算档
Fable 5 65.3 单跑
DeepSeek V4 Pro 60.3 单跑
GPT-5.5 60.0 单跑
Opus 4.8 58.8 单跑
Kimi K2.6 53.7 单跑
Gemini 3.1 Pro 45.4 单跑
Gemini 3 Flash 43.1 单跑

这张表里藏着三件值得拎出来单讲的事。

第一件,就是开头那桌杂牌军。Gemini 3 Flash 单跑 43.1,Kimi K2.6 单跑 53.7,DeepSeek V4 Pro 单跑 60.3,三个一平均才五十出头。仨凑一桌合议,冲到 64.7——比它们自己的平均分高出十二分,一脚跨进了 Fable 5 那一档,离国王只差 0.6 分。而它脚下踩着的,是 GPT-5.5 的 60.0、Opus 4.8 的 58.8,全是几周前还被叫做"前沿"的名字。

第二件更怪。看 Opus 4.8 那两行:自己单跑 58.8,让它跟自己的另一份草稿合议一下,65.5。

同一个模型,跑两遍,自己当自己的裁判,凭空多了 6.7 分。

这一行基本击穿了一个偷懒的解释。你本来可能以为,合议之所以管用,是因为"模型不一样、视角才多元"。可这里前后是同一个模型,没有任何跨模型的多样性可言,光是"写两稿、再审一遍、合一稿"这个动作,就值六分多。换句话说,合议提升里有很大一块,来自"二次审稿"本身,跟你凑了几家的模型没关系。

第三件,是国王的姿态。你注意到没有,Fable 5 也在合议那一栏里——它单跑 65.3 已经是单模型最高,可它要再往上够到 69.0 这个全场最高分,也得拉上 GPT-5.5 抱团。连最强的那个,都没法靠自己一个人站到顶。

我得在这儿踩一脚刹车,说句精确的话,免得你被那张表带飞。

那桌纯便宜货(64.7),严格说并没有"反超"Fable 5(65.3),是差着 0.6 分逼平。真正坐到 69.0 那个王座上的配置,里头是带着 Fable 5 的。所以"弱鸡群殴翻最强王者"这种爽文标题,对不上现在这张表——能对上的,是 2024 那篇老论文里翻掉 GPT-4o 的那一桌开源货。

但这丝毫不影响那件最要命的事实:Fable 5 现在被锁在证物间里,你根本调不到。把它划掉,这张表上你今天真正花钱买得到的最强单模型,是 60 分出头的那几个。而一桌便宜货合议出来的 64.7,把它们全甩在了身后。

至少在深度研究这张榜上,此刻能买到的"最强",已经不是一个模型,是一桌模型的合奏。

三、为什么偏偏是现在——一封信凑出来的天然实验

省钱这件事,MoA 的鼓吹者讲了两年了,没新意。这个时刻真正有意思的,是它顺手撞上了一个谁都没设计过的天然实验。

把时间线摆一起看:6 月 9 日 Fable 5 发布,屠榜,Karpathy 写长评说这是大半年来头一回"配得上大版本号"的台阶。6 月 12 日下午五点二十一分,商务部长一封信发到 Anthropic CEO 邮箱,当晚全球关停。到今天还没放出来。

6 月 26 日,政府只松口放了孪生兄弟 Mythos 5 给一百多家美国机构,Fable 5 仍被关着。导语原文:那道出口管制指令"迫使 Anthropic 对所有客户关停了 Fable 5 和 Mythos 5"。来源:9to5Mac

一个被全世界公认的最强模型,可以在一个周五的傍晚,因为一封没写清细节的信,对所有人凭空消失。

这件事对"造神"路线是个挺尖锐的拷问。你把全部筹码押在一个神身上,把它练到独一档、给它戴上笼口当护城河——可这个神能不能用,最后不取决于你,取决于一纸指令、一次监管、或者哪天它自己涨一倍价。它是一个单点故障。

而一桌草台班子,恰恰没有单点故障。今天 Fable 5 没了,把它从配方里划掉,换 Opus 4.8 顶上,合议照跑,分数掉一点但还在打。明天某个开源模型涨价了,换掉它,配方重配。OpenRouter 官方在文档里说得很直白:具体用哪几个模型是它后台动态选的、会随着更新换代不停调整,你压根不用自己指定。

这就把 MoA 的卖点,从"省钱"悄悄升级成了"对冲"。

省钱是锦上添花;当最强的模型随时可能被一封信、一次封禁、一轮涨价掀翻的时候,不把鸡蛋放进任何一个神的篮子里,这是保命。

还有个细节,黑色幽默到我必须单独点出来。DRACO 那一百道题里,有七道是没法跟 Fable 5 比的——因为 Fable 5 的内容过滤器,把这七道题直接给挡下来、没让它跑。

我上一篇拆 Fable 5 的笼口时写过,它的安全护栏不是拒答,是"换人"——碰到敏感请求,偷偷转给上一代模型来答。现在你看到这套笼口的另一个副作用了:它紧到连自家参加个基准测试,都能把自己的七道题给焊死。神被供得越高、笼子焊得越紧,它能下场干的活就越少。那桌便宜货倒没在这几道题上掉链子,给钱就上,给题就答。

四、Hermes 入场,以及"造你自己的神"正在变成基础设施

如果只有 OpenRouter 一家在玩,那还只是个产品功能。但这套东西正在变成一层基础设施——好几家在同时往里冲。

最值得说的是 Hermes Agent。它是 Nous Research 做的一个开源自主 agent,2 月底才发布,四个月攒了十几万颗星,是今年蹿得最快的开源 agent 框架之一。前阵子它也把 MoA 做成了内置功能,Nous 的核心人物 Teknium 在 X 上管这版叫 Mixture of Agents 2.0:你可以把任意厂商的任意模型,攒成一套属于你自己的合议配方,存成一个预设,之后调用它,就像调用一个普通模型一样顺手。

相当于,它把"造神"这件以前只有大厂玩得起的事,下放给了每个用户——你没法训一个 Fable 5,但你可以攒一个属于自己的草台班子,把它当神来用。

Hermes 也给了组自家数字。在它还没正式发布的 HermesBench 上,Opus 4.8 加 GPT-5.5 合议,拿 0.8202,比单跑的 Opus 4.8(0.7607)、单跑的 GPT-5.5(0.7412)都高——它自己的说法是,分别高出 8% 和 11%。

Teknium 发布 MoA 2.0 的原帖,内嵌那段 HermesBench 演示里,moa 0.8202、opus-4.8 0.7607、gpt-5.5 0.7412 三根条一目了然。来源:x.com/Teknium

但这组数字得配个冷知识一起看,不然容易上头。

Hermes 这个最猛的配置,混的是 Opus 4.8 和 GPT-5.5——两个都是前沿模型。这讲的是"前沿加前沿,盖过单个前沿",跟 OpenRouter 那桌"便宜货抱团逆袭"是两码事,含金量差着一截。再加上 HermesBench 是它自家、还没公开发布的榜,自己考自己,先听个响就行,别当圣旨。用户原话里"还在测试最优的模型组合",翻译过来就是:这事根本还没收敛,所有人都在拿不同模型配比试错,谁也没敢说自己找到了标准答案。

这恰恰是这个赛道现在的真实状态——不是某一桌已经称王了,是大家刚发现"原来还能这么拼桌",正满世界试配方。

五、先泼一瓢冷水——合议不是免费的午餐

夸了这么多,得把这桌饭真正的几根刺挑出来,不然就成软文了。

第一根刺:它一点都不新。 这套东西 2024 年论文里就有了,OpenRouter、Hermes 干的是"把它产品化、做成一个 API",不是发明。社区里早就有人吐槽:怎么这么多人惊讶 MoA 居然存在,它从 2024 年就在那儿了。这波热度里很大一部分,是营销造出来的"新"。

第二根刺,也是最关键的一根:那张漂亮的成绩单,根本没考编程。 DRACO 是个深度研究基准,考的是查资料、做综合、写分析,里头一道写代码、调 bug 的题都没有。所以你不能拿这 64.7 分去推断"合议很会写代码"。恰恰相反,代码这东西对错是二元的——一份能跑,另一份编译都过不了,你让聚合者去"合"这两份草稿,合出来很可能是个谁都跑不通的缝合怪。真要写代码,老老实实用单个专用模型,Kimi 最新的 K2.7-Code、或者 DeepSeek V4 Pro,比这桌合议靠谱得多。

第三根刺:那个"半价"是文字游戏。 你想想就知道,三个模型并行跑、外加一个裁判合稿,这是四次模型调用,绝对开销是涨的不是降的——一个默认的三模型组合,单次成本是直接调一个模型的好几倍,连那个最省的预算档,单次都比直接调一个 Opus 4.8 要贵。所谓"半价",比的是 Fable 5 那种顶配溢价定价。拿一桌便宜货去够 Fable 5 的水平、只花 Fable 5 一半的钱,这句是真的;但它绝不比你平时单调一个中端模型便宜。

第四根刺:慢。 扇出加合稿,是好几个模型先后跑完一整套,整体比直接调一个模型慢不少,一次等上十几秒是常态。深度研究你愿意等,可你要拿它做快问快答、做高并发的批量任务,这个延迟直接劝退。

第五根刺:那张表本身有多稳,存疑。 这套打法对"谁来当裁判"极其敏感——同一桌模型,换一个聚合者来合稿,整张排名都可能重排。所以那张成绩单,与其当成铁律,不如当成一个"方向性参考":它说明合议这条路走得通,但具体谁第一谁第二,别太当真。

把公道话也说回来:上面这些刺,没有一根能否定它。深度研究这种"答错了代价很大、你也愿意多等十几秒、还不在乎多花点钱买个稳"的场景,正是合议的主场。它不是一把万能钥匙,是一把在特定门上极其好使的刀。认清它开哪扇门,比争论它强不强重要得多。

六、两条路,你押哪条

绕回开头那个框架。

两条路各有各的命门,也各有各的主场。最底下那行是结论:不是谁灭谁,是分工。

一条路是造神:把模型练到独一档,戴上笼口,当护城河和 SKU。它的上限极高——Fable 5 在 SWE-Bench Pro 上把第二名甩开 11 分,这种碾压是合议短期摸不到的天花板。但它的命门也清清楚楚:贵、单点、可以被一封信关进证物间。

另一条路是合议:不赌任何单个神,攒一桌随时可换的便宜模型,让它们互相看草稿、吵出共识。它够不到最高的那块天花板,编程上还是个缝合怪,慢,也没它吹得那么省。但它便宜得起、换得动、关不死,还在深度综合这种活上,实打实压过了榜上每一个你今天还买得到的单模型。

这两条路不是你死我活,是分工。要峰值、要写代码、要快——单个神。要韧性、要深度综合、要一个谁也焊不死的工作流——一桌合议。

真正变了的,是"最强模型"这四个字,第一次显得这么靠不住。它可能被一封信关停,可能在一个你没听过的小众 benchmark 上被某种拼法逼近甚至盖过,可能某天早上醒来就涨了一倍价。当国王本人都这么不稳的时候,你是继续把全部身家押在那个随时可能被没收的神身上,还是开始学着,自己攒一桌呢?