命题 XXIX — 机器学习 · 大语言模型

深度拆解 Mixture of Agents：最强模型被一封信关停的那几天，一桌便宜货合议差点掀了王座

2026·06·28约 6,429 字13 MIN

半个月前我写过一篇速报，讲 Anthropic 最强的模型 Fable 5 上线 72 小时，被美国政府一封出口管制信摁下线，连同它的孪生兄弟 Mythos 5 一起，对全球所有人关停。当时我结尾写了句：那条戴着笼口的神话，这次连笼子一起，被搬进了证物间。

到今天，发布过去十九天，下线也满了十六天。证物间没开门。

6 月 26 日政府松了半个口子，允许 Mythos 5 重新部署给一百多家美国关键基础设施机构。但这次松口只放了 Mythos 5，Fable 5 提都没提；Anthropic 那边说还在争取恢复。换句话说，那个 SWE-Bench Pro 跑 80.3 分、把第二名甩开 11 分的国王，你现在花钱也买不到。你能买到的最强 Claude，还是上一代的 Opus 4.8。

就在这个国王缺席的窗口里，一件挺反常识的事发生了。

OpenRouter 上线了一个叫 Fusion 的新模式。它干的事，说穿了特别土：把你的一个问题，同时甩给三五个便宜模型各写一份草稿，再拉一个模型当裁判，把这几份草稿合成一份终稿。然后它甩出一张成绩单——在一个深度研究的擂台上，一桌由 Gemini 3 Flash、Kimi K2.6、DeepSeek V4 Pro 凑起来的"杂牌军"，分数盖过了 GPT-5.5、盖过了 Opus 4.8，离那个被锁进证物间的 Fable 5 只差 0.6 分。

这三个模型我都单独跑过。单拎出来，没一个是 T0，最强的 DeepSeek V4 Pro 也就 T1 中游。可它们拼一桌，在那张深度研究的榜单上，压过了每一个你今天还买得到的单模型。

这篇就拆这件事：这套"合议"到底是什么、凭什么成立、为什么偏偏是现在这个时刻显得格外聪明。最后，再挑明它哪些地方其实是文字游戏。

要先立一个判断，整篇都围着它转：Anthropic 这两年押的是"造神"，把模型越练越大、给神戴上笼口、当成护城河和 SKU 来卖；而 MoA 押的是反过来的那条路——别造神，攒一个草台班子，让一群随时可换的便宜模型互相吵、合议出共识。神被一封信没收的这几天，恰好替草台班子做了次实战检验。

一、先把"三个臭皮匠"这事讲明白——合议到底怎么合

MoA 全称 Mixture of Agents，直译"智能体的混合"，我更愿意叫它"多模型合议"。这名字不是 OpenRouter 发明的，是 Together AI 2024 年 6 月一篇论文里提的，编号 arxiv 2406.04692，圈里人当时讨论过一阵，然后就放凉了。两年后被重新捡起来做成产品，才有了今天这一出。

它的机制，掰开看就两步。

第一步叫扇出。你的一个问题，不再只问一个模型，而是同时发给好几个模型，让它们各写各的。论文里管这些打头阵的模型叫 proposer，提议者——它们的任务不是给最终答案，是各自端出一个有自己角度的草稿。

第二步叫合稿。所有草稿收齐，交给另一个模型，论文里叫 aggregator，聚合者。它把这几份草稿通读一遍，挑出大家都同意的地方、标出互相打架的地方、补上谁都没提到的盲点，然后合成一份终稿。

讲究一点的做法会把这套流程叠好几层：第一层几个提议者出草稿，第二层的聚合者读完草稿再各自重写一遍，第三层再合……Together 那篇的参考实现是三层。但内核就是"扇出—合稿"这一下。

一个问题扇给几个便宜模型各写一稿，再由一个聚合者读完所有草稿、合成终稿。下面那条灰带是传统做法的对照。

真正反直觉的，是论文里那个被反复引用的发现，他们起了个名字叫 collaborativeness of LLMs，模型的"协作性"——

把别的模型的答案摆给一个模型看，哪怕那些答案比它自己写的还烂，它接下来写出的东西，也会变好。

这句话值得停一下。它的意思是，合议带来的提升，不全靠"找几个更强的帮手"。哪怕给你看的是几份不如你的草稿，光是"先看看别人怎么答、再动笔"这个动作本身，就能把你的水平往上拽一截。像极了开卷考试——哪怕同桌抄给你的答案是错的，你瞄一眼他的思路，自己那道题反而做对了。

Together 当年拿这套机制做过一次最出名的实验。六个开源模型当提议者，没一个是顶配，全是 WizardLM、Qwen1.5、Llama-3、Mixtral 这个级别的开源货，聚合者用的也只是 Qwen1.5-110B。结果在 AlpacaEval 2.0 这个评测上，这套全开源的草台班子拿了 65.1 分，把当时如日中天的 GPT-4o 的 57.5 分，干下去了将近八分。

这是 MoA 第一次证明：一群单独都打不过国王的模型，抱团合议，能掀翻当时的国王。

只不过那是 2024 年的国王。两年后的今天，国王换人了，玩法也从一篇论文变成了你点一下就能用的按钮。

二、OpenRouter Fusion：把老主意做成按钮，再甩出一张刺眼的成绩单

先说 OpenRouter 是谁，圈外读者可能没概念。它是一个 AI 模型的"中转站"——你不用分别去 Anthropic、OpenAI、谷歌、月之暗面各开一个账号，在它这儿一个 Key 就能调用四百多个模型。我自己一直把它当"消费者之选"看，因为它能真实反映出大量在构建 AI 应用的人，掏钱在用哪些模型。

它这次上的 Fusion，就是把上一节那套合议机制，做成了一个开箱即用的端点。3 月底先放了预览，6 月 12 日补上了成绩单。它的合稿做得比论文更细：那个当裁判的聚合者，会先输出一段结构化分析——哪些是共识、哪些互相矛盾、哪些只覆盖了一部分、哪些是独有的洞见、哪些是集体盲点，然后才落笔写终稿。

关键是那张成绩单。它用的擂台叫 DRACO，是 Perplexity 出的一个深度研究基准，一百道题，横跨十个领域，专门考"把复杂问题查清楚、综合成一篇有理有据的分析"这种活。

OpenRouter 官方那张成绩单。紫色是合议、橙色是单跑。注意最底下那行小字：Fable 5 只跑了 100 道里的 93 道，剩下 7 道被它自己的内容过滤器挡掉了。来源：openrouter.ai

翻成中文，把关键几行标出来：

配置	DRACO 得分	类型
Fable 5 ＋ GPT-5.5（聚合者 Opus 4.8）	69.0	合议
Opus 4.8 ＋ GPT-5.5 ＋ Gemini 3.1 Pro	68.3	合议
Opus 4.8 ＋ GPT-5.5	67.6	合议
Opus 4.8 ＋ Opus 4.8（自己跟自己）	65.5	合议
Gemini 3 Flash ＋ Kimi K2.6 ＋ DeepSeek V4 Pro	64.7	合议·预算档
Fable 5	65.3	单跑
DeepSeek V4 Pro	60.3	单跑
GPT-5.5	60.0	单跑
Opus 4.8	58.8	单跑
Kimi K2.6	53.7	单跑
Gemini 3.1 Pro	45.4	单跑
Gemini 3 Flash	43.1	单跑

这张表里藏着三件值得拎出来单讲的事。

第一件，就是开头那桌杂牌军。Gemini 3 Flash 单跑 43.1，Kimi K2.6 单跑 53.7，DeepSeek V4 Pro 单跑 60.3，三个一平均才五十出头。仨凑一桌合议，冲到 64.7——比它们自己的平均分高出十二分，一脚跨进了 Fable 5 那一档，离国王只差 0.6 分。而它脚下踩着的，是 GPT-5.5 的 60.0、Opus 4.8 的 58.8，全是几周前还被叫做"前沿"的名字。

第二件更怪。看 Opus 4.8 那两行：自己单跑 58.8，让它跟自己的另一份草稿合议一下，65.5。

同一个模型，跑两遍，自己当自己的裁判，凭空多了 6.7 分。

这一行基本击穿了一个偷懒的解释。你本来可能以为，合议之所以管用，是因为"模型不一样、视角才多元"。可这里前后是同一个模型，没有任何跨模型的多样性可言，光是"写两稿、再审一遍、合一稿"这个动作，就值六分多。换句话说，合议提升里有很大一块，来自"二次审稿"本身，跟你凑了几家的模型没关系。

第三件，是国王的姿态。你注意到没有，Fable 5 也在合议那一栏里——它单跑 65.3 已经是单模型最高，可它要再往上够到 69.0 这个全场最高分，也得拉上 GPT-5.5 抱团。连最强的那个，都没法靠自己一个人站到顶。

我得在这儿踩一脚刹车，说句精确的话，免得你被那张表带飞。

那桌纯便宜货（64.7），严格说并没有"反超"Fable 5（65.3），是差着 0.6 分逼平。真正坐到 69.0 那个王座上的配置，里头是带着 Fable 5 的。所以"弱鸡群殴翻最强王者"这种爽文标题，对不上现在这张表——能对上的，是 2024 那篇老论文里翻掉 GPT-4o 的那一桌开源货。

但这丝毫不影响那件最要命的事实：Fable 5 现在被锁在证物间里，你根本调不到。把它划掉，这张表上你今天真正花钱买得到的最强单模型，是 60 分出头的那几个。而一桌便宜货合议出来的 64.7，把它们全甩在了身后。

至少在深度研究这张榜上，此刻能买到的"最强"，已经不是一个模型，是一桌模型的合奏。

三、为什么偏偏是现在——一封信凑出来的天然实验

省钱这件事，MoA 的鼓吹者讲了两年了，没新意。这个时刻真正有意思的，是它顺手撞上了一个谁都没设计过的天然实验。

把时间线摆一起看：6 月 9 日 Fable 5 发布，屠榜，Karpathy 写长评说这是大半年来头一回"配得上大版本号"的台阶。6 月 12 日下午五点二十一分，商务部长一封信发到 Anthropic CEO 邮箱，当晚全球关停。到今天还没放出来。

6 月 26 日，政府只松口放了孪生兄弟 Mythos 5 给一百多家美国机构，Fable 5 仍被关着。导语原文：那道出口管制指令"迫使 Anthropic 对所有客户关停了 Fable 5 和 Mythos 5"。来源：9to5Mac

一个被全世界公认的最强模型，可以在一个周五的傍晚，因为一封没写清细节的信，对所有人凭空消失。

这件事对"造神"路线是个挺尖锐的拷问。你把全部筹码押在一个神身上，把它练到独一档、给它戴上笼口当护城河——可这个神能不能用，最后不取决于你，取决于一纸指令、一次监管、或者哪天它自己涨一倍价。它是一个单点故障。

而一桌草台班子，恰恰没有单点故障。今天 Fable 5 没了，把它从配方里划掉，换 Opus 4.8 顶上，合议照跑，分数掉一点但还在打。明天某个开源模型涨价了，换掉它，配方重配。OpenRouter 官方在文档里说得很直白：具体用哪几个模型是它后台动态选的、会随着更新换代不停调整，你压根不用自己指定。

这就把 MoA 的卖点，从"省钱"悄悄升级成了"对冲"。

省钱是锦上添花；当最强的模型随时可能被一封信、一次封禁、一轮涨价掀翻的时候，不把鸡蛋放进任何一个神的篮子里，这是保命。

还有个细节，黑色幽默到我必须单独点出来。DRACO 那一百道题里，有七道是没法跟 Fable 5 比的——因为 Fable 5 的内容过滤器，把这七道题直接给挡下来、没让它跑。

我上一篇拆 Fable 5 的笼口时写过，它的安全护栏不是拒答，是"换人"——碰到敏感请求，偷偷转给上一代模型来答。现在你看到这套笼口的另一个副作用了：它紧到连自家参加个基准测试，都能把自己的七道题给焊死。神被供得越高、笼子焊得越紧，它能下场干的活就越少。那桌便宜货倒没在这几道题上掉链子，给钱就上，给题就答。

四、Hermes 入场，以及"造你自己的神"正在变成基础设施

如果只有 OpenRouter 一家在玩，那还只是个产品功能。但这套东西正在变成一层基础设施——好几家在同时往里冲。

最值得说的是 Hermes Agent。它是 Nous Research 做的一个开源自主 agent，2 月底才发布，四个月攒了十几万颗星，是今年蹿得最快的开源 agent 框架之一。前阵子它也把 MoA 做成了内置功能，Nous 的核心人物 Teknium 在 X 上管这版叫 Mixture of Agents 2.0：你可以把任意厂商的任意模型，攒成一套属于你自己的合议配方，存成一个预设，之后调用它，就像调用一个普通模型一样顺手。

相当于，它把"造神"这件以前只有大厂玩得起的事，下放给了每个用户——你没法训一个 Fable 5，但你可以攒一个属于自己的草台班子，把它当神来用。

Hermes 也给了组自家数字。在它还没正式发布的 HermesBench 上，Opus 4.8 加 GPT-5.5 合议，拿 0.8202，比单跑的 Opus 4.8（0.7607）、单跑的 GPT-5.5（0.7412）都高——它自己的说法是，分别高出 8% 和 11%。

Teknium 发布 MoA 2.0 的原帖，内嵌那段 HermesBench 演示里，moa 0.8202、opus-4.8 0.7607、gpt-5.5 0.7412 三根条一目了然。来源：x.com/Teknium

但这组数字得配个冷知识一起看，不然容易上头。

Hermes 这个最猛的配置，混的是 Opus 4.8 和 GPT-5.5——两个都是前沿模型。这讲的是"前沿加前沿，盖过单个前沿"，跟 OpenRouter 那桌"便宜货抱团逆袭"是两码事，含金量差着一截。再加上 HermesBench 是它自家、还没公开发布的榜，自己考自己，先听个响就行，别当圣旨。用户原话里"还在测试最优的模型组合"，翻译过来就是：这事根本还没收敛，所有人都在拿不同模型配比试错，谁也没敢说自己找到了标准答案。

这恰恰是这个赛道现在的真实状态——不是某一桌已经称王了，是大家刚发现"原来还能这么拼桌"，正满世界试配方。

五、先泼一瓢冷水——合议不是免费的午餐

夸了这么多，得把这桌饭真正的几根刺挑出来，不然就成软文了。

第一根刺：它一点都不新。 这套东西 2024 年论文里就有了，OpenRouter、Hermes 干的是"把它产品化、做成一个 API"，不是发明。社区里早就有人吐槽：怎么这么多人惊讶 MoA 居然存在，它从 2024 年就在那儿了。这波热度里很大一部分，是营销造出来的"新"。

第二根刺，也是最关键的一根：那张漂亮的成绩单，根本没考编程。 DRACO 是个深度研究基准，考的是查资料、做综合、写分析，里头一道写代码、调 bug 的题都没有。所以你不能拿这 64.7 分去推断"合议很会写代码"。恰恰相反，代码这东西对错是二元的——一份能跑，另一份编译都过不了，你让聚合者去"合"这两份草稿，合出来很可能是个谁都跑不通的缝合怪。真要写代码，老老实实用单个专用模型，Kimi 最新的 K2.7-Code、或者 DeepSeek V4 Pro，比这桌合议靠谱得多。

第三根刺：那个"半价"是文字游戏。 你想想就知道，三个模型并行跑、外加一个裁判合稿，这是四次模型调用，绝对开销是涨的不是降的——一个默认的三模型组合，单次成本是直接调一个模型的好几倍，连那个最省的预算档，单次都比直接调一个 Opus 4.8 要贵。所谓"半价"，比的是 Fable 5 那种顶配溢价定价。拿一桌便宜货去够 Fable 5 的水平、只花 Fable 5 一半的钱，这句是真的；但它绝不比你平时单调一个中端模型便宜。

第四根刺：慢。 扇出加合稿，是好几个模型先后跑完一整套，整体比直接调一个模型慢不少，一次等上十几秒是常态。深度研究你愿意等，可你要拿它做快问快答、做高并发的批量任务，这个延迟直接劝退。

第五根刺：那张表本身有多稳，存疑。 这套打法对"谁来当裁判"极其敏感——同一桌模型，换一个聚合者来合稿，整张排名都可能重排。所以那张成绩单，与其当成铁律，不如当成一个"方向性参考"：它说明合议这条路走得通，但具体谁第一谁第二，别太当真。

把公道话也说回来：上面这些刺，没有一根能否定它。深度研究这种"答错了代价很大、你也愿意多等十几秒、还不在乎多花点钱买个稳"的场景，正是合议的主场。它不是一把万能钥匙，是一把在特定门上极其好使的刀。认清它开哪扇门，比争论它强不强重要得多。

六、两条路，你押哪条

绕回开头那个框架。

两条路各有各的命门，也各有各的主场。最底下那行是结论：不是谁灭谁，是分工。

一条路是造神：把模型练到独一档，戴上笼口，当护城河和 SKU。它的上限极高——Fable 5 在 SWE-Bench Pro 上把第二名甩开 11 分，这种碾压是合议短期摸不到的天花板。但它的命门也清清楚楚：贵、单点、可以被一封信关进证物间。

另一条路是合议：不赌任何单个神，攒一桌随时可换的便宜模型，让它们互相看草稿、吵出共识。它够不到最高的那块天花板，编程上还是个缝合怪，慢，也没它吹得那么省。但它便宜得起、换得动、关不死，还在深度综合这种活上，实打实压过了榜上每一个你今天还买得到的单模型。

这两条路不是你死我活，是分工。要峰值、要写代码、要快——单个神。要韧性、要深度综合、要一个谁也焊不死的工作流——一桌合议。

真正变了的，是"最强模型"这四个字，第一次显得这么靠不住。它可能被一封信关停，可能在一个你没听过的小众 benchmark 上被某种拼法逼近甚至盖过，可能某天早上醒来就涨了一倍价。当国王本人都这么不稳的时候，你是继续把全部身家押在那个随时可能被没收的神身上，还是开始学着，自己攒一桌呢？

∎