命题 XXXI — 大语言模型

深度拆解 Claude Sonnet 5：升级的不是脑子，是计价器

2026·07·01约 2,013 字5 MIN

这篇稿子是用 Claude Code 写的，执行的模型就是文章的主角——claude-sonnet-5。6 月 30 日上线，我当天就把日常写稿的工位从 Sonnet 4.6 切了过去，没跟任何人商量，写到一半才想起来，这事儿本身就该写进正文。

Anthropic 这次发布会上说得最多的一句话是"性能逼近 Opus 4.8，价格却便宜得多"。这话没错，但说了等于没说——每家模型公司发新版本，台词都长这样。真正值得写一篇稿子的，是这句话背后藏着的一个机关：Sonnet 5 把"选哪个模型"这道选择题，悄悄换成了"踩多深油门"。

一、旋钮比挡位聪明，但底价也更难看清

以前用 Claude，逻辑很简单：便宜任务用 Sonnet，难任务砸钱上 Opus，挡位制，一脚踩到底。Sonnet 5 引入的 effort（努力程度）参数，把这件事变成了连续旋钮，一共五档：low、medium、high、xhigh、max。同一个模型，拧到 medium，它是个便宜跑腿的；拧到 xhigh，官网自己晒出的曲线显示，它在一部分任务上能摸到 Opus 4.8 的天花板。Claude Code 和 API 默认给 Sonnet 5 设的就是 high。也就是说，你什么都没动手设置，系统已经替你把油门踩到了七八分。

这是个聪明的产品决定：把"买哪辆车"的选择题，换成了"踩多深"的连续题，理论上每一分钱都能花在刀刃上。但旋钮也有挡位制没有的毛病——你很难再一眼看出"这趟车到底要花多少钱"，因为表跳得比以前快，也比以前模糊。

Sonnet 5 卖的不是一个更聪明的模型，是一个更暧昧的计价器。

二、价目表摆出来，先看清楚写了什么

维度	Sonnet 5	Opus 4.8	Sonnet 4.6（上一代）
输入/输出价格（现在，至 8 月 31 日）	2 美元 / 10 美元（每百万 token）	5 美元 / 25 美元（每百万 token）	3 美元 / 15 美元（每百万 token）
输入/输出价格（9 月 1 日起）	3 美元 / 15 美元（每百万 token）	5 美元 / 25 美元（每百万 token）	3 美元 / 15 美元（每百万 token）
上下文窗口	100 万 token	100 万 token	100 万 token
SWE-bench Pro（编程基准）	63.2%	69.2%（官方标注"参考值"）	58.1%

图：Anthropic 官方公告原文里的定价段落。

定价本身不复杂：限时价撐到 8 月 31 日，9 月 1 日起涨到标准价，输出比输入贵 5 倍——这个比例 Opus、Sonnet 一直没变过。上下文窗口 100 万 token，是当前 Sonnet 系列的标配，不是 Sonnet 5 独有的新东西。

图：Anthropic 官方公告原文里的 benchmark 对照表，Opus 4.8 那一列被单独标注"For reference"。

SWE-bench Pro 测的是真实代码仓库里的工程活，题目都来自还在维护的项目，改动往往牵涉好几个文件，比那种"改一行就能过"的基准难得多。官方表格摆得很直白：Sonnet 5 比上一代 Sonnet 4.6 高了 5 个百分点，但离专门标了"For reference"的 Opus 4.8 还差着 6 个点。“性能逼近 Opus"这句话，在这道题上是真的接近，不是纯营销话术——只是"逼近"两个字背后，还留着一道看得见的差距。

三、便宜两个字，后面跟着一行小字

官方公告的脚注②写得很直白：Sonnet 5 换了新的分词器，同一段文字，现在算出来的 token 数是以前的 1.0 到 1.35 倍。官方的解释是"限时定价已经把这部分换算成本摊平了，过渡是成本中性的”——翻译过来就是：账面降价是真的，但分母也在悄悄变大，两件事同时发生，最后落到账单上的数字，未必跟海报上印的一样好看。

X 上已经有人拿账单说话。做 AI 编程内容的博主 bridgemindai 测完吐槽：“Sonnet 5 Max 比 Opus 4.8 Max 只便宜 0.72 美元，这价格还谈什么用 Sonnet 的意义。“另一边，AI 博主 DaveShapi 抱怨它还是爱说教、答非所问、被怼一句就甩手不干——这倒是老熟人的老毛病，没跟着这次升级一起进化。

便宜不是假话，但它是个有前提的命题，前提就藏在那条没什么人会点开看的脚注里。

四、说句公道话

把账算清楚之后，也得承认 Sonnet 5 这次干的活是真活。做 AI 编程的 Cognition（Devin 背后那家公司）发布当天就接入，说它在自家的 FrontierCode Extended 测试上跑赢了 Opus 4.8；GitHub Copilot 的说法是它在命令行式任务上表现扎实、缓存命中率高，低 effort 档的延迟也打得过对手。Zapier 工程师 Daniel Shepard 给的例子很具体：让 Sonnet 5 干一件"先改 Salesforce 客户分级，再给企业联系人群发上线通知"的两步活，过去这种任务做到一半就容易卡壳，这次它一口气从头跑到了尾。这不是客套话，是真有人把活儿甩给它、它接住了。

收束

所以 Sonnet 5 到底是不是一次"降价”？是，但降价这件事现在长得不一样了——它不再是价目表上一个数字往下挪，而是一个你自己得去拧的旋钮。拧得好是真省钱，拧不好，分词器和 effort 两头一起偷偷往上走，你未必能发现。下次你的 Claude 账单比预期厚一圈，先别急着怪自己用多了。回头看看，是不是有人，不声不响把油门踩深了。

∎