深度拆解 Claude Sonnet 5:升级的不是脑子,是计价器
这篇稿子是用 Claude Code 写的,执行的模型就是文章的主角——claude-sonnet-5。6 月 30 日上线,我当天就把日常写稿的工位从 Sonnet 4.6 切了过去,没跟任何人商量,写到一半才想起来,这事儿本身就该写进正文。
Anthropic 这次发布会上说得最多的一句话是"性能逼近 Opus 4.8,价格却便宜得多"。这话没错,但说了等于没说——每家模型公司发新版本,台词都长这样。真正值得写一篇稿子的,是这句话背后藏着的一个机关:Sonnet 5 把"选哪个模型"这道选择题,悄悄换成了"踩多深油门"。
一、旋钮比挡位聪明,但底价也更难看清
以前用 Claude,逻辑很简单:便宜任务用 Sonnet,难任务砸钱上 Opus,挡位制,一脚踩到底。Sonnet 5 引入的 effort(努力程度)参数,把这件事变成了连续旋钮,一共五档:low、medium、high、xhigh、max。同一个模型,拧到 medium,它是个便宜跑腿的;拧到 xhigh,官网自己晒出的曲线显示,它在一部分任务上能摸到 Opus 4.8 的天花板。Claude Code 和 API 默认给 Sonnet 5 设的就是 high。也就是说,你什么都没动手设置,系统已经替你把油门踩到了七八分。
这是个聪明的产品决定:把"买哪辆车"的选择题,换成了"踩多深"的连续题,理论上每一分钱都能花在刀刃上。但旋钮也有挡位制没有的毛病——你很难再一眼看出"这趟车到底要花多少钱",因为表跳得比以前快,也比以前模糊。
Sonnet 5 卖的不是一个更聪明的模型,是一个更暧昧的计价器。
二、价目表摆出来,先看清楚写了什么
| 维度 | Sonnet 5 | Opus 4.8 | Sonnet 4.6(上一代) |
|---|---|---|---|
| 输入/输出价格(现在,至 8 月 31 日) | 2 美元 / 10 美元(每百万 token) | 5 美元 / 25 美元(每百万 token) | 3 美元 / 15 美元(每百万 token) |
| 输入/输出价格(9 月 1 日起) | 3 美元 / 15 美元(每百万 token) | 5 美元 / 25 美元(每百万 token) | 3 美元 / 15 美元(每百万 token) |
| 上下文窗口 | 100 万 token | 100 万 token | 100 万 token |
| SWE-bench Pro(编程基准) | 63.2% | 69.2%(官方标注"参考值") | 58.1% |
图:Anthropic 官方公告原文里的定价段落。
定价本身不复杂:限时价撐到 8 月 31 日,9 月 1 日起涨到标准价,输出比输入贵 5 倍——这个比例 Opus、Sonnet 一直没变过。上下文窗口 100 万 token,是当前 Sonnet 系列的标配,不是 Sonnet 5 独有的新东西。
图:Anthropic 官方公告原文里的 benchmark 对照表,Opus 4.8 那一列被单独标注"For reference"。
SWE-bench Pro 测的是真实代码仓库里的工程活,题目都来自还在维护的项目,改动往往牵涉好几个文件,比那种"改一行就能过"的基准难得多。官方表格摆得很直白:Sonnet 5 比上一代 Sonnet 4.6 高了 5 个百分点,但离专门标了"For reference"的 Opus 4.8 还差着 6 个点。“性能逼近 Opus"这句话,在这道题上是真的接近,不是纯营销话术——只是"逼近"两个字背后,还留着一道看得见的差距。
三、便宜两个字,后面跟着一行小字
官方公告的脚注②写得很直白:Sonnet 5 换了新的分词器,同一段文字,现在算出来的 token 数是以前的 1.0 到 1.35 倍。官方的解释是"限时定价已经把这部分换算成本摊平了,过渡是成本中性的”——翻译过来就是:账面降价是真的,但分母也在悄悄变大,两件事同时发生,最后落到账单上的数字,未必跟海报上印的一样好看。
X 上已经有人拿账单说话。做 AI 编程内容的博主 bridgemindai 测完吐槽:“Sonnet 5 Max 比 Opus 4.8 Max 只便宜 0.72 美元,这价格还谈什么用 Sonnet 的意义。“另一边,AI 博主 DaveShapi 抱怨它还是爱说教、答非所问、被怼一句就甩手不干——这倒是老熟人的老毛病,没跟着这次升级一起进化。
便宜不是假话,但它是个有前提的命题,前提就藏在那条没什么人会点开看的脚注里。
四、说句公道话
把账算清楚之后,也得承认 Sonnet 5 这次干的活是真活。做 AI 编程的 Cognition(Devin 背后那家公司)发布当天就接入,说它在自家的 FrontierCode Extended 测试上跑赢了 Opus 4.8;GitHub Copilot 的说法是它在命令行式任务上表现扎实、缓存命中率高,低 effort 档的延迟也打得过对手。Zapier 工程师 Daniel Shepard 给的例子很具体:让 Sonnet 5 干一件"先改 Salesforce 客户分级,再给企业联系人群发上线通知"的两步活,过去这种任务做到一半就容易卡壳,这次它一口气从头跑到了尾。这不是客套话,是真有人把活儿甩给它、它接住了。
收束
所以 Sonnet 5 到底是不是一次"降价”?是,但降价这件事现在长得不一样了——它不再是价目表上一个数字往下挪,而是一个你自己得去拧的旋钮。拧得好是真省钱,拧不好,分词器和 effort 两头一起偷偷往上走,你未必能发现。下次你的 Claude 账单比预期厚一圈,先别急着怪自己用多了。回头看看,是不是有人,不声不响把油门踩深了。