命题 XXIV — 随笔 · 大语言模型

AI 编程的体感骗局：你以为快了 20%，数据说你慢了 19%

2026·06·04约 3,758 字8 MIN

先讲一个有点扎心的实验。

有一家专门评估 AI 能力和风险的研究机构叫 METR，他们找来 16 个货真价实的资深程序员，全是常年泡在大型开源项目里的人，手上的仓库动辄上百万行代码、几万颗星。机构掏真金白银，按 150 美元一小时付费，让这些人去解自己项目里真实的活儿，一共 246 个，平均一个两小时。规则只有一条：有些任务可以用 AI（当时最强的组合，Cursor 配 Claude），有些任务不许用，掐表对比。

动手之前，这些老手信心十足，估计 AI 能让他们快 24% 左右。

干完一对账，傻眼了。用了 AI 的那批活，不但没快，反而慢了 19%。

最魔幻的还不是这个。实验结束，机构问他们体感如何，这群人——明明每一秒都被记录在案、明明数据白纸黑字摆着慢了——回过头一估算，平均仍然觉得 AI 让自己快了大概 20%。

你没看错。实测慢 19%，体感快 20%，中间隔着将近 40 个百分点的鸿沟。而站在鸿沟这头的，不是什么小白，是一群最懂行的人。

这就是这篇要掰开的东西。AI 写代码到底有没有让我们变快，这事现在吵翻了天。但吵架的双方都漏了一个最关键的角色——你自己的体感。它可能是这场争论里，全世界最不准的那块码表。

一、最不准的码表，是程序员看自己的速度

我们先把 METR 那个数字焐热一点，因为它实在反直觉。

慢 19% 这个结论，置信区间是从慢 2% 到慢 39%，也就是说，几乎可以确定是慢了，只是慢多慢少有浮动。这不是某个手残党的个例，是 16 个老手、246 场对照硬碰硬跑出来的平均数。

但真正值钱的，是那 40 个百分点的认知差。

这些人不是在嘴硬，也不是被谁忽悠了。他们是真心实意地觉得自己变快了。打开 Cursor，描述一句需求，几十行代码哗啦一下铺满屏幕，那个瞬间的爽感是真的，多巴胺是真的。人脑会把这个"看见东西飞快冒出来"的爽，直接翻译成"我效率好高"。

问题是，码代码这件事，爽的瞬间和有效的瞬间，根本不是同一个瞬间。

同一批资深程序员的三个数字：动手前以为会快 24%，实测却慢了 19%，干完之后居然还觉得快了 20%。体感和实测之间，是一道四十个百分点的悬崖。

更耐人寻味的是半年后的续集。2026 年 2 月，METR 想接着往下做，却撞上一个新麻烦：越来越多的程序员直接摆手，说哪怕你按小时付钱、让我挑自己喜欢的活，我也不愿意把一半的工作切回到不用 AI。愿意当对照组的人越来越少，实验的信号被搅得越来越浑，逼着他们重新设计整套实验。

这个"花钱也请不动人不用 AI"的尴尬本身，比任何结论都更说明问题。一群被明确告知过 AI 可能拖慢自己的人，依然一秒都不想松手。

二、时间没有消失，它只是搬了家

那时间到底去哪了？人没偷懒，AI 也确实在哗哗吐代码，19% 是怎么凭空慢出来的？

METR 把每个人的工时拆开看，答案很朴素：时间没少花，只是从一个地方，搬到了另一个地方。

不用 AI 的时候，老手的时间花在两件事上：自己写代码，以及查资料、读文档。这两件事，他们干了一辈子，肌肉记忆，飞快。

用上 AI 之后，写代码这块的时间确实被砍了。但砍下来的时间，没省进口袋，而是流向了四个新出现的环节：斟酌怎么把需求说清楚（写提示词）、盯着进度条等它生成、逐行审查它吐出来的东西对不对、以及把它写错的地方改回来。这四样，全是用 AI 之前压根不存在的开销，光是审查和擦屁股就是一笔不小的时间。

把这几笔加起来，超过了写代码省下的那点时间。账，就这么红了。

上面一条是没有 AI 的工时：自己写、自己查，干脆利落。下面一条是用 AI 的工时：敲键盘的部分确实缩短了，可省下的全被"写提示词、干等、审代码、改错"几块新开销吃光，还倒贴。时间没蒸发，只是从你看得见的地方，挪到了你没在意的地方。

这里藏着一个被营销话术彻底盖住的常识：打字速度，从来就不是写代码的瓶颈。

给你一个每分钟能打一千字的神奇键盘，你的小说不会因此写得更快一个字。因为写小说慢在构思，不慢在敲键盘。写代码同理，真正的瓶颈一直是想清楚要干嘛、看懂现有的烂摊子、确认改完没把别处搞崩。AI 恰恰把唯一不是瓶颈的环节，也就是生成，优化到了飞起，然后把所有重担，原封不动甚至加码地，压回到那几个本就最慢的环节上。

三、几乎对，是最贵的那种错

审代码这件事，为什么这么耗时间？按理说 AI 写得又快又像模像样，扫一眼放行不就完了？

坏就坏在"像模像样"。

全球最大的程序员社区 Stack Overflow 在 2025 年做了一份覆盖 177 个国家、近 5 万名开发者的调研。其中有个数字精准地戳中了所有人的痛处：66% 的开发者说，他们对 AI 最大的不满，是它给的方案"几乎对，但就差那么一点"。另有 45% 的人说，排查 AI 生成代码里的 bug，比排查自己写的还要费时间。

明显的错，其实不可怕。一段代码一眼就看出是错的，你瞄一下就丢了，成本几乎为零。真正要命的是几乎对。

它逻辑通顺、命名规范、注释齐全，骗得过你扫视的那一眼，于是你信了，合并了。坑埋在某个边界条件里、某个并发场景下、某次异常处理的疏漏里，等到线上炸了你再回头找，花的时间比你自己从头写还多。

一张 95% 正确的地图，比一张全错的地图危险得多。全错的地图你压根不会用，95% 正确的那张，你会信它，一路信到它把你带进沟里。

这不是体感，有人拿数据量过。一家叫 CodeRabbit 的代码审查公司在 2025 年底扒了 470 个开源项目里的代码提交（也就是程序员口中的 PR），其中 320 个有 AI 参与，150 个纯人工。结果是，有 AI 掺和的提交，平均每个被自动审查揪出 10.83 个问题，纯人工的只有 6.45 个，前者是后者的 1.7 倍。拆开看更刺眼：逻辑错误多 1.75 倍，安全漏洞里跨站脚本攻击这一类，AI 写的足足高出 2.74 倍。

明显对的代码，一眼放行；明显错的代码，一眼丢弃；最贵的是"几乎对"——它骗过你的一瞥被合并进去，把雷埋在细节里，等线上爆了才被揪回来，找它的时间比重写还长。66% 的人栽在这一类上。

至少在这组对照里，AI 没让 bug 变少，反而吐出了更多更隐蔽、得靠老手逐行去揪的问题。代码生成得越快，要审的"几乎对"就越多，审查这道工序就越堵。

四、越用越信不过，却越来越离不开

你可能会想，既然这么坑，大家少用点不就行了？

现实是反过来的。还是 Stack Overflow 那份调研，84% 的开发者在用或打算用 AI 工具，比 2024 年的 76% 还涨了。可与此同时，真正信任 AI 输出的人，从 2024 年的 43% 掉到了只剩 33%。

用得越来越多，信得越来越少。这两条曲线劈叉劈得越来越开。

这就回到了 METR 那个"花钱也请不动人不用 AI"的尴尬。它揭穿了一个我们都不太愿意承认的真相：很多时候我们离不开 AI，未必全是因为它真的让我们更高效，也因为离开它写代码的那种"裸奔感"，已经让人受不了了。这里面有效率，也有实打实的依赖。

依赖是要还利息的。一个叫 James Shore 的资深程序员把这事说得很损也很准：你现在写代码快了一倍？那最好祈祷你的维护成本也砍了一半。否则你只是拿一笔暂时的提速，换了一张永久的卖身契。

代码不是写完就完事的。它要被读、被改、被维护好几年。生成阶段省下的那点时间，会在未来无数次的维护里，连本带利地讨回去。这笔账不光程序员个人在还，公司也在还。Uber 的首席运营官就公开说过，他们很难把这些 AI 工具不断上涨的投入，和实打实多交付出来的东西，直接画上等号。

公道话得说一句：这绝不等于 AI 编程是骗局，该泼的冷水泼，该认的好也得认。

METR 自己在报告里反复强调，这个结论不能无限外推。它测的是一群最资深的人、在他们最熟悉的大型老项目上的表现。这帮人对自家代码的掌控力，本来就强到 AI 很难帮上忙，反而容易添乱。换成一个新手起一个全新的小项目，AI 大概率是实打实地提速。工具在变好，模型在变强，人用它的手法也在长进。慢 19% 是 2025 年那个特定切片的快照，不是钉死的判决。

它真正戳破的，是"体感"这块码表。

五、真正变贵的，是判断

把这几条线收一收。

AI 没有凭空创造速度，它做的是一次搬运：把"写代码"这件事，从生成那一端，整体挪到了理解和验证那一端。生成变得几乎免费，于是审查、品味、判断"这段到底能不能信"，变成了新的、也是更贵的瓶颈。

瓶颈往上游移了一格。这恰恰解释了一个正在发生的转变：2026 年最值钱的程序员，渐渐不再是写得最快的那个，而是最知道什么时候该把 AI 写的东西整段删掉、推倒重来的那个。会写代码正在贬值，会判断哪段代码不可信，正在升值。

所以那句被反复念叨的"AI 让程序员快了 N 倍"，问题不在 N 是几，而在它量错了东西。它量的是代码冒出来的速度，可这个速度，从来不是真正决定你几点下班的那个变量。

绕回开头那台跑步机。

AI 编程给你的，是一种在跑步机上狂奔的体验：心率拉满，大汗淋漓，每一秒都无比真实地觉得自己在飞速前进。屏幕上的代码哗哗滚动，多巴胺一波接一波。可你低头看一眼脚下那根传送带——你的位移，可能是零，甚至是负的。

跑步机本身没有错，它确实能锻炼人，关键看你拿它干嘛。真正的杠杆，从来不是用省下来的时间去生成更多没人敢审的代码，而是把那点时间，老老实实投回到"看懂"和"验证"上。

那么留给你的问题就是：下一次，当 AI 几十行代码瞬间铺满屏幕、你感觉自己快得要起飞的时候——你看的是屏幕滚动的速度，还是脚下那根传送带？

∎