欧稽里得
命题 XXIV — 随笔 · 大语言模型

AI 编程的体感骗局:你以为快了 20%,数据说你慢了 19%

先讲一个有点扎心的实验。

有一家专门评估 AI 能力和风险的研究机构叫 METR,他们找来 16 个货真价实的资深程序员,全是常年泡在大型开源项目里的人,手上的仓库动辄上百万行代码、几万颗星。机构掏真金白银,按 150 美元一小时付费,让这些人去解自己项目里真实的活儿,一共 246 个,平均一个两小时。规则只有一条:有些任务可以用 AI(当时最强的组合,Cursor 配 Claude),有些任务不许用,掐表对比。

动手之前,这些老手信心十足,估计 AI 能让他们快 24% 左右。

干完一对账,傻眼了。用了 AI 的那批活,不但没快,反而慢了 19%。

最魔幻的还不是这个。实验结束,机构问他们体感如何,这群人——明明每一秒都被记录在案、明明数据白纸黑字摆着慢了——回过头一估算,平均仍然觉得 AI 让自己快了大概 20%。

你没看错。实测慢 19%,体感快 20%,中间隔着将近 40 个百分点的鸿沟。而站在鸿沟这头的,不是什么小白,是一群最懂行的人。

这就是这篇要掰开的东西。AI 写代码到底有没有让我们变快,这事现在吵翻了天。但吵架的双方都漏了一个最关键的角色——你自己的体感。它可能是这场争论里,全世界最不准的那块码表。

一、最不准的码表,是程序员看自己的速度

我们先把 METR 那个数字焐热一点,因为它实在反直觉。

慢 19% 这个结论,置信区间是从慢 2% 到慢 39%,也就是说,几乎可以确定是慢了,只是慢多慢少有浮动。这不是某个手残党的个例,是 16 个老手、246 场对照硬碰硬跑出来的平均数。

但真正值钱的,是那 40 个百分点的认知差。

这些人不是在嘴硬,也不是被谁忽悠了。他们是真心实意地觉得自己变快了。打开 Cursor,描述一句需求,几十行代码哗啦一下铺满屏幕,那个瞬间的爽感是真的,多巴胺是真的。人脑会把这个"看见东西飞快冒出来"的爽,直接翻译成"我效率好高"。

问题是,码代码这件事,爽的瞬间和有效的瞬间,根本不是同一个瞬间。

同一批资深程序员的三个数字:动手前以为会快 24%,实测却慢了 19%,干完之后居然还觉得快了 20%。体感和实测之间,是一道四十个百分点的悬崖。

更耐人寻味的是半年后的续集。2026 年 2 月,METR 想接着往下做,却撞上一个新麻烦:越来越多的程序员直接摆手,说哪怕你按小时付钱、让我挑自己喜欢的活,我也不愿意把一半的工作切回到不用 AI。愿意当对照组的人越来越少,实验的信号被搅得越来越浑,逼着他们重新设计整套实验。

这个"花钱也请不动人不用 AI"的尴尬本身,比任何结论都更说明问题。一群被明确告知过 AI 可能拖慢自己的人,依然一秒都不想松手。

二、时间没有消失,它只是搬了家

那时间到底去哪了?人没偷懒,AI 也确实在哗哗吐代码,19% 是怎么凭空慢出来的?

METR 把每个人的工时拆开看,答案很朴素:时间没少花,只是从一个地方,搬到了另一个地方。

不用 AI 的时候,老手的时间花在两件事上:自己写代码,以及查资料、读文档。这两件事,他们干了一辈子,肌肉记忆,飞快。

用上 AI 之后,写代码这块的时间确实被砍了。但砍下来的时间,没省进口袋,而是流向了四个新出现的环节:斟酌怎么把需求说清楚(写提示词)、盯着进度条等它生成、逐行审查它吐出来的东西对不对、以及把它写错的地方改回来。这四样,全是用 AI 之前压根不存在的开销,光是审查和擦屁股就是一笔不小的时间。

把这几笔加起来,超过了写代码省下的那点时间。账,就这么红了。

上面一条是没有 AI 的工时:自己写、自己查,干脆利落。下面一条是用 AI 的工时:敲键盘的部分确实缩短了,可省下的全被"写提示词、干等、审代码、改错"几块新开销吃光,还倒贴。时间没蒸发,只是从你看得见的地方,挪到了你没在意的地方。

这里藏着一个被营销话术彻底盖住的常识:打字速度,从来就不是写代码的瓶颈。

给你一个每分钟能打一千字的神奇键盘,你的小说不会因此写得更快一个字。因为写小说慢在构思,不慢在敲键盘。写代码同理,真正的瓶颈一直是想清楚要干嘛、看懂现有的烂摊子、确认改完没把别处搞崩。AI 恰恰把唯一不是瓶颈的环节,也就是生成,优化到了飞起,然后把所有重担,原封不动甚至加码地,压回到那几个本就最慢的环节上。

三、几乎对,是最贵的那种错

审代码这件事,为什么这么耗时间?按理说 AI 写得又快又像模像样,扫一眼放行不就完了?

坏就坏在"像模像样"。

全球最大的程序员社区 Stack Overflow 在 2025 年做了一份覆盖 177 个国家、近 5 万名开发者的调研。其中有个数字精准地戳中了所有人的痛处:66% 的开发者说,他们对 AI 最大的不满,是它给的方案"几乎对,但就差那么一点"。另有 45% 的人说,排查 AI 生成代码里的 bug,比排查自己写的还要费时间。

明显的错,其实不可怕。一段代码一眼就看出是错的,你瞄一下就丢了,成本几乎为零。真正要命的是几乎对。

它逻辑通顺、命名规范、注释齐全,骗得过你扫视的那一眼,于是你信了,合并了。坑埋在某个边界条件里、某个并发场景下、某次异常处理的疏漏里,等到线上炸了你再回头找,花的时间比你自己从头写还多。

一张 95% 正确的地图,比一张全错的地图危险得多。全错的地图你压根不会用,95% 正确的那张,你会信它,一路信到它把你带进沟里。

这不是体感,有人拿数据量过。一家叫 CodeRabbit 的代码审查公司在 2025 年底扒了 470 个开源项目里的代码提交(也就是程序员口中的 PR),其中 320 个有 AI 参与,150 个纯人工。结果是,有 AI 掺和的提交,平均每个被自动审查揪出 10.83 个问题,纯人工的只有 6.45 个,前者是后者的 1.7 倍。拆开看更刺眼:逻辑错误多 1.75 倍,安全漏洞里跨站脚本攻击这一类,AI 写的足足高出 2.74 倍。

明显对的代码,一眼放行;明显错的代码,一眼丢弃;最贵的是"几乎对"——它骗过你的一瞥被合并进去,把雷埋在细节里,等线上爆了才被揪回来,找它的时间比重写还长。66% 的人栽在这一类上。

至少在这组对照里,AI 没让 bug 变少,反而吐出了更多更隐蔽、得靠老手逐行去揪的问题。代码生成得越快,要审的"几乎对"就越多,审查这道工序就越堵。

四、越用越信不过,却越来越离不开

你可能会想,既然这么坑,大家少用点不就行了?

现实是反过来的。还是 Stack Overflow 那份调研,84% 的开发者在用或打算用 AI 工具,比 2024 年的 76% 还涨了。可与此同时,真正信任 AI 输出的人,从 2024 年的 43% 掉到了只剩 33%。

用得越来越多,信得越来越少。这两条曲线劈叉劈得越来越开。

这就回到了 METR 那个"花钱也请不动人不用 AI"的尴尬。它揭穿了一个我们都不太愿意承认的真相:很多时候我们离不开 AI,未必全是因为它真的让我们更高效,也因为离开它写代码的那种"裸奔感",已经让人受不了了。这里面有效率,也有实打实的依赖。

依赖是要还利息的。一个叫 James Shore 的资深程序员把这事说得很损也很准:你现在写代码快了一倍?那最好祈祷你的维护成本也砍了一半。否则你只是拿一笔暂时的提速,换了一张永久的卖身契。

代码不是写完就完事的。它要被读、被改、被维护好几年。生成阶段省下的那点时间,会在未来无数次的维护里,连本带利地讨回去。这笔账不光程序员个人在还,公司也在还。Uber 的首席运营官就公开说过,他们很难把这些 AI 工具不断上涨的投入,和实打实多交付出来的东西,直接画上等号。

公道话得说一句:这绝不等于 AI 编程是骗局,该泼的冷水泼,该认的好也得认。

METR 自己在报告里反复强调,这个结论不能无限外推。它测的是一群最资深的人、在他们最熟悉的大型老项目上的表现。这帮人对自家代码的掌控力,本来就强到 AI 很难帮上忙,反而容易添乱。换成一个新手起一个全新的小项目,AI 大概率是实打实地提速。工具在变好,模型在变强,人用它的手法也在长进。慢 19% 是 2025 年那个特定切片的快照,不是钉死的判决。

它真正戳破的,是"体感"这块码表。

五、真正变贵的,是判断

把这几条线收一收。

AI 没有凭空创造速度,它做的是一次搬运:把"写代码"这件事,从生成那一端,整体挪到了理解和验证那一端。生成变得几乎免费,于是审查、品味、判断"这段到底能不能信",变成了新的、也是更贵的瓶颈。

瓶颈往上游移了一格。这恰恰解释了一个正在发生的转变:2026 年最值钱的程序员,渐渐不再是写得最快的那个,而是最知道什么时候该把 AI 写的东西整段删掉、推倒重来的那个。会写代码正在贬值,会判断哪段代码不可信,正在升值。

所以那句被反复念叨的"AI 让程序员快了 N 倍",问题不在 N 是几,而在它量错了东西。它量的是代码冒出来的速度,可这个速度,从来不是真正决定你几点下班的那个变量。

绕回开头那台跑步机。

AI 编程给你的,是一种在跑步机上狂奔的体验:心率拉满,大汗淋漓,每一秒都无比真实地觉得自己在飞速前进。屏幕上的代码哗哗滚动,多巴胺一波接一波。可你低头看一眼脚下那根传送带——你的位移,可能是零,甚至是负的。

跑步机本身没有错,它确实能锻炼人,关键看你拿它干嘛。真正的杠杆,从来不是用省下来的时间去生成更多没人敢审的代码,而是把那点时间,老老实实投回到"看懂"和"验证"上。

那么留给你的问题就是:下一次,当 AI 几十行代码瞬间铺满屏幕、你感觉自己快得要起飞的时候——你看的是屏幕滚动的速度,还是脚下那根传送带?