Google AI这一年：从罗马帝国到大清帝国

还有一个小时就到 Google I/O 开发者大会 Day 1 了。按照日程会发布新的闭源 AI 模型，按照爆料会有 Gemini 3.5 Pro，以及可能是 SOTA 级别视频生成扩散模型 Gemini Omni。

在大会之前，我想以一个 AI 前沿内容的实践者和观察者的视角，回顾 Google 过去一年高开低走的全过程，看看 Google 是如何凭借大厂病和几乎所有的错误决策，把自己一手好牌打成现在这副样子的。也对今晚的发布做一些展望。

一、去年今天：Google 的罗马帝国

回顾去年的 I/O 大会，凭借原生多模态的绝对领先架构，Gemini 2.5 Pro 横空出世，随之还有推理时扩展的内化 MAS(多智能体系统)Gemini Deepthink，对标当时的 GPT Pro。匿名测试的屠榜模型 Kingfall 更是引爆了社区舆论。

扩散模型方面，Google 推出了外星科技般的音画同出扩散模型 VEO 3。当时全网都是切玻璃水果和小动物跳水的视频，堪比现在的 Seedance 2.0，并且这个领先在半年内完全没有任何竞品，直到 Sora V2 发布后才退出 SOTA 宝座。

大会后没多久，断代领先的图像生成扩散模型 Nano Banana 横空出世——领先程度不止一代。当时扩散模型有个痛点叫做一致性，这个模型发布后几乎让这个难题销声匿迹了。如果说传统基于 CLIP 的 LDM(潜空间扩散模型，主流图像生成架构)是金戈铁马，那基于 Gemini 2.5 原生多模态能力的 Nano Banana 就是整支三体舰队。这个领先程度甚至在将近一年后的 GPT Image 2 才被彻底打破。

去年这个时候，Google 的 AI 几乎成了罗马帝国。虽然 LLM 工业领域不如 Claude，但凭借亲民的价格、原生多模态能力以及 Google 生态的加持，加上 Google 完全注重 C 端的社交和叙事飞轮，用户量一度超过 6 亿，几乎快要追平 ChatGPT 的 7 亿。

去年这个时候，Google AI 全家桶

模型层面：

1M 上下文的原生多模态 LLM：Gemini 2.5 Flash / Pro / Flash Lite
SOTA 级别视频生成扩散模型：VEO 3
SOTA 级别图像生成扩散模型：Nano Banana 🍌
SOTA 级别世界模型：Genie 3
SOTA 级别推理时扩展内化 MAS 系统：Gemini Deepthink

产品层面：

一站式 AI 解决方案 Google AI Studio
对标 ChatGPT 的 Gemini Web App 和 Mobile App
最火热的 AI 学习应用 NotebookLM
对标 Claude Code 的唯一开源真神 Gemini CLI——国内 AI 厂商都基于其二开(Qwen Code / Kimi)
对标 Codex 云端 Coding Agent 的 Jules
浏览器自动化前沿项目 Project Mariner(类似 GPT Atlas、Claude Chrome extension)
对标 n8n 的流程编排 Agent 系统 Opal，支持自然语言自动构建，外星科技中的外星科技
对标 Runway 的一站式 AI 视频 Studio Flow
其他前沿试验性项目：图像工作站 Whisk、对标 Claude Design 的 Stitch、对标 Cursor 的 IDE Antigravity

当时 Google 以趋近于垂直的增速奋起直追。C 端的社交叙事飞轮、B 端的数据飞轮，Google 都表现出了要赶超 ChatGPT 和 Claude 的架势——全场景、全解决方案、从模型到产品全方位对标，只有想不到，没有 Google 做不到。慷慨的白嫖政策宴请八方，动不动就一年会员赠送。

然而一年过去了。Google 废弃或停滞了其中大部分项目，由于方针的极度错误、对自己开发和负载能力的严重高估，以及 Harness 的根本性缺失导致数据飞轮和自我迭代没有转起，Google AI 走向了彻底的停滞。

二、开发者视角：Harness 时代的全面失位

先从宏观上说说 Google 的两个核心认知失误。

失误一：对 Agentic 范式转换的滞后

去年 I/O 实际上是 Harness 时代的前夜。

这里先解释一下”Harness”和”数据飞轮”：Harness 指的是承载 LLM 进行 Agent 化工作的工程框架——Claude Code、Codex、Gemini CLI 都是 Harness。在 Agentic 时代，Harness 是 LLM 的真正入口，也是高质量训练数据的来源——用户在 Harness 里的真实工程操作，会反过来变成模型 RL(强化学习)训练的高质量数据，形成”用得越多、模型越强、Harness 越好用”的正循环，这就是数据飞轮。

去年 I/O 的时候，Anthropic 的 Claude 早就由于 B 端高质量数据飞轮走上了自我迭代之旅。Claude 内部的开发和 AI Infra 工作大部分已经基于 Claude 模型 AI 化了——Claude Code 之父一个月提交 259 个 PR，自己一行代码没写，而那还是 Claude 3.7 的年代。Harness Engineering 和 Agent Skill 定义了新的 Agentic LLM 范式。Gemini 2.5 Pro 在发布的那一刻就已经落后于时代了。

而 Gemini 2.5 Pro 训练的节骨眼上，根本没有相关的 Agentic RL 训练数据。这不是一个能靠后续 finetune 弥补的差距，这是范式代际差。

失误二：既要又要的 C 端叙事

Anthropic 的 Claude 系列作为 LLM 领域最高的山，不走 C 端叙事，反而是对 C 端用户最为透明和公正的。而 Google 为了抢占 C 端社交飞轮和叙事，进行了全球大撒币，针对很多国家推出了各类一年免费赠送的活动。

但 Google 本身的开发能力非常受限，实际上还停留在印度古法编程(对照 Anthropic 内部那种”一个工程师月提 259 PR 自己不写代码”的 AI 原生范式，差距是断代级的)。对 AI 时代有着严重的短视和低估，导致 AI Infra 彻底陷入停摆和瘫痪。

今年 Seedance 2.0 问世之前，服务可用性最差的视频生成扩散模型就是 VEO 3，高峰期几乎不可用。到了今年，Gemini CLI / Antigravity 等作为数据飞轮最重要的 Harness 入口完全不能正常提供服务——不仅是订阅，BYOK(Bring Your Own Key，自带 API Key 的按需付费)都不行。

后果就是 Google 开始针对之前的资源错配进行异常补救：

内部项目全部废弃或停滞：Antigravity 到现在还没适配 Opus 4.7，停更一个多月。Jules、Mariner、Opal 等没有明确宣布废弃的，实际也都停更。
VEO 整整一年几乎停更，彻底丢了先发优势。
Gemini App 大规模降智：由于 API 反代和逆向的存在，加上 Google C 端完全采用了 ChatGPT 相同的订阅不限量逻辑，Google 只能彻底停更 Gemini App 并大规模采用极端降智模型来抵抗逆向和反代。与 GPT 的动态风控机制不同，Gemini 是一视同仁地歧视所有 C 端用户。
这么做又彻底放弃了去年定下的 C 端社交飞轮，到如今彻底赶不上 Claude、ChatGPT 甚至 Grok。Gemini App 到现在功能性甚至还不如 23 年 GPT-4 年代的 ChatGPT App。

Harness 时代的数据飞轮入口：Gemini把自己锁在门外

实际上在 Claude Code 问世后，大家都开始重视 Harness Engineering。

GPT-5 开始，ChatGPT 完全放弃了原来的 C 端社交飞轮和叙事，180 度大转向 All in Agentic LLM。去年年中 GPT-5 顶着巨大争议上线，强硬给 C 端退役了过去充满谄媚效应的”美版豆包”GPT-4o，强制用户贡献高质量 Agentic 数据。被全网爆喷后依然坚决退役 GPT-4o。这样做的阵痛和 C 端用户流失非常严重，但坚持到现在的 OpenAI 稳稳又回到了牌桌——GPT-5.5 + Codex 让 GPT 成为了和 Claude Code + Claude 平起平坐的 Big Two。

反观 Gemini。Gemini 在推出 Gemini CLI 后，一度是 Harness 领域的 K8s、Android，凭借一己之力起个大早赶个晚集。Gemini 抽象的性能导致无数严重生产事故就不提了，前 AI 时代工作流带来的功能迭代严重滞后(一个 chat resume 这种任何 Harness 都最重要的功能，Gemini CLI 拖了将近一年才有)，加上 Gemini 第一方服务的严重不可用，导致 Gemini 彻底失去了转起数据飞轮的能力。

去查看各家产品的 Changelog，差距一目了然：

Claude Code：几乎每天一更，除了周末，基本上一个月 20 个版本
Codex：至少一周 3 更，一个月至少十几个版本
Gemini CLI：周更都是非常注水的，只处理几个 PR 或 issue
Antigravity：从诞生到现在基本就没更新过——上次更新是 4 月 17 日，改了 2 个 bug

这导致高质量数据永远不会流向 Google。Claude 和 ChatGPT 凭借自家模型的 B 端数据飞轮都实现了高质量数据流入和自我迭代。API 领域，在OpenRouter上，去年半年里 grok-code-fast-1 都是断档第一。

今年年初另一个 B 端高质量数据入口 OpenClaw 横空问世。各家除了已经不需要 OpenClaw 数据的 Claude，都对 OpenClaw 保持开放——Claude 一开始都对 setup tokens 对接 OpenClaw 保持开放，国产厂商 Kimi、MiniMax 和小米对 OpenClaw 采用免费策略，OpenAI 更是吸纳了 OpenClaw 的作者入职，完全开放 GPT OAuth 认证给 OpenClaw。

而这个时候，最需要高质量 Agentic 数据的 Google，采用了最严厉的封禁策略——甚至在事先 TOS 不通知的情况下直接封号，云业务和 AI 业务相互踢皮球，进一步让 C 端叙事恶化。

而 Grok 虽然是 Harness 领域起步最晚的，也推出了自家的 Grok Build，非常慷慨地开放自己的 OAuth 订阅，甚至覆盖到 Free 用户层级。截止到目前，OpenClaw 和 Hermes 都针对 Grok OAuth 做了适配。

反观 Google，到现在没有一个真正意义上能用的 Agent 或 Harness。AI Infra 错误估计、资源严重错配导致的全线崩盘和停滞，影响非常深远，而且还在继续。

三、产品现状：能力分布的真实坐标

Gemini 目前能力在什么水平?

按照完全人类偏好 ELO 天梯 LM Arena 中代表 Agentic 能力的 Coding 榜单：Gemini 3.1 Pro 排名第 18，持平智谱清言去年的上上代模型 GLM 4.7，弱于成本低了 95% 的 DeepSeek V4 Pro。距离一线 Agentic LLM(Claude 全家桶、Kimi K2.6、GLM 5.1)有显著代差。

扩散模型方面：

图像生成：Nano Banana 2 与 GPT Image 2 已有显著代差

视频生成：VEO 3.1 与 Seedance 2.0 已有明显代差

需要克制地说一句：这么评价 Gemini 也有失公允。Gemini 在原生多模态架构、超长上下文工程实现、Genie 3 世界模型这些维度上，依然有真正的技术原创性，不是简单的跟随者。在创意写作、多模态理解这些非 Agentic 维度上，Gemini 在很多场景下依然是 T1 级别——我自己日常写文案就在用，这话不假。

但在 Agentic 这个最重要的赛道上，Gemini 确实掉队了。Harness 的短板就是 LLM 的短板。Claude 有 Claude Code，GPT 有 Codex，国产模型积极适配开放生态 Harness。Google 在自家 Gemini 模型能力抽象的基础上，Harness 更为抽象。

提升 LLM 的 Agentic 能力无非两条路：

高质量工程数据用于 RL 训练——Codex、Claude Code、OpenClaw 这些 Harness 就是最好的入口
B 端用户的真实使用反馈——通过 Harness 沉淀下来的工程数据

Anthropic 和 OpenAI 有先进 Harness，有源源不断的高质量数据流入。Grok 虽然没有 Harness，但通过对 Hermes、OpenClaw 开放 OAuth 认证锁定了高质量数据入口。国产厂商一边蒸馏 Claude，一边积极适配头部 Harness。

而 Google，Gemini CLI 做成了最垃圾的 Harness，Antigravity 几乎停摆，针对 OpenClaw 对接 Oauth 进行严格封杀。除非 Google 也走向蒸馏 Claude，不然很难想象 Gemini 这代能有质的提升。

四、商业战略视角：为什么 Google 依然是四巨头里最健康的

骂完了产品和 Agentic 赛道的失位，如果只看到这一面，会严重低估 Google。

从财务和战略层面看，Google 是四巨头里唯一一个不需要赌未来的——它已经把未来锁定在现在的现金流里了。

财务数据：科技史上前无古人

Google 母公司 Alphabet 在 2026 年 Q1 营收 1099 亿美元，同比增长 22%，达到过去两年里最快的增速。净利润 626 亿美元，同比增长 81%。运营利润率从 34% 扩张到 36%。一家年营收超过 4000 亿美元的公司，能保持 22% 的同比增速，在科技史上前无古人。

承载 AI Infra 的 Google Cloud：Q1 营收 200 亿美元，同比增长 63%，运营利润 66 亿美元，运营利润率 32.9%——这个数字去年是 17.8%，基本翻倍。

更恐怖的是合同积压金额翻倍到 4620 亿美元。这是已经签了合同但还未交付的未来收入。也就是说，Google Cloud 即便从今天起停止接新单，按目前的交付速度也够它消化好几年。B 端用户已经用实际行动把未来几年的 AI 算力预算锁定在了 Google 身上。

Gemini 的真实使用规模：每分钟处理 160 亿 tokens，环比上季度的 100 亿增长 60%。Gemini App 月活超过 7.5 亿。Gemini Enterprise 付费月活环比增长 40%。基于 Gemini 的生成式 AI 产品收入同比增长接近 800%——这个 800% 不是从零起步的小基数，是已经成规模业务的同比增速。

为什么 Google 是四巨头里最健康的

第一，Google 是唯一一家 AI 业务给主营业务输血而非放血的公司。OpenAI、Anthropic、xAI 都在烧钱补贴 AI 业务的算力成本，每增加一个用户就多亏一点。Google 的 AI Overviews、AI Mode 直接嵌入搜索，让搜索查询量创了历史新高，搜索广告收入同比增长 19%。AI 不是 Google 的成本中心，是它的引擎。

第二，Google 建立了其他三家都没有的端到端全栈自主结构。自己布局 TPU 芯片、自己训练 Gemini、自己运营 Cloud、自己分发到 Search/YouTube/Android/Chrome。AI 业务的每一层利润都留在 Google 体内。OpenAI 的算力成本和利润分成流向微软，Anthropic 的算力流向 AWS 和 GCP(没错，Anthropic 也用 GCP——这反而进一步说明 Google 的 Infra 地位)，xAI 受制于英伟达。Google 不需要分给任何人。这就是为什么它的 Cloud 运营利润率能从 17% 翻到 33%——纵向一体化的红利在加速兑现。

第三，消费级 AI 付费业务真正起飞了。Pichai 在财报电话会议里说，这是 Google 消费级 AI 订阅业务历史上最强的一个季度。Alphabet 付费订阅总数达到 3.5 亿，主要由 YouTube 和 Google One 驱动，Gemini App 也成为新增长引擎。在基于 LLM 的 AI 应用诞生期，C 端付费转化是整个 AI 行业最大的难题，但 Google 通过把 Gemini 订阅捆绑进 Google One，绕过了”让用户为 AI 单独付费”这个心理障碍。这是其他三家想出来也没有相应业务支撑的解决方案。

第四，B 端市场渗透速度超出几乎所有人的预期。一亿美元到十亿美元以上级别的大合同数量同比翻倍，签下多个十亿美元以上的合同。Gemini Enterprise 付费月活环比增长 40%。Pichai 在电话会议里说了一句很有意思的话：“我们的 Cloud 营收本来可以更高，但短期内算力受限。” 其他公司苦于卖不动，Google 是产能不够。当然，这句话也是双刃剑——它同时暴露了 Google 自己的 TPU 产能也跟不上爆炸式的需求。

第五，Google 把资本支出推到了其他三家根本跟不上的量级。2026 年全年资本支出预算上调到 1800-1900 亿美元，单季度 357 亿美元，同比翻倍。这个支出强度只有 Google 能承受——因为它有正向现金流持续供血。OpenAI 即便要做同样规模的投入，也必须靠融资。融资是有窗口期的，Google 的资本支出是自我维持的。

巨人陷入路径依赖

商业上的巨大成功和产品侧的停滞落后，让 Google 看上去像是 Gartner 魔力象限第二象限里的”美国华为”——在那个高执行力、低愿景的象限里，华为几乎是独占的存在，典型特征就是技术落后于第一象限的领先者，但商业执行力和市场份额碾压所有人。

需要说明的是，这个比喻对 Gemini 并不完全公平。Gemini 在原生多模态架构、世界模型方向上仍有真正的技术原创性，与华为那种”基于开源、源于开源”的路径并不相同。但在 Agentic 这条最重要的赛道上，Google 当下的处境和那个第二象限的味道确实是像的。

从 Q1 财报数据看，Google 的策略已经清晰化了：不再追求在所有领域和 Anthropic、OpenAI 正面对抗，而是把资源集中在 Cloud 企业市场和消费级 Gemini App 这两个真正能赚钱的赛道上。Antigravity 这种工程师工具继续存在，但已不是 Google 的核心战场。Gemini 由于对 Harness 的忽视，可能会进一步淡出开发者视野，但在 B 端战场还是会和 Claude 继续分庭抗礼。

五、展望今晚的 I/O：期待和预期

实际上前面已经一定程度表达了我的看法。Google 的产品一向是造势大于可用性。Gemini 3 Pro 刚上的那天我经过深度测试，被抽象的性能彻底惊了——就这么一个可能还不如豆包的模型居然被全网追捧，知道的我用的是 Gemini，不知道的还以为我在用华为盘古。

回到正题。提升 LLM 的 Agentic 能力无非两条路，而 Google 在两条路上都走得很挣扎。

Day 2 甚至有为 Antigravity 单开一部分，我去翻了翻——上次更新是 4 月 17 日，改了 2 个 bug。

VEO 3 作为开创时代的视频生成扩散模型，也沉寂了一年，中间就更了个Lite版、3.1以及 fast 模式的 R2V(参考生成视频)。最近我一直在观测 Flow 官网接口，上周 Flow 更新了自己的 face filter 以及后端接口的 schema，板上钉钉一定有大动作。而且更新 face filter 就说明新的视频生成扩散模型有可能像 Seedance 2.0 一样，出于 deepfake 之类的滥用考虑会有严格的审查。目前网上流出的一段 Gemini Omni 演示视频可以感受到新模型非常残暴，但能不能打败 Seedance 2.0 还是另一个 Happyhorse，过一会儿见分晓。

说到底，我比任何人都希望今晚 Gemini 3.5 Pro 或 Omni 真的能炸场子。我自己的工作流大量依赖 Google AI——Gemini CLI 的创意能力 Claude 真比不了，VEO 3.1 的视频生成量大管饱。如果今晚发布会真的兑现了爆料，我立刻去续 Google AI Ultra 会员。

六、写在最后

过去的一年，Google 从 I/O 大会上摇身一变，从后知后觉的 AI 奠基者变成了罗马帝国，然后还没碰到自己的日耳曼蛮子，就由于内部的运营失误，在错误的决策中陷入负反馈漩涡，自我瓦解了。

但这场失败发生在一个财务上无敌的公司身上，这就让这场失败的性质完全不同——不是生死攸关的失败，而是战略选择的失败。Google 可以承受输掉 Agentic 这条赛道，因为它的搜索广告、YouTube、Cloud、Workspace、TPU、Android 生态全都在加速兑现现金流;但 OpenAI 和 Anthropic 输不起任何一条主线，他们赌的是还没兑现的未来，Google 已经把那个未来的一部分锁定在现在的现金流里了。

所以这篇复盘的真正主题不是”Google 完蛋了”，而是：

同样一场失败，发生在不同公司身上，意义完全不同。

Agentic 时代是不是 LLM 公司的唯一未来?如果是，那 Google 现在的处境就和当年的 Nokia 一样危险——商业再赚钱，主航道一旦错了就是覆灭。如果不是，那 Google 现在的”失位”就只是众多赛道里的一次战略取舍，商业基本盘的胜利足以让它从容选择下一个押注方向。

这个问题的答案，可能今晚的 I/O 会给出一部分线索。

发布会两小时后见。

Tianjin · 2026.05.19 · Google I/O 开幕前一小时