命题 XVIII — 大语言模型

深度拆解 Gemini Spark：谷歌的"云端代理人"赶到了一个已经被预订满的派对

2026·05·20约 7,022 字15 MIN

I/O 2026 上 Gemini Spark 一发布，大量科技媒体的标题都是"Google 杀入个人 AI agent 市场"。

这个说法有一半是错的——Google 不是杀入，是迟到。

2026 年这条赛道在 Spark 发布之前，已经在过去 5 个月里挤满了人：

Anthropic Claude Cowork — 2026-01-12 研究预览，2026-04-09 GA
OpenClaw — 2026 年 1 月开源，60 天 GitHub stars 突破 25 万
Hermes Agent — 2026 年 2 月 Nous Research 开源，自带 agentskills.io 标准
OpenAI Codex — 已经从 coding agent 扩到 always-on Automations
还有 Lindy、alfred_、MultiOn、Microsoft Copilot 一票垂直玩家

Spark 不是这条赛道的开局——它是 Google 在赛道已经成型的时候打出来的最后一张大牌。它的差异化也不是"我做了 agent"，而是**“我做了一个真正不需要你电脑开着的云端 agent”**。

这一篇先把 Spark 拆透，再挑赛道里几家最有代表性的对手做参照，最后讲哪种人适合用哪个。

一、Spark 是什么——三个关键词

Gemini App agentic 升级博文。来源：blog.google/innovation-and-ai/products/gemini-app/next-evolution-gemini-app/

Google 的官方定义是一句话：Gemini Spark 是一个 24/7 AI agent，跑在 Google Cloud 的专属虚拟机上，不需要你电脑开着也能继续工作。

三个关键词每个都值得拆开看。

关键词 1：24/7

字面意思——你关掉电脑、关掉手机、人在飞机上没信号，它都在干活。这是 Spark 跟所有现有竞品最大的区别。Cowork 必须 Claude Desktop App 开着、Codex Automations 跑在你的 cloud env 但仍由你的 ChatGPT 账号驱动、OpenClaw 装在你自己机器上。只有 Spark 是真正意义上的"我下班它接着上班"。

关键词 2：专属虚拟机

技术架构上，Spark 跑在 Google Cloud 为每个用户分配的隔离 Linux 沙箱里。底层名字叫 Managed Agents——通过 Gemini API 单次调用就能起一个完整的远程 agent 沙箱，Spark 是它的首个消费级应用。

模型层用的是 Gemini 3.5 Flash + Antigravity Harness（也就是 Google 同期发的"AI 操作系统"）。换句话说：Spark = 3.5 Flash 的脑 + Antigravity 的手 + Cloud VM 的家。

关键词 3：美国 only，下周 Beta

这是今天最关键的事实，很多媒体没说清楚：

今天起：仅向 trusted tester（受邀内部测试者）开放
下周开始：向美国区 Google AI Ultra 订阅者开放 Beta
AI Ultra 两档都能用：$100/月（新增的开发者档）和 $200/月（旗舰档，从 $250 降价）
欧盟和英国不在首批——EU AI Act 关于"消费级 AI agent"的透明度义务 2026-08-02 才生效，Google 选择避开监管空窗期

如果你不在美国、不订 AI Ultra、不是 trusted tester——你今天还摸不到它。

二、Spark 能干什么——和那条被 leak 出来的警告

Google 今天列的能力

官方博文里举的例子很克制，只有这几条：

场景	官方原文描述
信用卡账单审计	解析账单文件，找出你忘记取消的隐藏订阅
学校邮件 digest	监控学校发来的通知，汇总成"一周看一次就够"的摘要
会议笔记自动归档	把会议要点综合整理后直接同步到 Google Docs
跨 Workspace 自动化	Gmail / Calendar / Tasks / Drive / Docs 之间的多步工作流
第三方 MCP 调用	通过 OpenTable 订餐厅、通过 Instacart 下单、通过 Canva 起草设计稿

MCP 首批合作伙伴：Google 在博文里只明确点了三家——Canva、OpenTable、Instacart。官方原话：“a full list of more partners are integrating now”——还在接入。

5/14 的那次 leak——Google 自己埋的一个炸弹

5 月 14 日，Google App beta 17.23 提前把 Spark 的入口偷偷上了。9to5Google 的 APK Insight 团队扒出了 onboarding 流程的截图。

里面有一句话比所有 keynote 都直白：

“may do things like share your info or make purchases without asking.”

翻译：可能会在不询问你的情况下，分享你的信息或者代你付款。

这不是为了规避法律责任写的板砖式声明——这是 Google 主动告诉你：Spark 被设计成会替你做一些不主动征求同意的事。

具体机制：Spark 会存储你的远程浏览器数据和登录凭证，以保证后台工作流持续运行——也就是说，它会以你的身份登录各种网站、保存会话。这是把"代理人"做实了——它真的在用你的身份做事。

Google 自己建议"先别用"的人群

根据 5/14 那次泄露页面的 fine print 和今天博文里的隐含表述，Spark 在以下场景不被推荐：

处理 NDA 下的敏感客户数据
受监管的金融或医疗行业从业者
居住在欧盟或英国

三、Spark 与 Google 生态深度集成——这是它真正的护城河

Engadget 对 Spark 的现场报道 Engadget: “Google’s Gemini Spark Is An Agentic AI Assistant.” 重点强调了 Spark 与 Workspace 的深度耦合。

Spark 的所有竞品都做不到一件事——生在 Google 生态里。

接入面	Spark 的独占优势
Gmail	不仅能读，能主动监控新邮件触发工作流；能以你的身份起草和发送
Calendar	能根据邮件自动建议日程；可以解析自然语言指令（“帮我把下周所有 1:1 挪到上午”）
Tasks	把分散的待办统一到一处，自动从邮件、Doc、Drive 提取
Drive / Docs	会议笔记直接同步成 Doc；可以跨多个 Doc 综合再输出
Android Halo	状态栏新增的发光圆环——专门显示 Spark 在后台干什么
AP2 协议	Google 同步推出的 Agent Payments Protocol，首批集成 Spark——给 agent 设预算、加密签名审计
AI Ultra 订阅整合	Antigravity / Gemini App / YouTube Premium 是一套订阅打包

翻译成大白话：用 Cowork，你的桌面文件归 Anthropic 处理；用 Codex，你的代码归 OpenAI 处理；用 Spark，你的整套 Google 数字身份归 Google 自己处理。

这是优势也是危险——优势在体验丝滑度上没人能比，危险在你的整个数字命脉被一家公司全占了。

四、对手 1：Claude Cowork——Anthropic 的桌面派

Anthropic Claude Cowork 官方页 Claude Cowork 官方页：“Anthropic’s agentic AI for knowledge work.”

一句话档案

项	Claude Cowork 现状
发布	2026-01-12 research preview
Windows 支持	2026-02-10 加入，与 macOS 全功能对等
GA 时间	2026-04-09（all paying subscribers）
平台	macOS + Windows，Linux 不支持，无 mobile，无 web
订阅档	Pro $20/月、Max $100-$200/月、Team $30/user/月、Enterprise
必须	Claude Desktop App 保持开启
设计哲学	“Designed with human oversight in mind”

Claude Help Center 的 Cowork 入门页

Cowork 能干什么

本地文件批处理：重命名、排序、去重、按主题归档
多文档综合：跨大量本地文件读取、识别关联、拼出一份完整叙事
数据提取：把扫描件、PDF、截图、收据扔进文件夹，自动出报销 Excel
跨应用桌面操作：像人一样点击、拖拽、复制粘贴

Cowork 用起来到底怎么样——社区反馈

一位早期使用者在每周六早 8 点跑一个 “content batch” 任务，节省约 8 小时/周
创业者群体反馈：节省 6-10 小时/周
外部连接器不稳——Gmail / Google Drive 连接器多人反馈不可靠，Chrome 扩展集成反而更稳
复杂任务烧 quota 厉害——$200/月的 Max 20x 用户在密集使用周也会触顶
重大事故：有一名早期使用者因为 Cowork 的误操作丢了 15,000 张家庭照片

Cowork 与 Spark 最大的区别

Cowork = 本地桌面操作；Spark = 云端 24/7 后台。这是哲学的差异，不只是产品差异：

Cowork 的数据留在你的电脑上，云端只看到对话
Spark 的工作流必然要把凭证和会话搬到云——这是它能 24/7 的代价

五、对手 2：OpenAI Codex——从写代码到接管整个工作台

OpenAI Codex 官方页 openai.com/codex —— “A coding agent that helps you build and ship with AI—powered by ChatGPT.”

很多人提到 OpenAI 的 agent 产品，第一反应是 ChatGPT 里那个 “Agent Mode”——但那只是一个订阅档功能。OpenAI 真正在押注的 agent 平台是 Codex。

一句话档案

项	OpenAI Codex 现状
起源	最初定位是 coding agent
平台	macOS + Windows app + CLI（`npm i -g @openai/codex`）+ IDE 插件
账号串联	通过 ChatGPT 账号在 app / IDE / terminal 之间同步状态
架构	Codex app 是"agentic coding 的指挥中心"——内建 worktrees + cloud environments，多 agent 并行
企业化	Workspace Agents 由 Codex 驱动，5 月 5 日上线

Codex 真正的能力——已经超出 coding 边界

OpenAI 官方页面给的功能清单已经透露了野心：

Skills：自定义工作流模板，让 Codex 处理"代码理解、原型、文档"等周边任务，对齐团队规范
Automations：“always-on background work”——主动接管 issue triage、alert monitoring、CI/CD 等任务，不需要你提示，自己跑

注意 “Automations” 这个特性——这已经是和 Spark 同质的"主动后台工作"模式了，只不过 Codex 的"后台"指的是 cloud env，要 ChatGPT 账号在线驱动；Spark 的"后台"是 Google 给你独占的 VM，真正脱离用户在线。

Codex 与 Spark 的根本区别

Codex 是给"会写代码的人"做的 agent 平台——但 Skills 系统让非开发者也能套用模板
Spark 是给"普通用户"做的 agent——但代价是隐私让渡更深

如果你已经在 ChatGPT 生态里，Codex 是顺手的选择；如果你不写代码、不接受配置成本，Spark 更对你。

六、对手 3：OpenClaw——那只让 React 都汗颜的开源龙虾

OpenClaw GitHub 仓库 github.com/openclaw/openclaw —— “Your own personal AI assistant. Any OS. Any Platform. The lobster way.” 当前 GitHub stars 已突破 37 万。

一句话档案

项	OpenClaw 现状
作者	Peter Steinberger（前 PSPDFKit 创始人）
发布	2026-01
GitHub stars	37.3 万——60 天超过 React（24.3 万）和 Linux（21.8 万）
语言 / License	TypeScript / MIT（完全开源）
平台	macOS / Linux / Windows / iOS / Android 全平台
架构	Local-first Gateway + Multi-agent routing + Voice + Live Canvas
后续	2026-02-14 Steinberger 加入 OpenAI；项目移交非盈利基金会
API 费	BYO（Bring Your Own API Key）—— 用 OpenAI、Anthropic、Google 都行

OpenClaw 的真正杀器——22 个消息平台直连

这是 OpenClaw 最反直觉的卖点：它不是一个 App，它是一个接入到你已经在用的所有 IM 里的多通道 agent。

支持的渠道（README 原始列表）：

WhatsApp / Telegram / Slack / Discord / Google Chat / Signal / iMessage / IRC / Microsoft Teams / Matrix / Feishu（飞书）/ LINE / Mattermost / Nextcloud Talk / Nostr / Synology Chat / Tlon / Twitch / Zalo / 微信 / QQ / WebChat

也就是说：你不需要打开任何"AI App"。你在飞书里跟同事聊天的时候，直接 @ 一下 Claw，它就在那儿。这对于已经用 Slack / 飞书 / 微信办公的人来说，是真正零摩擦的使用方式。

OpenClaw 的政治意义

OpenClaw 火爆的核心原因之一是它在做 Spark / Cowork / Codex 做不到的事：

本地优先：所有逻辑跑在你自己的机器上
零订阅：开源 + MIT，永远不会涨价、不会下架
多模型：今天用 GPT-5.5，明天用 Claude，后天用 Gemini，配置改一下
可审计：所有 skill 都是 TypeScript 源码，你能看懂它到底在干什么

代价是：配置门槛高。需要自己装、自己配 API key、自己写或下载 skills——这不是给非技术用户的产品。

七、对手 4：Hermes Agent——同样开源，但比 OpenClaw 更激进

Hermes Agent 官方页

刚才说"OpenClaw 是开源派的代表"——其实 2026 年 2 月，Nous Research 又放了一个产品叫 Hermes Agent，定位更激进：自我进化的开源 agent。

一句话档案

项	Hermes Agent 现状
作者	Nous Research
发布	2026 年 2 月
License	开源
平台	Linux / macOS / WSL2
安装	单条 curl 命令全自动装
多通道	CLI / Telegram / Discord / Slack / WhatsApp / Signal / Matrix / 飞书 / 企微 / iMessage bridge / Home Assistant
核心特性	Persistent memory + agentskills.io 开放标准
数据	All data stays on your machine. No telemetry, no tracking.

Hermes 的独特之处：会"长出"自己的 skill

Hermes 跟其他 agent 最大的差异在 skill 自生成机制：

“When Hermes solves a hard problem, it writes a reusable skill document so it never forgets how.”

也就是说——Hermes 第一次帮你解决某个问题之后，它会主动把这次的解法写成一个 skill 文档，下次遇到类似问题直接复用。这些 skill 是 agentskills.io 标准的——可搜索、可分享、可被其他 agent 使用。

OpenClaw 的"skill"是预写的；Hermes 的"skill"是动态长出来的。这两种哲学在开源 agent 圈引发了 2026 年最有趣的辩论之一。

八、把 Spark 放在这个赛道里看——它的位置在哪？

把 5 个产品摊开比一比（按"今天它是不是真的能用 / 谁能用"排序）：

维度	Gemini Spark	Claude Cowork	OpenAI Codex	OpenClaw	Hermes Agent
GA 状态	Beta（下周）	✅ 已 GA（4/9）	✅ 已 GA	✅ 开源永久可用	✅ 开源永久可用
架构	云端 VM 24/7	本地桌面 + 云端 LLM	本地 app + cloud env	本地 Gateway	本地完全自主
是否需要本机运行	❌ 完全不用	✅ 必须开着	✅ 必须开着	✅ 必须开着	✅ 必须开着
平台	Android / iOS（手机起步）	macOS + Windows	macOS + Windows + IDE + CLI	全平台	Linux / macOS / WSL2
可用区域	美国 only	全球（除 Linux）	全球（OpenAI 服务区域）	任意	任意
订阅起价	AI Ultra $100/月	Claude Pro $20/月	含在 ChatGPT 订阅 / Codex 免费 CLI	$0（BYO API key）	$0（BYO API key）
目标用户	普通消费者	知识工作者	开发者 + 技术用户	重度极客	自托管派
生态独占	Google Workspace 全家桶	Anthropic Skills	ChatGPT + Workspace Agents	你自己的所有 IM	你自己的所有 IM
隐私模式	云端持久（含登录凭证）	本地为主	OpenAI 云端	完全本地	完全本地 + 零遥测
支付能力	✅ AP2 协议受控支付	❌ 暂无	通过 Skill 可扩展	看装的 skill	看装的 skill
最大短板	隐私让渡 + 仅美国 + 贵	烧 quota + 外部连接器不稳	仍偏开发者	配置门槛高	用户群小、文档稀薄

一些观察：

唯一真正 24/7 后台的是 Spark——这是它最具差异化的卖点，但代价是隐私边界往后推
唯一今天大多数人可以用的，是 Cowork、Codex 和两个开源——Spark 在多数地区还摸不到
价格上 Spark 是最贵的——$100 起，是 Cowork（$20）的 5 倍
开源派合在一起的体量已经压过任何一家闭源 agent——OpenClaw 37 万 + Hermes 持续增长

九、五种人格——你该选哪一个？

按使用场景分，五个产品其实不完全打架，更像是五种世界观。

如果你是重度 Google 生态用户且在美国

Gmail / Calendar / Docs / Drive 一天碰几十次——等 Spark 在你的地区上。在那之前，没有比它更顺的方案。

但要做好心理准备：Spark 会用你的身份在云端持续操作。读"may do things without asking"那行字三遍。

如果你是桌面知识工作者（律师、研究员、内容创作者、咨询）

本地有大量文件需要被整理、综合、提取——Claude Cowork。

但记得：先做好备份（社区有人丢过 15,000 张照片）。先在非关键目录跑一两周再让它接触关键数据。

如果你已经深度使用 ChatGPT 并且接受写一些代码

Codex 是顺手延伸。Skills 让你能复用工作流，Automations 让它能在后台跑——最重要的是你不用再多订一个产品。

如果你自己写代码 + 多个 IM 重度用户 + 隐私强迫症

OpenClaw。装好之后你会发现：当 Spark 在欧盟还卡着监管的时候、当 Cowork 还在烧 quota 的时候、当 Codex 还在 ChatGPT 账户限速的时候，OpenClaw 在飞书里默默给你跑 task。

如果你是自托管派，相信"我的 agent 必须能在我离线时跑在我自己机器上"

Hermes Agent。它把"skill 是会进化的"做出来了——你用它越久，它越懂你。零订阅、零遥测、完全你自己说了算。

十、行业大势：2026 年是个人 AI agent 的"分水岭年"

把时间线拉直：

日期	事件
2026-01-12	Anthropic 发布 Claude Cowork research preview
2026-01	Peter Steinberger 开源 OpenClaw（48 小时内 10 万 stars）
2026-02	Nous Research 开源 Hermes Agent
2026-02-10	Cowork 加入 Windows 支持
2026-02-14	Steinberger 加入 OpenAI；OpenClaw 项目移交基金会
2026-04-09	Cowork GA（all paying subscribers）
2026-05-05	OpenAI Workspace Agents（由 Codex 驱动）上线
2026-05-19	Google I/O 2026：Gemini Spark 发布
2026-08-02	EU AI Act 对消费级 AI agent 的透明度义务生效

五个月时间表说明一件事——整个行业都意识到 chatbot 模式已经摸到天花板了。下一波价值不在"模型多聪明"，而在"模型能替你干多少活"。

Spark 不是先发——前面已经有 Cowork、有 OpenClaw、有 Hermes、有 Codex Automations。但 Spark 的特殊性在两件事：

它是唯一真正的 24/7 云端 agent——其他主流玩家都需要本地客户端运行
它带着 Google 整个生态进场——Workspace 全家桶 + Android Halo + AP2 协议 + Antigravity 一起发的

十一、不能不说的几件事

写到这里必须给几条冷水。

不是 boilerplate。这是 Google 主动翻转了 AI 助手的默认权限——以前是默认问你，现在是默认不问。任何在 Spark 上发生的"以你名义"的操作，你都要承担最终责任。

2. AI Ultra $100 这个价格 ≠ 你真的得到了 Spark

美国地区
仅本周向 trusted tester 开放
下周才扩到 AI Ultra 订阅者
Beta 阶段
Spark + Antigravity 这两个产品有"优先访问"，不是全功能

如果你今天人在中国 / 欧洲 / 其他地区，订了 Ultra 也用不了 Spark。

3. “受控支付"听起来好——但谁负责审计？

AP2 协议依赖加密签名的 Mandate。技术上无懈可击。但人类历史告诉我们：当 agent 出错时，没有人愿意承担责任。“是我同意的，但我没想到它会这样做” —— Google 还没给出在这种纠纷下的责任归属方案。

4. 集成深度是双刃剑

Spark 的爽快感来自"我什么都不用想，它什么都能做”。但反过来想——它对你的数字身份的访问深度，超过任何一个你信任过的应用。

十二、收束

如果把 2026 年 5 月的个人 AI agent 赛道做一个 elevator pitch：

Spark 是"我把活全交给你（在云端干）"
Cowork 是"我们一起在桌面上干这件事"
Codex 是"我已经在你写代码的地方，顺便帮你把别的也做了"
OpenClaw 是"我自己装一只龙虾在我所有 IM 里"
Hermes 是"我自己装一个会自我成长的 agent 在我自己机器上"

五个方向没有一个错，区别在于你愿意把多少信任交给云端、多少时间投入本地工具、多少钱投到订阅里。

Spark 的赌注是"信任换便利"。Google 押的是大多数普通用户其实不在乎数据去哪里，只在乎事情能不能自动办了。

但对于在乎隐私、在乎可控、在乎少一个 vendor lock-in 的人来说——开源派那种"装在自己机器上的 agent"才是答案。

Agent 时代的有趣之处就在这——它没有一个标准答案。五种产品形态对应五种生活方式。

你要选哪一个？

主要来源

本文引用了 Google 官方页面、5/14 leak 以及五大对手产品的官方信息源，包括：

🌟 Gemini App “Next Evolution” 官方博文 · 🛠️ Antigravity 官网 · 🧪 Managed Agents 开发者文档 · 💎 Gemini AI Ultra 订阅页
📡 9to5Google · Engadget 等 Spark 现场报道
🟣 Anthropic Claude Cowork · 🟢 OpenAI Codex · 🦞 OpenClaw · ⚡ Hermes Agent · 📂 agentskills.io 五大对手官网
📜 EU AI Act 2026-08-02 生效相关条款

∎

一、Spark 是什么——三个关键词

关键词 1：24/7

关键词 2：专属虚拟机

关键词 3：美国 only，下周 Beta

二、Spark 能干什么——和那条被 leak 出来的警告

Google 今天列的能力

5/14 的那次 leak——Google 自己埋的一个炸弹

Google 自己建议"先别用"的人群

三、Spark 与 Google 生态深度集成——这是它真正的护城河

四、对手 1：Claude Cowork——Anthropic 的桌面派

一句话档案

Cowork 能干什么

Cowork 用起来到底怎么样——社区反馈

Cowork 与 Spark 最大的区别

五、对手 2：OpenAI Codex——从写代码到接管整个工作台

一句话档案

Codex 真正的能力——已经超出 coding 边界

Codex 与 Spark 的根本区别

六、对手 3：OpenClaw——那只让 React 都汗颜的开源龙虾

一句话档案

OpenClaw 的真正杀器——22 个消息平台直连

OpenClaw 的政治意义

七、对手 4：Hermes Agent——同样开源，但比 OpenClaw 更激进

一句话档案

Hermes 的独特之处：会"长出"自己的 skill

八、把 Spark 放在这个赛道里看——它的位置在哪？

九、五种人格——你该选哪一个？

如果你是重度 Google 生态用户且在美国

如果你是桌面知识工作者（律师、研究员、内容创作者、咨询）

如果你已经深度使用 ChatGPT 并且接受写一些代码

如果你自己写代码 + 多个 IM 重度用户 + 隐私强迫症

如果你是自托管派，相信"我的 agent 必须能在我离线时跑在我自己机器上"

十、行业大势：2026 年是个人 AI agent 的"分水岭年"

十一、不能不说的几件事

1. 那句 “may share your info or make purchases without asking” 是认真的

2. AI Ultra $100 这个价格 ≠ 你真的得到了 Spark

3. “受控支付"听起来好——但谁负责审计？

4. 集成深度是双刃剑

十二、收束

主要来源