深度拆解 Gemini Spark:谷歌的"云端代理人"赶到了一个已经被预订满的派对
I/O 2026 上 Gemini Spark 一发布,大量科技媒体的标题都是"Google 杀入个人 AI agent 市场"。
这个说法有一半是错的——Google 不是杀入,是迟到。
2026 年这条赛道在 Spark 发布之前,已经在过去 5 个月里挤满了人:
- Anthropic Claude Cowork — 2026-01-12 研究预览,2026-04-09 GA
- OpenClaw — 2026 年 1 月开源,60 天 GitHub stars 突破 25 万
- Hermes Agent — 2026 年 2 月 Nous Research 开源,自带 agentskills.io 标准
- OpenAI Codex — 已经从 coding agent 扩到 always-on Automations
- 还有 Lindy、alfred_、MultiOn、Microsoft Copilot 一票垂直玩家
Spark 不是这条赛道的开局——它是 Google 在赛道已经成型的时候打出来的最后一张大牌。它的差异化也不是"我做了 agent",而是**“我做了一个真正不需要你电脑开着的云端 agent”**。
这一篇先把 Spark 拆透,再挑赛道里几家最有代表性的对手做参照,最后讲哪种人适合用哪个。
一、Spark 是什么——三个关键词
Gemini App agentic 升级博文。来源:blog.google/innovation-and-ai/products/gemini-app/next-evolution-gemini-app/
Google 的官方定义是一句话:Gemini Spark 是一个 24/7 AI agent,跑在 Google Cloud 的专属虚拟机上,不需要你电脑开着也能继续工作。
三个关键词每个都值得拆开看。
关键词 1:24/7
字面意思——你关掉电脑、关掉手机、人在飞机上没信号,它都在干活。这是 Spark 跟所有现有竞品最大的区别。Cowork 必须 Claude Desktop App 开着、Codex Automations 跑在你的 cloud env 但仍由你的 ChatGPT 账号驱动、OpenClaw 装在你自己机器上。只有 Spark 是真正意义上的"我下班它接着上班"。
关键词 2:专属虚拟机
技术架构上,Spark 跑在 Google Cloud 为每个用户分配的隔离 Linux 沙箱里。底层名字叫 Managed Agents——通过 Gemini API 单次调用就能起一个完整的远程 agent 沙箱,Spark 是它的首个消费级应用。
模型层用的是 Gemini 3.5 Flash + Antigravity Harness(也就是 Google 同期发的"AI 操作系统")。换句话说:Spark = 3.5 Flash 的脑 + Antigravity 的手 + Cloud VM 的家。
关键词 3:美国 only,下周 Beta
这是今天最关键的事实,很多媒体没说清楚:
- 今天起:仅向 trusted tester(受邀内部测试者)开放
- 下周开始:向美国区 Google AI Ultra 订阅者开放 Beta
- AI Ultra 两档都能用:$100/月(新增的开发者档)和 $200/月(旗舰档,从 $250 降价)
- 欧盟和英国不在首批——EU AI Act 关于"消费级 AI agent"的透明度义务 2026-08-02 才生效,Google 选择避开监管空窗期
如果你不在美国、不订 AI Ultra、不是 trusted tester——你今天还摸不到它。
二、Spark 能干什么——和那条被 leak 出来的警告
Google 今天列的能力
官方博文里举的例子很克制,只有这几条:
| 场景 | 官方原文描述 |
|---|---|
| 信用卡账单审计 | 解析账单文件,找出你忘记取消的隐藏订阅 |
| 学校邮件 digest | 监控学校发来的通知,汇总成"一周看一次就够"的摘要 |
| 会议笔记自动归档 | 把会议要点综合整理后直接同步到 Google Docs |
| 跨 Workspace 自动化 | Gmail / Calendar / Tasks / Drive / Docs 之间的多步工作流 |
| 第三方 MCP 调用 | 通过 OpenTable 订餐厅、通过 Instacart 下单、通过 Canva 起草设计稿 |
MCP 首批合作伙伴:Google 在博文里只明确点了三家——Canva、OpenTable、Instacart。官方原话:“a full list of more partners are integrating now”——还在接入。
5/14 的那次 leak——Google 自己埋的一个炸弹
5 月 14 日,Google App beta 17.23 提前把 Spark 的入口偷偷上了。9to5Google 的 APK Insight 团队扒出了 onboarding 流程的截图。
里面有一句话比所有 keynote 都直白:
“may do things like share your info or make purchases without asking.”
翻译:可能会在不询问你的情况下,分享你的信息或者代你付款。
这不是为了规避法律责任写的板砖式声明——这是 Google 主动告诉你:Spark 被设计成会替你做一些不主动征求同意的事。
具体机制:Spark 会存储你的远程浏览器数据和登录凭证,以保证后台工作流持续运行——也就是说,它会以你的身份登录各种网站、保存会话。这是把"代理人"做实了——它真的在用你的身份做事。
Google 自己建议"先别用"的人群
根据 5/14 那次泄露页面的 fine print 和今天博文里的隐含表述,Spark 在以下场景不被推荐:
- 处理 NDA 下的敏感客户数据
- 受监管的金融或医疗行业从业者
- 居住在欧盟或英国
三、Spark 与 Google 生态深度集成——这是它真正的护城河
Engadget: “Google’s Gemini Spark Is An Agentic AI Assistant.” 重点强调了 Spark 与 Workspace 的深度耦合。
Spark 的所有竞品都做不到一件事——生在 Google 生态里。
| 接入面 | Spark 的独占优势 |
|---|---|
| Gmail | 不仅能读,能主动监控新邮件触发工作流;能以你的身份起草和发送 |
| Calendar | 能根据邮件自动建议日程;可以解析自然语言指令(“帮我把下周所有 1:1 挪到上午”) |
| Tasks | 把分散的待办统一到一处,自动从邮件、Doc、Drive 提取 |
| Drive / Docs | 会议笔记直接同步成 Doc;可以跨多个 Doc 综合再输出 |
| Android Halo | 状态栏新增的发光圆环——专门显示 Spark 在后台干什么 |
| AP2 协议 | Google 同步推出的 Agent Payments Protocol,首批集成 Spark——给 agent 设预算、加密签名审计 |
| AI Ultra 订阅整合 | Antigravity / Gemini App / YouTube Premium 是一套订阅打包 |
翻译成大白话:用 Cowork,你的桌面文件归 Anthropic 处理;用 Codex,你的代码归 OpenAI 处理;用 Spark,你的整套 Google 数字身份归 Google 自己处理。
这是优势也是危险——优势在体验丝滑度上没人能比,危险在你的整个数字命脉被一家公司全占了。
四、对手 1:Claude Cowork——Anthropic 的桌面派
Claude Cowork 官方页:“Anthropic’s agentic AI for knowledge work.”
一句话档案
| 项 | Claude Cowork 现状 |
|---|---|
| 发布 | 2026-01-12 research preview |
| Windows 支持 | 2026-02-10 加入,与 macOS 全功能对等 |
| GA 时间 | 2026-04-09(all paying subscribers) |
| 平台 | macOS + Windows,Linux 不支持,无 mobile,无 web |
| 订阅档 | Pro $20/月、Max $100-$200/月、Team $30/user/月、Enterprise |
| 必须 | Claude Desktop App 保持开启 |
| 设计哲学 | “Designed with human oversight in mind” |

Cowork 能干什么
- 本地文件批处理:重命名、排序、去重、按主题归档
- 多文档综合:跨大量本地文件读取、识别关联、拼出一份完整叙事
- 数据提取:把扫描件、PDF、截图、收据扔进文件夹,自动出报销 Excel
- 跨应用桌面操作:像人一样点击、拖拽、复制粘贴
Cowork 用起来到底怎么样——社区反馈
- 一位早期使用者在每周六早 8 点跑一个 “content batch” 任务,节省约 8 小时/周
- 创业者群体反馈:节省 6-10 小时/周
- 外部连接器不稳——Gmail / Google Drive 连接器多人反馈不可靠,Chrome 扩展集成反而更稳
- 复杂任务烧 quota 厉害——$200/月的 Max 20x 用户在密集使用周也会触顶
- 重大事故:有一名早期使用者因为 Cowork 的误操作丢了 15,000 张家庭照片
Cowork 与 Spark 最大的区别
Cowork = 本地桌面操作;Spark = 云端 24/7 后台。这是哲学的差异,不只是产品差异:
- Cowork 的数据留在你的电脑上,云端只看到对话
- Spark 的工作流必然要把凭证和会话搬到云——这是它能 24/7 的代价
五、对手 2:OpenAI Codex——从写代码到接管整个工作台
openai.com/codex —— “A coding agent that helps you build and ship with AI—powered by ChatGPT.”
很多人提到 OpenAI 的 agent 产品,第一反应是 ChatGPT 里那个 “Agent Mode”——但那只是一个订阅档功能。OpenAI 真正在押注的 agent 平台是 Codex。
一句话档案
| 项 | OpenAI Codex 现状 |
|---|---|
| 起源 | 最初定位是 coding agent |
| 平台 | macOS + Windows app + CLI(npm i -g @openai/codex)+ IDE 插件 |
| 账号串联 | 通过 ChatGPT 账号在 app / IDE / terminal 之间同步状态 |
| 架构 | Codex app 是"agentic coding 的指挥中心"——内建 worktrees + cloud environments,多 agent 并行 |
| 企业化 | Workspace Agents 由 Codex 驱动,5 月 5 日上线 |
Codex 真正的能力——已经超出 coding 边界
OpenAI 官方页面给的功能清单已经透露了野心:
- Skills:自定义工作流模板,让 Codex 处理"代码理解、原型、文档"等周边任务,对齐团队规范
- Automations:“always-on background work”——主动接管 issue triage、alert monitoring、CI/CD 等任务,不需要你提示,自己跑
注意 “Automations” 这个特性——这已经是和 Spark 同质的"主动后台工作"模式了,只不过 Codex 的"后台"指的是 cloud env,要 ChatGPT 账号在线驱动;Spark 的"后台"是 Google 给你独占的 VM,真正脱离用户在线。
Codex 与 Spark 的根本区别
- Codex 是给"会写代码的人"做的 agent 平台——但 Skills 系统让非开发者也能套用模板
- Spark 是给"普通用户"做的 agent——但代价是隐私让渡更深
如果你已经在 ChatGPT 生态里,Codex 是顺手的选择;如果你不写代码、不接受配置成本,Spark 更对你。
六、对手 3:OpenClaw——那只让 React 都汗颜的开源龙虾
github.com/openclaw/openclaw —— “Your own personal AI assistant. Any OS. Any Platform. The lobster way.” 当前 GitHub stars 已突破 37 万。
一句话档案
| 项 | OpenClaw 现状 |
|---|---|
| 作者 | Peter Steinberger(前 PSPDFKit 创始人) |
| 发布 | 2026-01 |
| GitHub stars | 37.3 万——60 天超过 React(24.3 万)和 Linux(21.8 万) |
| 语言 / License | TypeScript / MIT(完全开源) |
| 平台 | macOS / Linux / Windows / iOS / Android 全平台 |
| 架构 | Local-first Gateway + Multi-agent routing + Voice + Live Canvas |
| 后续 | 2026-02-14 Steinberger 加入 OpenAI;项目移交非盈利基金会 |
| API 费 | BYO(Bring Your Own API Key)—— 用 OpenAI、Anthropic、Google 都行 |
OpenClaw 的真正杀器——22 个消息平台直连
这是 OpenClaw 最反直觉的卖点:它不是一个 App,它是一个接入到你已经在用的所有 IM 里的多通道 agent。
支持的渠道(README 原始列表):
WhatsApp / Telegram / Slack / Discord / Google Chat / Signal / iMessage / IRC / Microsoft Teams / Matrix / Feishu(飞书)/ LINE / Mattermost / Nextcloud Talk / Nostr / Synology Chat / Tlon / Twitch / Zalo / 微信 / QQ / WebChat
也就是说:你不需要打开任何"AI App"。你在飞书里跟同事聊天的时候,直接 @ 一下 Claw,它就在那儿。这对于已经用 Slack / 飞书 / 微信办公的人来说,是真正零摩擦的使用方式。
OpenClaw 的政治意义
OpenClaw 火爆的核心原因之一是它在做 Spark / Cowork / Codex 做不到的事:
- 本地优先:所有逻辑跑在你自己的机器上
- 零订阅:开源 + MIT,永远不会涨价、不会下架
- 多模型:今天用 GPT-5.5,明天用 Claude,后天用 Gemini,配置改一下
- 可审计:所有 skill 都是 TypeScript 源码,你能看懂它到底在干什么
代价是:配置门槛高。需要自己装、自己配 API key、自己写或下载 skills——这不是给非技术用户的产品。
七、对手 4:Hermes Agent——同样开源,但比 OpenClaw 更激进

刚才说"OpenClaw 是开源派的代表"——其实 2026 年 2 月,Nous Research 又放了一个产品叫 Hermes Agent,定位更激进:自我进化的开源 agent。
一句话档案
| 项 | Hermes Agent 现状 |
|---|---|
| 作者 | Nous Research |
| 发布 | 2026 年 2 月 |
| License | 开源 |
| 平台 | Linux / macOS / WSL2 |
| 安装 | 单条 curl 命令全自动装 |
| 多通道 | CLI / Telegram / Discord / Slack / WhatsApp / Signal / Matrix / 飞书 / 企微 / iMessage bridge / Home Assistant |
| 核心特性 | Persistent memory + agentskills.io 开放标准 |
| 数据 | All data stays on your machine. No telemetry, no tracking. |
Hermes 的独特之处:会"长出"自己的 skill
Hermes 跟其他 agent 最大的差异在 skill 自生成机制:
“When Hermes solves a hard problem, it writes a reusable skill document so it never forgets how.”
也就是说——Hermes 第一次帮你解决某个问题之后,它会主动把这次的解法写成一个 skill 文档,下次遇到类似问题直接复用。这些 skill 是 agentskills.io 标准的——可搜索、可分享、可被其他 agent 使用。
OpenClaw 的"skill"是预写的;Hermes 的"skill"是动态长出来的。这两种哲学在开源 agent 圈引发了 2026 年最有趣的辩论之一。
八、把 Spark 放在这个赛道里看——它的位置在哪?
把 5 个产品摊开比一比(按"今天它是不是真的能用 / 谁能用"排序):
| 维度 | Gemini Spark | Claude Cowork | OpenAI Codex | OpenClaw | Hermes Agent |
|---|---|---|---|---|---|
| GA 状态 | Beta(下周) | ✅ 已 GA(4/9) | ✅ 已 GA | ✅ 开源永久可用 | ✅ 开源永久可用 |
| 架构 | 云端 VM 24/7 | 本地桌面 + 云端 LLM | 本地 app + cloud env | 本地 Gateway | 本地完全自主 |
| 是否需要本机运行 | ❌ 完全不用 | ✅ 必须开着 | ✅ 必须开着 | ✅ 必须开着 | ✅ 必须开着 |
| 平台 | Android / iOS(手机起步) | macOS + Windows | macOS + Windows + IDE + CLI | 全平台 | Linux / macOS / WSL2 |
| 可用区域 | 美国 only | 全球(除 Linux) | 全球(OpenAI 服务区域) | 任意 | 任意 |
| 订阅起价 | AI Ultra $100/月 | Claude Pro $20/月 | 含在 ChatGPT 订阅 / Codex 免费 CLI | $0(BYO API key) | $0(BYO API key) |
| 目标用户 | 普通消费者 | 知识工作者 | 开发者 + 技术用户 | 重度极客 | 自托管派 |
| 生态独占 | Google Workspace 全家桶 | Anthropic Skills | ChatGPT + Workspace Agents | 你自己的所有 IM | 你自己的所有 IM |
| 隐私模式 | 云端持久(含登录凭证) | 本地为主 | OpenAI 云端 | 完全本地 | 完全本地 + 零遥测 |
| 支付能力 | ✅ AP2 协议受控支付 | ❌ 暂无 | 通过 Skill 可扩展 | 看装的 skill | 看装的 skill |
| 最大短板 | 隐私让渡 + 仅美国 + 贵 | 烧 quota + 外部连接器不稳 | 仍偏开发者 | 配置门槛高 | 用户群小、文档稀薄 |
一些观察:
- 唯一真正 24/7 后台的是 Spark——这是它最具差异化的卖点,但代价是隐私边界往后推
- 唯一今天大多数人可以用的,是 Cowork、Codex 和两个开源——Spark 在多数地区还摸不到
- 价格上 Spark 是最贵的——$100 起,是 Cowork($20)的 5 倍
- 开源派合在一起的体量已经压过任何一家闭源 agent——OpenClaw 37 万 + Hermes 持续增长
九、五种人格——你该选哪一个?
按使用场景分,五个产品其实不完全打架,更像是五种世界观。
如果你是重度 Google 生态用户且在美国
Gmail / Calendar / Docs / Drive 一天碰几十次——等 Spark 在你的地区上。在那之前,没有比它更顺的方案。
但要做好心理准备:Spark 会用你的身份在云端持续操作。读"may do things without asking"那行字三遍。
如果你是桌面知识工作者(律师、研究员、内容创作者、咨询)
本地有大量文件需要被整理、综合、提取——Claude Cowork。
但记得:先做好备份(社区有人丢过 15,000 张照片)。先在非关键目录跑一两周再让它接触关键数据。
如果你已经深度使用 ChatGPT 并且接受写一些代码
Codex 是顺手延伸。Skills 让你能复用工作流,Automations 让它能在后台跑——最重要的是你不用再多订一个产品。
如果你自己写代码 + 多个 IM 重度用户 + 隐私强迫症
OpenClaw。装好之后你会发现:当 Spark 在欧盟还卡着监管的时候、当 Cowork 还在烧 quota 的时候、当 Codex 还在 ChatGPT 账户限速的时候,OpenClaw 在飞书里默默给你跑 task。
如果你是自托管派,相信"我的 agent 必须能在我离线时跑在我自己机器上"
Hermes Agent。它把"skill 是会进化的"做出来了——你用它越久,它越懂你。零订阅、零遥测、完全你自己说了算。
十、行业大势:2026 年是个人 AI agent 的"分水岭年"
把时间线拉直:
| 日期 | 事件 |
|---|---|
| 2026-01-12 | Anthropic 发布 Claude Cowork research preview |
| 2026-01 | Peter Steinberger 开源 OpenClaw(48 小时内 10 万 stars) |
| 2026-02 | Nous Research 开源 Hermes Agent |
| 2026-02-10 | Cowork 加入 Windows 支持 |
| 2026-02-14 | Steinberger 加入 OpenAI;OpenClaw 项目移交基金会 |
| 2026-04-09 | Cowork GA(all paying subscribers) |
| 2026-05-05 | OpenAI Workspace Agents(由 Codex 驱动)上线 |
| 2026-05-19 | Google I/O 2026:Gemini Spark 发布 |
| 2026-08-02 | EU AI Act 对消费级 AI agent 的透明度义务生效 |
五个月时间表说明一件事——整个行业都意识到 chatbot 模式已经摸到天花板了。下一波价值不在"模型多聪明",而在"模型能替你干多少活"。
Spark 不是先发——前面已经有 Cowork、有 OpenClaw、有 Hermes、有 Codex Automations。但 Spark 的特殊性在两件事:
- 它是唯一真正的 24/7 云端 agent——其他主流玩家都需要本地客户端运行
- 它带着 Google 整个生态进场——Workspace 全家桶 + Android Halo + AP2 协议 + Antigravity 一起发的
十一、不能不说的几件事
写到这里必须给几条冷水。
1. 那句 “may share your info or make purchases without asking” 是认真的
不是 boilerplate。这是 Google 主动翻转了 AI 助手的默认权限——以前是默认问你,现在是默认不问。任何在 Spark 上发生的"以你名义"的操作,你都要承担最终责任。
2. AI Ultra $100 这个价格 ≠ 你真的得到了 Spark
- 美国地区
- 仅本周向 trusted tester 开放
- 下周才扩到 AI Ultra 订阅者
- Beta 阶段
- Spark + Antigravity 这两个产品有"优先访问",不是全功能
如果你今天人在中国 / 欧洲 / 其他地区,订了 Ultra 也用不了 Spark。
3. “受控支付"听起来好——但谁负责审计?
AP2 协议依赖加密签名的 Mandate。技术上无懈可击。但人类历史告诉我们:当 agent 出错时,没有人愿意承担责任。“是我同意的,但我没想到它会这样做” —— Google 还没给出在这种纠纷下的责任归属方案。
4. 集成深度是双刃剑
Spark 的爽快感来自"我什么都不用想,它什么都能做”。但反过来想——它对你的数字身份的访问深度,超过任何一个你信任过的应用。
十二、收束
如果把 2026 年 5 月的个人 AI agent 赛道做一个 elevator pitch:
- Spark 是"我把活全交给你(在云端干)"
- Cowork 是"我们一起在桌面上干这件事"
- Codex 是"我已经在你写代码的地方,顺便帮你把别的也做了"
- OpenClaw 是"我自己装一只龙虾在我所有 IM 里"
- Hermes 是"我自己装一个会自我成长的 agent 在我自己机器上"
五个方向没有一个错,区别在于你愿意把多少信任交给云端、多少时间投入本地工具、多少钱投到订阅里。
Spark 的赌注是"信任换便利"。Google 押的是大多数普通用户其实不在乎数据去哪里,只在乎事情能不能自动办了。
但对于在乎隐私、在乎可控、在乎少一个 vendor lock-in 的人来说——开源派那种"装在自己机器上的 agent"才是答案。
Agent 时代的有趣之处就在这——它没有一个标准答案。五种产品形态对应五种生活方式。
你要选哪一个?
主要来源
本文引用了 Google 官方页面、5/14 leak 以及五大对手产品的官方信息源,包括:
- 🌟 Gemini App “Next Evolution” 官方博文 · 🛠️ Antigravity 官网 · 🧪 Managed Agents 开发者文档 · 💎 Gemini AI Ultra 订阅页
- 📡 9to5Google · Engadget 等 Spark 现场报道
- 🟣 Anthropic Claude Cowork · 🟢 OpenAI Codex · 🦞 OpenClaw · ⚡ Hermes Agent · 📂 agentskills.io 五大对手官网
- 📜 EU AI Act 2026-08-02 生效相关条款