欧稽里得
命题 XVIII — 大语言模型

深度拆解 Gemini Spark:谷歌的"云端代理人"赶到了一个已经被预订满的派对

I/O 2026 上 Gemini Spark 一发布,大量科技媒体的标题都是"Google 杀入个人 AI agent 市场"。

这个说法有一半是错的——Google 不是杀入,是迟到

2026 年这条赛道在 Spark 发布之前,已经在过去 5 个月里挤满了人:

  • Anthropic Claude Cowork — 2026-01-12 研究预览,2026-04-09 GA
  • OpenClaw — 2026 年 1 月开源,60 天 GitHub stars 突破 25 万
  • Hermes Agent — 2026 年 2 月 Nous Research 开源,自带 agentskills.io 标准
  • OpenAI Codex — 已经从 coding agent 扩到 always-on Automations
  • 还有 Lindy、alfred_、MultiOn、Microsoft Copilot 一票垂直玩家

Spark 不是这条赛道的开局——它是 Google 在赛道已经成型的时候打出来的最后一张大牌。它的差异化也不是"我做了 agent",而是**“我做了一个真正不需要你电脑开着的云端 agent”**。

这一篇先把 Spark 拆透,再挑赛道里几家最有代表性的对手做参照,最后讲哪种人适合用哪个。


一、Spark 是什么——三个关键词

Gemini App agentic 升级 Gemini App agentic 升级博文。来源:blog.google/innovation-and-ai/products/gemini-app/next-evolution-gemini-app/

Google 的官方定义是一句话:Gemini Spark 是一个 24/7 AI agent,跑在 Google Cloud 的专属虚拟机上,不需要你电脑开着也能继续工作

三个关键词每个都值得拆开看。

关键词 1:24/7

字面意思——你关掉电脑、关掉手机、人在飞机上没信号,它都在干活。这是 Spark 跟所有现有竞品最大的区别。Cowork 必须 Claude Desktop App 开着、Codex Automations 跑在你的 cloud env 但仍由你的 ChatGPT 账号驱动、OpenClaw 装在你自己机器上。只有 Spark 是真正意义上的"我下班它接着上班"

关键词 2:专属虚拟机

技术架构上,Spark 跑在 Google Cloud 为每个用户分配的隔离 Linux 沙箱里。底层名字叫 Managed Agents——通过 Gemini API 单次调用就能起一个完整的远程 agent 沙箱,Spark 是它的首个消费级应用

模型层用的是 Gemini 3.5 Flash + Antigravity Harness(也就是 Google 同期发的"AI 操作系统")。换句话说:Spark = 3.5 Flash 的脑 + Antigravity 的手 + Cloud VM 的家

关键词 3:美国 only,下周 Beta

这是今天最关键的事实,很多媒体没说清楚:

  • 今天起:仅向 trusted tester(受邀内部测试者)开放
  • 下周开始:向美国区 Google AI Ultra 订阅者开放 Beta
  • AI Ultra 两档都能用:$100/月(新增的开发者档)和 $200/月(旗舰档,从 $250 降价)
  • 欧盟和英国不在首批——EU AI Act 关于"消费级 AI agent"的透明度义务 2026-08-02 才生效,Google 选择避开监管空窗期

如果你不在美国、不订 AI Ultra、不是 trusted tester——你今天还摸不到它


二、Spark 能干什么——和那条被 leak 出来的警告

Google 今天列的能力

官方博文里举的例子很克制,只有这几条:

场景 官方原文描述
信用卡账单审计 解析账单文件,找出你忘记取消的隐藏订阅
学校邮件 digest 监控学校发来的通知,汇总成"一周看一次就够"的摘要
会议笔记自动归档 把会议要点综合整理后直接同步到 Google Docs
跨 Workspace 自动化 Gmail / Calendar / Tasks / Drive / Docs 之间的多步工作流
第三方 MCP 调用 通过 OpenTable 订餐厅、通过 Instacart 下单、通过 Canva 起草设计稿

MCP 首批合作伙伴:Google 在博文里只明确点了三家——Canva、OpenTable、Instacart。官方原话:“a full list of more partners are integrating now”——还在接入。

5/14 的那次 leak——Google 自己埋的一个炸弹

5 月 14 日,Google App beta 17.23 提前把 Spark 的入口偷偷上了。9to5Google 的 APK Insight 团队扒出了 onboarding 流程的截图。

里面有一句话比所有 keynote 都直白:

“may do things like share your info or make purchases without asking.”

翻译:可能会在不询问你的情况下,分享你的信息或者代你付款

这不是为了规避法律责任写的板砖式声明——这是 Google 主动告诉你:Spark 被设计成会替你做一些不主动征求同意的事

具体机制:Spark 会存储你的远程浏览器数据和登录凭证,以保证后台工作流持续运行——也就是说,它会以你的身份登录各种网站、保存会话。这是把"代理人"做实了——它真的在用你的身份做事。

Google 自己建议"先别用"的人群

根据 5/14 那次泄露页面的 fine print 和今天博文里的隐含表述,Spark 在以下场景不被推荐

  • 处理 NDA 下的敏感客户数据
  • 受监管的金融或医疗行业从业者
  • 居住在欧盟或英国

三、Spark 与 Google 生态深度集成——这是它真正的护城河

Engadget 对 Spark 的现场报道 Engadget: “Google’s Gemini Spark Is An Agentic AI Assistant.” 重点强调了 Spark 与 Workspace 的深度耦合。

Spark 的所有竞品都做不到一件事——生在 Google 生态里

接入面 Spark 的独占优势
Gmail 不仅能读,能主动监控新邮件触发工作流;能以你的身份起草和发送
Calendar 能根据邮件自动建议日程;可以解析自然语言指令(“帮我把下周所有 1:1 挪到上午”)
Tasks 把分散的待办统一到一处,自动从邮件、Doc、Drive 提取
Drive / Docs 会议笔记直接同步成 Doc;可以跨多个 Doc 综合再输出
Android Halo 状态栏新增的发光圆环——专门显示 Spark 在后台干什么
AP2 协议 Google 同步推出的 Agent Payments Protocol,首批集成 Spark——给 agent 设预算、加密签名审计
AI Ultra 订阅整合 Antigravity / Gemini App / YouTube Premium 是一套订阅打包

翻译成大白话:用 Cowork,你的桌面文件归 Anthropic 处理;用 Codex,你的代码归 OpenAI 处理;用 Spark,你的整套 Google 数字身份归 Google 自己处理

这是优势也是危险——优势在体验丝滑度上没人能比,危险在你的整个数字命脉被一家公司全占了。


四、对手 1:Claude Cowork——Anthropic 的桌面派

Anthropic Claude Cowork 官方页 Claude Cowork 官方页:“Anthropic’s agentic AI for knowledge work.”

一句话档案

Claude Cowork 现状
发布 2026-01-12 research preview
Windows 支持 2026-02-10 加入,与 macOS 全功能对等
GA 时间 2026-04-09(all paying subscribers)
平台 macOS + Windows,Linux 不支持,无 mobile,无 web
订阅档 Pro $20/月、Max $100-$200/月、Team $30/user/月、Enterprise
必须 Claude Desktop App 保持开启
设计哲学 “Designed with human oversight in mind”

Claude Help Center 的 Cowork 入门页

Cowork 能干什么

  • 本地文件批处理:重命名、排序、去重、按主题归档
  • 多文档综合:跨大量本地文件读取、识别关联、拼出一份完整叙事
  • 数据提取:把扫描件、PDF、截图、收据扔进文件夹,自动出报销 Excel
  • 跨应用桌面操作:像人一样点击、拖拽、复制粘贴

Cowork 用起来到底怎么样——社区反馈

  • 一位早期使用者在每周六早 8 点跑一个 “content batch” 任务,节省约 8 小时/周
  • 创业者群体反馈:节省 6-10 小时/周
  • 外部连接器不稳——Gmail / Google Drive 连接器多人反馈不可靠,Chrome 扩展集成反而更稳
  • 复杂任务烧 quota 厉害——$200/月的 Max 20x 用户在密集使用周也会触顶
  • 重大事故:有一名早期使用者因为 Cowork 的误操作丢了 15,000 张家庭照片

Cowork 与 Spark 最大的区别

Cowork = 本地桌面操作;Spark = 云端 24/7 后台。这是哲学的差异,不只是产品差异:

  • Cowork 的数据留在你的电脑上,云端只看到对话
  • Spark 的工作流必然要把凭证和会话搬到云——这是它能 24/7 的代价

五、对手 2:OpenAI Codex——从写代码到接管整个工作台

OpenAI Codex 官方页 openai.com/codex —— “A coding agent that helps you build and ship with AI—powered by ChatGPT.”

很多人提到 OpenAI 的 agent 产品,第一反应是 ChatGPT 里那个 “Agent Mode”——但那只是一个订阅档功能。OpenAI 真正在押注的 agent 平台是 Codex

一句话档案

OpenAI Codex 现状
起源 最初定位是 coding agent
平台 macOS + Windows app + CLI(npm i -g @openai/codex)+ IDE 插件
账号串联 通过 ChatGPT 账号在 app / IDE / terminal 之间同步状态
架构 Codex app 是"agentic coding 的指挥中心"——内建 worktrees + cloud environments,多 agent 并行
企业化 Workspace Agents 由 Codex 驱动,5 月 5 日上线

Codex 真正的能力——已经超出 coding 边界

OpenAI 官方页面给的功能清单已经透露了野心:

  • Skills:自定义工作流模板,让 Codex 处理"代码理解、原型、文档"等周边任务,对齐团队规范
  • Automations“always-on background work”——主动接管 issue triage、alert monitoring、CI/CD 等任务,不需要你提示,自己跑

注意 “Automations” 这个特性——这已经是和 Spark 同质的"主动后台工作"模式了,只不过 Codex 的"后台"指的是 cloud env,要 ChatGPT 账号在线驱动;Spark 的"后台"是 Google 给你独占的 VM,真正脱离用户在线

Codex 与 Spark 的根本区别

  • Codex 是给"会写代码的人"做的 agent 平台——但 Skills 系统让非开发者也能套用模板
  • Spark 是给"普通用户"做的 agent——但代价是隐私让渡更深

如果你已经在 ChatGPT 生态里,Codex 是顺手的选择;如果你不写代码、不接受配置成本,Spark 更对你。


六、对手 3:OpenClaw——那只让 React 都汗颜的开源龙虾

OpenClaw GitHub 仓库 github.com/openclaw/openclaw —— “Your own personal AI assistant. Any OS. Any Platform. The lobster way.” 当前 GitHub stars 已突破 37 万。

一句话档案

OpenClaw 现状
作者 Peter Steinberger(前 PSPDFKit 创始人)
发布 2026-01
GitHub stars 37.3 万——60 天超过 React(24.3 万)和 Linux(21.8 万)
语言 / License TypeScript / MIT(完全开源)
平台 macOS / Linux / Windows / iOS / Android 全平台
架构 Local-first Gateway + Multi-agent routing + Voice + Live Canvas
后续 2026-02-14 Steinberger 加入 OpenAI;项目移交非盈利基金会
API 费 BYO(Bring Your Own API Key)—— 用 OpenAI、Anthropic、Google 都行

OpenClaw 的真正杀器——22 个消息平台直连

这是 OpenClaw 最反直觉的卖点:它不是一个 App,它是一个接入到你已经在用的所有 IM 里的多通道 agent

支持的渠道(README 原始列表):

WhatsApp / Telegram / Slack / Discord / Google Chat / Signal / iMessage / IRC / Microsoft Teams / Matrix / Feishu(飞书)/ LINE / Mattermost / Nextcloud Talk / Nostr / Synology Chat / Tlon / Twitch / Zalo / 微信 / QQ / WebChat

也就是说:你不需要打开任何"AI App"。你在飞书里跟同事聊天的时候,直接 @ 一下 Claw,它就在那儿。这对于已经用 Slack / 飞书 / 微信办公的人来说,是真正零摩擦的使用方式。

OpenClaw 的政治意义

OpenClaw 火爆的核心原因之一是它在做 Spark / Cowork / Codex 做不到的事:

  • 本地优先:所有逻辑跑在你自己的机器上
  • 零订阅:开源 + MIT,永远不会涨价、不会下架
  • 多模型:今天用 GPT-5.5,明天用 Claude,后天用 Gemini,配置改一下
  • 可审计:所有 skill 都是 TypeScript 源码,你能看懂它到底在干什么

代价是:配置门槛高。需要自己装、自己配 API key、自己写或下载 skills——这不是给非技术用户的产品。


七、对手 4:Hermes Agent——同样开源,但比 OpenClaw 更激进

Hermes Agent 官方页

刚才说"OpenClaw 是开源派的代表"——其实 2026 年 2 月,Nous Research 又放了一个产品叫 Hermes Agent,定位更激进:自我进化的开源 agent

一句话档案

Hermes Agent 现状
作者 Nous Research
发布 2026 年 2 月
License 开源
平台 Linux / macOS / WSL2
安装 单条 curl 命令全自动装
多通道 CLI / Telegram / Discord / Slack / WhatsApp / Signal / Matrix / 飞书 / 企微 / iMessage bridge / Home Assistant
核心特性 Persistent memory + agentskills.io 开放标准
数据 All data stays on your machine. No telemetry, no tracking.

Hermes 的独特之处:会"长出"自己的 skill

Hermes 跟其他 agent 最大的差异在 skill 自生成机制

“When Hermes solves a hard problem, it writes a reusable skill document so it never forgets how.”

也就是说——Hermes 第一次帮你解决某个问题之后,它会主动把这次的解法写成一个 skill 文档,下次遇到类似问题直接复用。这些 skill 是 agentskills.io 标准的——可搜索、可分享、可被其他 agent 使用

OpenClaw 的"skill"是预写的;Hermes 的"skill"是动态长出来的。这两种哲学在开源 agent 圈引发了 2026 年最有趣的辩论之一。


八、把 Spark 放在这个赛道里看——它的位置在哪?

把 5 个产品摊开比一比(按"今天它是不是真的能用 / 谁能用"排序):

维度 Gemini Spark Claude Cowork OpenAI Codex OpenClaw Hermes Agent
GA 状态 Beta(下周) ✅ 已 GA(4/9) ✅ 已 GA ✅ 开源永久可用 ✅ 开源永久可用
架构 云端 VM 24/7 本地桌面 + 云端 LLM 本地 app + cloud env 本地 Gateway 本地完全自主
是否需要本机运行 ❌ 完全不用 ✅ 必须开着 ✅ 必须开着 ✅ 必须开着 ✅ 必须开着
平台 Android / iOS(手机起步) macOS + Windows macOS + Windows + IDE + CLI 全平台 Linux / macOS / WSL2
可用区域 美国 only 全球(除 Linux) 全球(OpenAI 服务区域) 任意 任意
订阅起价 AI Ultra $100/月 Claude Pro $20/月 含在 ChatGPT 订阅 / Codex 免费 CLI $0(BYO API key) $0(BYO API key)
目标用户 普通消费者 知识工作者 开发者 + 技术用户 重度极客 自托管派
生态独占 Google Workspace 全家桶 Anthropic Skills ChatGPT + Workspace Agents 你自己的所有 IM 你自己的所有 IM
隐私模式 云端持久(含登录凭证) 本地为主 OpenAI 云端 完全本地 完全本地 + 零遥测
支付能力 ✅ AP2 协议受控支付 ❌ 暂无 通过 Skill 可扩展 看装的 skill 看装的 skill
最大短板 隐私让渡 + 仅美国 + 贵 烧 quota + 外部连接器不稳 仍偏开发者 配置门槛高 用户群小、文档稀薄

一些观察

  1. 唯一真正 24/7 后台的是 Spark——这是它最具差异化的卖点,但代价是隐私边界往后推
  2. 唯一今天大多数人可以用的,是 Cowork、Codex 和两个开源——Spark 在多数地区还摸不到
  3. 价格上 Spark 是最贵的——$100 起,是 Cowork($20)的 5 倍
  4. 开源派合在一起的体量已经压过任何一家闭源 agent——OpenClaw 37 万 + Hermes 持续增长

九、五种人格——你该选哪一个?

按使用场景分,五个产品其实不完全打架,更像是五种世界观。

如果你是重度 Google 生态用户在美国

Gmail / Calendar / Docs / Drive 一天碰几十次——等 Spark 在你的地区上。在那之前,没有比它更顺的方案。

但要做好心理准备:Spark 会用你的身份在云端持续操作。读"may do things without asking"那行字三遍。

如果你是桌面知识工作者(律师、研究员、内容创作者、咨询)

本地有大量文件需要被整理、综合、提取——Claude Cowork

但记得:先做好备份(社区有人丢过 15,000 张照片)。先在非关键目录跑一两周再让它接触关键数据。

如果你已经深度使用 ChatGPT 并且接受写一些代码

Codex 是顺手延伸。Skills 让你能复用工作流,Automations 让它能在后台跑——最重要的是你不用再多订一个产品

如果你自己写代码 + 多个 IM 重度用户 + 隐私强迫症

OpenClaw。装好之后你会发现:当 Spark 在欧盟还卡着监管的时候、当 Cowork 还在烧 quota 的时候、当 Codex 还在 ChatGPT 账户限速的时候,OpenClaw 在飞书里默默给你跑 task

如果你是自托管派,相信"我的 agent 必须能在我离线时跑在我自己机器上"

Hermes Agent。它把"skill 是会进化的"做出来了——你用它越久,它越懂你。零订阅、零遥测、完全你自己说了算。


十、行业大势:2026 年是个人 AI agent 的"分水岭年"

把时间线拉直:

日期 事件
2026-01-12 Anthropic 发布 Claude Cowork research preview
2026-01 Peter Steinberger 开源 OpenClaw(48 小时内 10 万 stars)
2026-02 Nous Research 开源 Hermes Agent
2026-02-10 Cowork 加入 Windows 支持
2026-02-14 Steinberger 加入 OpenAI;OpenClaw 项目移交基金会
2026-04-09 Cowork GA(all paying subscribers)
2026-05-05 OpenAI Workspace Agents(由 Codex 驱动)上线
2026-05-19 Google I/O 2026:Gemini Spark 发布
2026-08-02 EU AI Act 对消费级 AI agent 的透明度义务生效

五个月时间表说明一件事——整个行业都意识到 chatbot 模式已经摸到天花板了。下一波价值不在"模型多聪明",而在"模型能替你干多少活"。

Spark 不是先发——前面已经有 Cowork、有 OpenClaw、有 Hermes、有 Codex Automations。但 Spark 的特殊性在两件事:

  1. 它是唯一真正的 24/7 云端 agent——其他主流玩家都需要本地客户端运行
  2. 它带着 Google 整个生态进场——Workspace 全家桶 + Android Halo + AP2 协议 + Antigravity 一起发的

十一、不能不说的几件事

写到这里必须给几条冷水。

1. 那句 “may share your info or make purchases without asking” 是认真的

不是 boilerplate。这是 Google 主动翻转了 AI 助手的默认权限——以前是默认问你,现在是默认不问。任何在 Spark 上发生的"以你名义"的操作,你都要承担最终责任。

2. AI Ultra $100 这个价格 ≠ 你真的得到了 Spark

  • 美国地区
  • 仅本周向 trusted tester 开放
  • 下周才扩到 AI Ultra 订阅者
  • Beta 阶段
  • Spark + Antigravity 这两个产品有"优先访问",不是全功能

如果你今天人在中国 / 欧洲 / 其他地区,订了 Ultra 也用不了 Spark

3. “受控支付"听起来好——但谁负责审计?

AP2 协议依赖加密签名的 Mandate。技术上无懈可击。但人类历史告诉我们:当 agent 出错时,没有人愿意承担责任。“是我同意的,但我没想到它会这样做” —— Google 还没给出在这种纠纷下的责任归属方案。

4. 集成深度是双刃剑

Spark 的爽快感来自"我什么都不用想,它什么都能做”。但反过来想——它对你的数字身份的访问深度,超过任何一个你信任过的应用


十二、收束

如果把 2026 年 5 月的个人 AI agent 赛道做一个 elevator pitch:

  • Spark 是"我把活全交给你(在云端干)"
  • Cowork 是"我们一起在桌面上干这件事"
  • Codex 是"我已经在你写代码的地方,顺便帮你把别的也做了"
  • OpenClaw 是"我自己装一只龙虾在我所有 IM 里"
  • Hermes 是"我自己装一个会自我成长的 agent 在我自己机器上"

五个方向没有一个错,区别在于你愿意把多少信任交给云端、多少时间投入本地工具、多少钱投到订阅里。

Spark 的赌注是"信任换便利"。Google 押的是大多数普通用户其实不在乎数据去哪里,只在乎事情能不能自动办了。

但对于在乎隐私、在乎可控、在乎少一个 vendor lock-in 的人来说——开源派那种"装在自己机器上的 agent"才是答案

Agent 时代的有趣之处就在这——它没有一个标准答案。五种产品形态对应五种生活方式

你要选哪一个?


主要来源

本文引用了 Google 官方页面、5/14 leak 以及五大对手产品的官方信息源,包括:

  • 🌟 Gemini App “Next Evolution” 官方博文 · 🛠️ Antigravity 官网 · 🧪 Managed Agents 开发者文档 · 💎 Gemini AI Ultra 订阅页
  • 📡 9to5Google · Engadget 等 Spark 现场报道
  • 🟣 Anthropic Claude Cowork · 🟢 OpenAI Codex · 🦞 OpenClaw · ⚡ Hermes Agent · 📂 agentskills.io 五大对手官网
  • 📜 EU AI Act 2026-08-02 生效相关条款