欧稽里得
命题 XVI — 大语言模型

深度拆解 Gemini 3.5 Flash:Google 把旗舰级智能塞进了一道"闪电"

Google I/O 2026 刚落幕。没有 Ultra,没有万亿参数的军备竞赛——今年的绝对主角,是一个"小"模型:Gemini 3.5 Flash

它在 LLM Stats 排行榜上直接空降第六,速度是 GPT-5.5 的 2.5 倍,价格却只有它的三分之一。

这是什么概念?相当于一辆思域跑出了保时捷的圈速,还只要思域的油钱。


一、I/O 现场:Google 今年憋了什么大招?

2026 年 5 月 19 日,Sundar Pichai 站在 Shoreline 舞台上,用一句话定义了 Gemini 3.5 系列:

“Frontier intelligence with action.”

翻译成人话就是:不光聪明,还能干活。

Google I/O 2026 Keynote Google DeepMind Gemini 产品页。来源:deepmind.google

这次发布一共三件事:

  1. Gemini 3.5 Flash — 当天即可用,速度怪兽,“Flash 级价格,Pro 级脑子”
  2. Gemini 3.5 Pro — 还在内测,6 月放出,主打极限推理
  3. Gemini Spark — 全新 24/7 AI 管家,能帮你发邮件、做调研,你关了电脑它还在后台干活(是的,你没看错)

今天咱们聚焦那道"闪电"——Gemini 3.5 Flash。


二、先看参数:一张表,看懂 3.5 Flash 的全部底牌

“Talk is cheap, show me the numbers.”

参数 Gemini 3.5 Flash
上下文窗口 1,000,000 Tokens(一百万。不是 128K,不是 200K,是一百万。)
输入价格 $1.50 / 百万 Token
输出价格 $9.00 / 百万 Token(含思考 Token)
缓存价格 读写 $0.15/M(正常价的一折)
输入模态 文本、图片、视频、音频、PDF 全都吃
输出速度 475 tok/s(LLM Stats 实测)
LLM Stats 综合排名 #6 / 300+ 模型(59.0 分)
Artificial Analysis 智能指数 #7 / 147 模型(55 分)

Artificial Analysis 对 Gemini 3.5 Flash 的独立评估 Artificial Analysis 独立评估卡片。Intelligence 55, Speed 284 tok/s, 输入 $1.50, 输出 $9.00。来源:artificialanalysis.ai

给不想看数字的朋友翻译一下:

  • 💰 有多便宜? 你拿一整本《计算机程序设计艺术》(约 100 万 Token)扔给它分析,输入成本是 1.5 美元,大约 10 块钱人民币。一杯奶茶钱。
  • 有多快? 475 个 Token/秒。你眨一下眼睛的时间(约 300 毫秒),它已经吐出 140 个 Token 了。大约半页 A4 纸的文字。
  • 🧠 有多聪明? LLM Stats 排行榜全球第六,综合能力超过了自家上一代旗舰 Gemini 3.1 Pro。相当于"实习生干翻了老员工"。

三、Benchmark:不吹不黑,逐项拆

Google 官方秀的成绩单

基准测试 得分 一句话说明
Terminal-Bench 2.1 76.2% 在真实 Linux 终端里写代码、调 Bug、搞 CI/CD
MCP Atlas 83.6% 多步骤工具调用,Agent 协作能力
CharXiv Reasoning 84.2% 看懂论文里的图表并推理

一个细节:Google 这次刻意没提 MMLU、HumanEval 这些"老基准"。为啥?因为 2026 年了,前沿模型在这些测试上都考到 90 分以上,区分度已经不大了。就像你不会用"能不能打字"来区分两台笔记本电脑。

所以 Google 换了赛道——考的全是"干活能力":你能不能在终端里独立写代码?能不能调用多个外部工具完成复杂任务?能不能看懂一篇 Nature 论文里的数据图?

Terminal-Bench 76.2% 是什么概念?100 个真实开发任务——Git merge 冲突、Python 依赖地狱、Shell 脚本调试——它能独立搞定 76 个。GPT-5.5 的成绩是 78.2%,也就差了两道题。

MCP Atlas 83.6% 更值得关注。MCP(Model Context Protocol)是 Anthropic 在 2025 年提出的 AI 工具调用标准,现在已经是行业事实标准。3.5 Flash 在这个基准上号称超过了 Claude Opus 4.7 和 GPT-5.5。对于想搭 Agent 系统的开发者来说,这可能是最重要的一个数字。


四、第三方数据:排行榜上见真章

自己说自己牛不算数,得看独立评测。

Artificial Analysis:智能指数 55,排名 #7

Artificial Analysis 是目前最受认可的 AI 模型独立评测平台之一。他们的评价:

“Gemini 3.5 Flash is amongst the leading models in intelligence and reasonably priced. It’s also notably fast, however somewhat verbose.”

翻译:聪明、便宜、快——但话多。

“话多"这个评价挺有意思的:3.5 Flash 在评测中产出了 73M token 的输出,而平均水平只有 36M。它的冗长度是同行的两倍。在实际使用中你可能需要在 System Prompt 里多加一句"简洁回答"来驯服它。

维度 数值 排名 一句话
智能指数 55 #7/147 远超平均分 36
速度 284 tok/s #2/147 仅次于极轻量模型
输入价格 $1.50/M #70 比均价便宜一丢丢
输出价格 $9.00/M #79 略贵(均价 $8.00)
话多程度 73M tokens #84 是平均的两倍

LLM Stats:全球第六,这才是真正的炸裂

如果说 Artificial Analysis 的数据让人眼前一亮,那 LLM Stats 的排行榜直接让人坐不住了:

LLM Stats 全球排行榜 LLM Stats 全球 AI 模型排行榜。3.5 Flash 标记 NEW,空降第六。来源:llm-stats.com

# 模型 综合 推理 编程 Agent 速度 价格/M
1 Claude Mythos Preview 70.1 71.2 57.0 48.8
2 GPT-5.5 63.5 62.5 52.1 43.6 187 t/s $7.78
3 GPT-5.2 Pro 61.1 56.7 29.9
4 Claude Opus 4.7 60.6 62.3 50.3 41.5 110 t/s $7.22
5 GPT-5.4 60.3 57.6 43.7 37.2 218 t/s $3.89
6 🔥 Gemini 3.5 Flash 59.0 59.1 46.3 41.2 475 t/s $2.33
7 Kimi K2.6 58.5 59.0 45.3 38.4 186 t/s $1.29
8 Gemini 3.1 Pro 58.0 59.1 43.7 33.6 156 t/s $3.89

盯着这张表看三秒钟,你会发现几个离谱的事情:

第一,速度碾压。 475 tok/s 是什么概念?表里所有模型最快的。GPT-5.5 只有 187,Claude Opus 4.7 只有 110。它一个打两个还有富余。

第二,价格屠夫。 $2.33/M 的综合价格,在前六名里是最便宜的。第二名 GPT-5.5 要 $7.78——3.3 倍的差价。同样的活,你用 GPT-5.5 花 100 块钱,用 3.5 Flash 只要 30。

第三,也是最让人倒吸一口凉气的——它把自己的"爸爸"干趴下了。 Gemini 3.5 Flash(59.0)综合分超过了 Gemini 3.1 Pro(58.0)。一个 Flash 级的"小弟”,在综合能力上反超了上一代旗舰 Pro。 这就像丰田出了一款卡罗拉,结果比去年的皇冠还快。


五、钱的问题:$1.50 到底值多少?

说太多数字容易麻,我们算几个真实场景:

场景 1:让 AI 通读你整个代码库

一个中型项目,50 万行代码:

  • 输入:100 万 Token × $1.50 = $1.50(约 ¥11)
  • 输出(假设 5 万 Token 的分析报告):$0.45(约 ¥3)
  • 总计:不到 15 块钱。 一杯瑞幸的钱。

场景 2:用 Batch API 跑大批量任务

Google 提供了 Batch API,价格直接腰斩:

  • 输入 $0.75/M,输出 $4.50/M
  • 适合夜间挂机批量处理,成本又砍一半

场景 3:上下文缓存——反复读同一份文档

如果你的 Agent 需要反复翻阅同一份合同或代码库:

  • 缓存读取只要 $0.15/M,是正常输入价的 一折
  • 处理一份 100 页的法律合同,第二次以后每次只要几分钱

一句话总结:对于 API 调用者来说,3.5 Flash 把"用得起前沿模型"的门槛又往下踩了一大截。


六、API 开发者须知(快速版)

和现在所有主流模型一样,3.5 Flash 支持原生 Chain-of-Thought 推理,并提供了 thinking_level 参数控制推理深度(MINIMAL / LOW / MEDIUM / HIGH)——这跟 o1 以来的行业标准一致,没什么特别的。

但有两个小细节值得注意:

  1. Thinking Token 计入输出费用且占用 maxOutputTokens 限额。 如果你发现回复被截断了,大概率是思考过程把输出配额吃掉了。解决方案:把 maxOutputTokens 调大。
  2. 多轮对话中有 Thought Signatures 机制。 模型会生成加密的推理状态签名,你需要在后续轮次中回传,否则推理会"断片"。

其他就不展开了,该有的文档 Google 都有:ai.google.dev/docs


七、生态全景:不只是一个模型

3.5 Flash 不是单独放出来的,Google 正在下一盘更大的棋。

它现在在哪里都能用

平台 状态
Gemini App(全平台) ✅ 已设为默认模型
Google 搜索 AI Mode ✅ 已集成
Google AI Studio ✅ 可用(有免费额度)
Gemini API / Vertex AI ✅ 生产可用
GitHub Copilot ✅ Pro/Business/Enterprise
Android Studio

Gemini Spark:AI 不睡觉,你可以

这次 I/O 最科幻的发布不是模型,是 Gemini Spark——一个 24/7 运行的个人 AI Agent。

它跑在 Google Cloud 的专属虚拟机上。你关掉电脑,它还在帮你干活:整理邮件、管日历、做调研报告。更刺激的是,Google 还搞了一个 Agent Payments Protocol (AP2)——你可以给 Agent 设一个消费预算,让它自己去订外卖、买软件许可证。

目前只对 Google AI Ultra 订阅用户开放 Beta。

下个月的大招:Gemini 3.5 Pro

Google 确认 3.5 Pro 正在内测,6 月份放出来。按 Google 的说法,这才是 3.5 世代真正的"旗舰"——如果 Flash 已经能空降排行榜第六,Pro 出来会是什么光景?

留个悬念。


八、灵魂拷问:所以我该换吗?

说了这么多,回到最实际的问题:对于不同角色的人,3.5 Flash 意味着什么?

如果你是开发者 / AI 工程师

值得立刻试。 理由很简单:

  • 100 万 Token 上下文 = 整个代码库一次性塞进去,不用分片
  • 475 tok/s = 你的 Agent 从"想半天再说"变成"脱口而出"
  • MCP Atlas 83.6% = 工具调用开箱即用,目前最强之一
  • $2.33/M 综合价格 = 跑 Agent 流水线不心疼

如果你是普通用户

打开 Gemini App,它已经默认切到 3.5 Flash 了。你能感知到的区别是:回复更快了。写文章、问问题、分析图片,体验会比之前更丝滑。

如果你是"等等党"

3.5 Pro 下个月就来了。但我个人建议不用等——Flash 和 Pro 的定位不同,一个要速度,一个要极限智能。看你的场景。


九、最终判断

先泼一瓢冷水:

  • 排行榜数据主要来自 Google 自报,Terminal-Bench、MCP Atlas 等成绩还没被充分独立验证(毕竟模型刚发布)
  • LMArena 的 Elo 评分还没稳定,早期估算约 1504,但样本量不足,需要 1-2 周才能看到可靠数据
  • 输出偏冗长(冗长度是行业平均的两倍),实际使用中需要适当调教
  • $9.00 的输出价格略高于行业均价($8.00),大量生成场景下成本会累积

但泼完冷水之后,热水还是热的:

Gemini 3.5 Flash 的定位精准得可怕——它不想做最聪明的模型,它要做最能干的模型。 在"智能足够用"的前提下,把速度拉到碾压级,把价格压到地板价。

2026 年的 AI 竞争已经不是"谁更聪明"的问题。当排行榜前十的模型智能差距已经缩小到几个百分点之内,真正的胜负手变成了:谁更快、谁更便宜、谁更好用。

Gemini 3.5 Flash 的答案是:全都要。


数据来源:Google 官方(blog.google, ai.google.dev)、Artificial Analysis(artificialanalysis.ai)、LLM Stats(llm-stats.com)、9to5Google、Mashable、VentureBeat、The New Stack。所有数据截至 2026 年 5 月 19 日。