命题 XVI — 大语言模型

深度拆解 Gemini 3.5 Flash：Google 把旗舰级智能塞进了一道"闪电"

2026·05·19约 3,867 字8 MIN

Google I/O 2026 刚落幕。没有 Ultra，没有万亿参数的军备竞赛——今年的绝对主角，是一个"小"模型：Gemini 3.5 Flash。

它在 LLM Stats 排行榜上直接空降第六，速度是 GPT-5.5 的 2.5 倍，价格却只有它的三分之一。

这是什么概念？相当于一辆思域跑出了保时捷的圈速，还只要思域的油钱。

一、I/O 现场：Google 今年憋了什么大招？

2026 年 5 月 19 日，Sundar Pichai 站在 Shoreline 舞台上，用一句话定义了 Gemini 3.5 系列：

“Frontier intelligence with action.”

翻译成人话就是：不光聪明，还能干活。

Google I/O 2026 Keynote Google DeepMind Gemini 产品页。来源：deepmind.google

这次发布一共三件事：

Gemini 3.5 Flash — 当天即可用，速度怪兽，“Flash 级价格，Pro 级脑子”
Gemini 3.5 Pro — 还在内测，6 月放出，主打极限推理
Gemini Spark — 全新 24/7 AI 管家，能帮你发邮件、做调研，你关了电脑它还在后台干活（是的，你没看错）

今天咱们聚焦那道"闪电"——Gemini 3.5 Flash。

二、先看参数：一张表，看懂 3.5 Flash 的全部底牌

“Talk is cheap, show me the numbers.”

参数	Gemini 3.5 Flash
上下文窗口	1,000,000 Tokens（一百万。不是 128K，不是 200K，是一百万。）
输入价格	$1.50 / 百万 Token
输出价格	$9.00 / 百万 Token（含思考 Token）
缓存价格	读写 $0.15/M（正常价的一折）
输入模态	文本、图片、视频、音频、PDF 全都吃
输出速度	475 tok/s（LLM Stats 实测）
LLM Stats 综合排名	#6 / 300+ 模型（59.0 分）
Artificial Analysis 智能指数	#7 / 147 模型（55 分）

Artificial Analysis 对 Gemini 3.5 Flash 的独立评估 Artificial Analysis 独立评估卡片。Intelligence 55, Speed 284 tok/s, 输入 $1.50, 输出 $9.00。来源：artificialanalysis.ai

给不想看数字的朋友翻译一下：

💰 有多便宜？ 你拿一整本《计算机程序设计艺术》（约 100 万 Token）扔给它分析，输入成本是 1.5 美元，大约 10 块钱人民币。一杯奶茶钱。
⚡ 有多快？ 475 个 Token/秒。你眨一下眼睛的时间（约 300 毫秒），它已经吐出 140 个 Token 了。大约半页 A4 纸的文字。
🧠 有多聪明？ LLM Stats 排行榜全球第六，综合能力超过了自家上一代旗舰 Gemini 3.1 Pro。相当于"实习生干翻了老员工"。

三、Benchmark：不吹不黑，逐项拆

Google 官方秀的成绩单

基准测试	得分	一句话说明
Terminal-Bench 2.1	76.2%	在真实 Linux 终端里写代码、调 Bug、搞 CI/CD
MCP Atlas	83.6%	多步骤工具调用，Agent 协作能力
CharXiv Reasoning	84.2%	看懂论文里的图表并推理

一个细节：Google 这次刻意没提 MMLU、HumanEval 这些"老基准"。为啥？因为 2026 年了，前沿模型在这些测试上都考到 90 分以上，区分度已经不大了。就像你不会用"能不能打字"来区分两台笔记本电脑。

所以 Google 换了赛道——考的全是"干活能力"：你能不能在终端里独立写代码？能不能调用多个外部工具完成复杂任务？能不能看懂一篇 Nature 论文里的数据图？

Terminal-Bench 76.2% 是什么概念？100 个真实开发任务——Git merge 冲突、Python 依赖地狱、Shell 脚本调试——它能独立搞定 76 个。GPT-5.5 的成绩是 78.2%，也就差了两道题。

MCP Atlas 83.6% 更值得关注。MCP（Model Context Protocol）是 Anthropic 在 2025 年提出的 AI 工具调用标准，现在已经是行业事实标准。3.5 Flash 在这个基准上号称超过了 Claude Opus 4.7 和 GPT-5.5。对于想搭 Agent 系统的开发者来说，这可能是最重要的一个数字。

四、第三方数据：排行榜上见真章

自己说自己牛不算数，得看独立评测。

Artificial Analysis：智能指数 55，排名 #7

Artificial Analysis 是目前最受认可的 AI 模型独立评测平台之一。他们的评价：

“Gemini 3.5 Flash is amongst the leading models in intelligence and reasonably priced. It’s also notably fast, however somewhat verbose.”

翻译：聪明、便宜、快——但话多。

“话多"这个评价挺有意思的：3.5 Flash 在评测中产出了 73M token 的输出，而平均水平只有 36M。它的冗长度是同行的两倍。在实际使用中你可能需要在 System Prompt 里多加一句"简洁回答"来驯服它。

维度	数值	排名	一句话
智能指数	55	#7/147	远超平均分 36
速度	284 tok/s	#2/147	仅次于极轻量模型
输入价格	$1.50/M	#70	比均价便宜一丢丢
输出价格	$9.00/M	#79	略贵（均价 $8.00）
话多程度	73M tokens	#84	是平均的两倍

LLM Stats：全球第六，这才是真正的炸裂

如果说 Artificial Analysis 的数据让人眼前一亮，那 LLM Stats 的排行榜直接让人坐不住了：

LLM Stats 全球排行榜 LLM Stats 全球 AI 模型排行榜。3.5 Flash 标记 NEW，空降第六。来源：llm-stats.com

#	模型	综合	推理	编程	Agent	速度	价格/M
1	Claude Mythos Preview	70.1	71.2	57.0	48.8	—	—
2	GPT-5.5	63.5	62.5	52.1	43.6	187 t/s	$7.78
3	GPT-5.2 Pro	61.1	56.7	—	29.9	—	—
4	Claude Opus 4.7	60.6	62.3	50.3	41.5	110 t/s	$7.22
5	GPT-5.4	60.3	57.6	43.7	37.2	218 t/s	$3.89
6	🔥 Gemini 3.5 Flash	59.0	59.1	46.3	41.2	475 t/s	$2.33
7	Kimi K2.6	58.5	59.0	45.3	38.4	186 t/s	$1.29
8	Gemini 3.1 Pro	58.0	59.1	43.7	33.6	156 t/s	$3.89

盯着这张表看三秒钟，你会发现几个离谱的事情：

第一，速度碾压。 475 tok/s 是什么概念？表里所有模型最快的。GPT-5.5 只有 187，Claude Opus 4.7 只有 110。它一个打两个还有富余。

第二，价格屠夫。 $2.33/M 的综合价格，在前六名里是最便宜的。第二名 GPT-5.5 要 $7.78——3.3 倍的差价。同样的活，你用 GPT-5.5 花 100 块钱，用 3.5 Flash 只要 30。

第三，也是最让人倒吸一口凉气的——它把自己的"爸爸"干趴下了。 Gemini 3.5 Flash（59.0）综合分超过了 Gemini 3.1 Pro（58.0）。一个 Flash 级的"小弟”，在综合能力上反超了上一代旗舰 Pro。 这就像丰田出了一款卡罗拉，结果比去年的皇冠还快。

五、钱的问题：$1.50 到底值多少？

说太多数字容易麻，我们算几个真实场景：

场景 1：让 AI 通读你整个代码库

一个中型项目，50 万行代码：

输入：100 万 Token × $1.50 = $1.50（约 ¥11）
输出（假设 5 万 Token 的分析报告）：$0.45（约 ¥3）
总计：不到 15 块钱。 一杯瑞幸的钱。

场景 2：用 Batch API 跑大批量任务

Google 提供了 Batch API，价格直接腰斩：

输入 $0.75/M，输出 $4.50/M
适合夜间挂机批量处理，成本又砍一半

场景 3：上下文缓存——反复读同一份文档

如果你的 Agent 需要反复翻阅同一份合同或代码库：

缓存读取只要 $0.15/M，是正常输入价的一折
处理一份 100 页的法律合同，第二次以后每次只要几分钱

一句话总结：对于 API 调用者来说，3.5 Flash 把"用得起前沿模型"的门槛又往下踩了一大截。

六、API 开发者须知（快速版）

和现在所有主流模型一样，3.5 Flash 支持原生 Chain-of-Thought 推理，并提供了 thinking_level 参数控制推理深度（MINIMAL / LOW / MEDIUM / HIGH）——这跟 o1 以来的行业标准一致，没什么特别的。

但有两个小细节值得注意：

Thinking Token 计入输出费用且占用 maxOutputTokens 限额。 如果你发现回复被截断了，大概率是思考过程把输出配额吃掉了。解决方案：把 maxOutputTokens 调大。
多轮对话中有 Thought Signatures 机制。 模型会生成加密的推理状态签名，你需要在后续轮次中回传，否则推理会"断片"。

其他就不展开了，该有的文档 Google 都有：ai.google.dev/docs。

七、生态全景：不只是一个模型

3.5 Flash 不是单独放出来的，Google 正在下一盘更大的棋。

它现在在哪里都能用

平台	状态
Gemini App（全平台）	✅ 已设为默认模型
Google 搜索 AI Mode	✅ 已集成
Google AI Studio	✅ 可用（有免费额度）
Gemini API / Vertex AI	✅ 生产可用
GitHub Copilot	✅ Pro/Business/Enterprise
Android Studio	✅

Gemini Spark：AI 不睡觉，你可以

这次 I/O 最科幻的发布不是模型，是 Gemini Spark——一个 24/7 运行的个人 AI Agent。

它跑在 Google Cloud 的专属虚拟机上。你关掉电脑，它还在帮你干活：整理邮件、管日历、做调研报告。更刺激的是，Google 还搞了一个 Agent Payments Protocol (AP2)——你可以给 Agent 设一个消费预算，让它自己去订外卖、买软件许可证。

目前只对 Google AI Ultra 订阅用户开放 Beta。

下个月的大招：Gemini 3.5 Pro

Google 确认 3.5 Pro 正在内测，6 月份放出来。按 Google 的说法，这才是 3.5 世代真正的"旗舰"——如果 Flash 已经能空降排行榜第六，Pro 出来会是什么光景？

留个悬念。

八、灵魂拷问：所以我该换吗？

说了这么多，回到最实际的问题：对于不同角色的人，3.5 Flash 意味着什么？

如果你是开发者 / AI 工程师

值得立刻试。 理由很简单：

100 万 Token 上下文 = 整个代码库一次性塞进去，不用分片
475 tok/s = 你的 Agent 从"想半天再说"变成"脱口而出"
MCP Atlas 83.6% = 工具调用开箱即用，目前最强之一
$2.33/M 综合价格 = 跑 Agent 流水线不心疼

如果你是普通用户

打开 Gemini App，它已经默认切到 3.5 Flash 了。你能感知到的区别是：回复更快了。写文章、问问题、分析图片，体验会比之前更丝滑。

如果你是"等等党"

3.5 Pro 下个月就来了。但我个人建议不用等——Flash 和 Pro 的定位不同，一个要速度，一个要极限智能。看你的场景。

九、最终判断

先泼一瓢冷水：

排行榜数据主要来自 Google 自报，Terminal-Bench、MCP Atlas 等成绩还没被充分独立验证（毕竟模型刚发布）
LMArena 的 Elo 评分还没稳定，早期估算约 1504，但样本量不足，需要 1-2 周才能看到可靠数据
输出偏冗长（冗长度是行业平均的两倍），实际使用中需要适当调教
$9.00 的输出价格略高于行业均价（$8.00），大量生成场景下成本会累积

但泼完冷水之后，热水还是热的：

Gemini 3.5 Flash 的定位精准得可怕——它不想做最聪明的模型，它要做最能干的模型。 在"智能足够用"的前提下，把速度拉到碾压级，把价格压到地板价。

2026 年的 AI 竞争已经不是"谁更聪明"的问题。当排行榜前十的模型智能差距已经缩小到几个百分点之内，真正的胜负手变成了：谁更快、谁更便宜、谁更好用。

Gemini 3.5 Flash 的答案是：全都要。

数据来源：Google 官方（blog.google, ai.google.dev）、Artificial Analysis（artificialanalysis.ai）、LLM Stats（llm-stats.com）、9to5Google、Mashable、VentureBeat、The New Stack。所有数据截至 2026 年 5 月 19 日。

∎