【AI风向】Google扔出"文本扩散"核弹：DiffusionGemma开源发布，AI推理速度4倍跃升

2026年6月10日，Google DeepMind发布DiffusionGemma——全球首个开源文本扩散大模型。它不再逐字生成，而是一次吐出256个token，推理速度快了4倍，还用Apache 2.0协议彻底开源。

▲ 自回归模型vs扩散生成：DiffusionGemma并行生成256 token，速度达1000+ token/s

事件回顾

6月10日，Google通过官方博客正式发布DiffusionGemma，一个实验性的开源文本扩散模型。

这不是一次普通的模型更新。DiffusionGemma彻底抛弃了所有大语言模型沿用了五年的"自回归"生成方式——那种一个字一个字往外蹦的模式——转而采用"离散扩散"：每次前向传播同时生成256个token，像图像扩散模型生成像素一样生成文字。

这意味着什么？在一张NVIDIA H100上，DiffusionGemma可以跑出每秒1000+个token的速度。在消费级RTX 5090上也能达到700+ token/s。而传统自回归模型在本地单用户场景下，通常只有200-300 token/s。

模型本身基于Gemma 4的26B MoE架构，推理时只激活3.8B参数，量化后仅需18GB显存就能跑——一张RTX 4090级别的消费显卡完全够用。

最关键的：Apache 2.0协议开源。这意味着任何公司、任何个人都可以自由使用、修改、商用，无需授权。

为什么重要

这件事对AI创业者的影响，可以从三个层面理解。

第一，推理成本可能迎来断崖式下降。 同一个GPU，同样的电力消耗，DiffusionGemma能吐出4倍的文字。对于依赖大模型API做产品的创业公司，这意味着服务成本的大幅缩减。如果你本身就自建推理服务，一张卡的吞吐量翻4倍，单位成本直接降到原来的四分之一。

第二，实时AI应用的体验瓶颈被打破。 很多AI产品之所以"感觉慢"，不是因为模型不够聪明，而是因为逐字生成在交互场景下天然有延迟。DiffusionGemma一次吐256个字，配合自适应早停机制（简单任务12-16步就能完成），延迟从秒级降到百毫秒级。这对代码补全、实时翻译、对话式AI等场景是质的变化。

第三，开源协议扫清了商用障碍。 Apache 2.0意味着你可以把DiffusionGemma直接集成到商业产品里，不需要跟Google签任何协议。和Meta的Llama系列一样，这是真正的"给你用"。

值得注意的是，Google也明确说了：DiffusionGemma定位是"本地低并发"，不适合云端高QPS场景。但对于AI创业者来说，大部分产品初期恰恰是本地部署、低并发的状态——所以这个定位对创业公司反而是精准匹配。

▲ DiffusionGemma核心参数一览：26B MoE架构、256K上下文、Apache 2.0开源

技术亮点速览

DiffusionGemma的核心参数一览：

架构：26B MoE（3.8B活跃参数），基于Gemma 4
生成方式：离散扩散，256 token并行生成
速度：H100上1000+ token/s，RTX 5090上700+ token/s
上下文窗口：256K token
多模态：支持文本、图片、视频输入
语言：支持35+种语言
推理模式：可配置思考模式（reasoning mode）
函数调用：原生支持function calling
协议：Apache 2.0
生态：发布当天即支持Transformers、vLLM、MLX、llama.cpp

它的扩散机制还有一个有意思的特性：双向注意力。传统自回归模型只能看"前面说了什么"，因为未来的token还没生成。但DiffusionGemma在256个token的窗口内可以"前后都看"——这对需要前后文一致性的任务（如代码生成、结构化输出）是天然优势。

行动建议

如果你是一个AI创业者，以下是三条可以立刻做的事：

1. 评估你的产品是否适合DiffusionGemma。 如果你的应用场景是本地推理、低并发、对延迟敏感（如IDE插件、桌面AI助手、实时翻译工具），DiffusionGemma值得认真测试。它在Hugging Face上可以直接下载权重。

2. 关注扩散文本生成的技术路线。 这不是Google一家在做的事。DeepMind的Gemini Diffusion研究是DiffusionGemma的底层技术来源，这条路线如果继续演进，未来可能会出现更高效的文本生成范式。保持关注意味着你能在技术拐点到来时提前布局。

3. 重新计算你的推理成本模型。 如果你当前每月在API推理上的支出超过5000元，花半天时间用vLLM部署一个DiffusionGemma做A/B对比测试，可能会发现成本结构有显著优化空间。量化版本18GB显存的门槛，意味着云GPU的成本也非常可控。

需要注意的是，DiffusionGemma目前被标记为"实验性"模型。Google也明确表示，在高质量生产输出方面，传统的自回归Gemma 4仍是首选。但考虑到它的开源协议和生态支持，正式版应该不会太远。

风险提示

DiffusionGemma是实验性模型，不建议直接用于金融、医疗等高风险生产场景。实际推理速度受量化方式、硬件配置、任务复杂度等因素影响，请以实测数据为准。Google可能在未来调整模型许可或推出后续迭代版本，商业使用时请关注官方更新。

#AI创业 #大模型 #开源模型 #Google #推理加速 #一人公司

本文由AI辅助创作，经人工审核编辑发布