AI风向

【AI风向】Google扔出"文本扩散"核弹:DiffusionGemma开源发布,AI推理速度4倍跃升

2026年6月10日,Google DeepMind发布DiffusionGemma——全球首个开源文本扩散大模型。它不再逐字生成,而是一次吐出256个token,推理速度快了4倍,还用Apache 2.0协议彻底开源。

自回归模型vs扩散生成:DiffusionGemma并行生成256 token,速度达1000+ t▲ 自回归模型vs扩散生成:DiffusionGemma并行生成256 token,速度达1000+ token/s

事件回顾

6月10日,Google通过官方博客正式发布DiffusionGemma,一个实验性的开源文本扩散模型。

这不是一次普通的模型更新。DiffusionGemma彻底抛弃了所有大语言模型沿用了五年的"自回归"生成方式——那种一个字一个字往外蹦的模式——转而采用"离散扩散":每次前向传播同时生成256个token,像图像扩散模型生成像素一样生成文字。

这意味着什么?在一张NVIDIA H100上,DiffusionGemma可以跑出每秒1000+个token的速度。在消费级RTX 5090上也能达到700+ token/s。而传统自回归模型在本地单用户场景下,通常只有200-300 token/s。

模型本身基于Gemma 4的26B MoE架构,推理时只激活3.8B参数,量化后仅需18GB显存就能跑——一张RTX 4090级别的消费显卡完全够用。

最关键的:Apache 2.0协议开源。这意味着任何公司、任何个人都可以自由使用、修改、商用,无需授权。

为什么重要

这件事对AI创业者的影响,可以从三个层面理解。

第一,推理成本可能迎来断崖式下降。 同一个GPU,同样的电力消耗,DiffusionGemma能吐出4倍的文字。对于依赖大模型API做产品的创业公司,这意味着服务成本的大幅缩减。如果你本身就自建推理服务,一张卡的吞吐量翻4倍,单位成本直接降到原来的四分之一。

第二,实时AI应用的体验瓶颈被打破。 很多AI产品之所以"感觉慢",不是因为模型不够聪明,而是因为逐字生成在交互场景下天然有延迟。DiffusionGemma一次吐256个字,配合自适应早停机制(简单任务12-16步就能完成),延迟从秒级降到百毫秒级。这对代码补全、实时翻译、对话式AI等场景是质的变化。

第三,开源协议扫清了商用障碍。 Apache 2.0意味着你可以把DiffusionGemma直接集成到商业产品里,不需要跟Google签任何协议。和Meta的Llama系列一样,这是真正的"给你用"。

值得注意的是,Google也明确说了:DiffusionGemma定位是"本地低并发",不适合云端高QPS场景。但对于AI创业者来说,大部分产品初期恰恰是本地部署、低并发的状态——所以这个定位对创业公司反而是精准匹配。

DiffusionGemma核心参数一览:26B MoE架构、256K上下文、Apache 2.0开▲ DiffusionGemma核心参数一览:26B MoE架构、256K上下文、Apache 2.0开源

技术亮点速览

DiffusionGemma的核心参数一览:

  • 架构:26B MoE(3.8B活跃参数),基于Gemma 4
  • 生成方式:离散扩散,256 token并行生成
  • 速度:H100上1000+ token/s,RTX 5090上700+ token/s
  • 上下文窗口:256K token
  • 多模态:支持文本、图片、视频输入
  • 语言:支持35+种语言
  • 推理模式:可配置思考模式(reasoning mode)
  • 函数调用:原生支持function calling
  • 协议:Apache 2.0
  • 生态:发布当天即支持Transformers、vLLM、MLX、llama.cpp

它的扩散机制还有一个有意思的特性:双向注意力。传统自回归模型只能看"前面说了什么",因为未来的token还没生成。但DiffusionGemma在256个token的窗口内可以"前后都看"——这对需要前后文一致性的任务(如代码生成、结构化输出)是天然优势。

行动建议

如果你是一个AI创业者,以下是三条可以立刻做的事:

1. 评估你的产品是否适合DiffusionGemma。 如果你的应用场景是本地推理、低并发、对延迟敏感(如IDE插件、桌面AI助手、实时翻译工具),DiffusionGemma值得认真测试。它在Hugging Face上可以直接下载权重。

2. 关注扩散文本生成的技术路线。 这不是Google一家在做的事。DeepMind的Gemini Diffusion研究是DiffusionGemma的底层技术来源,这条路线如果继续演进,未来可能会出现更高效的文本生成范式。保持关注意味着你能在技术拐点到来时提前布局。

3. 重新计算你的推理成本模型。 如果你当前每月在API推理上的支出超过5000元,花半天时间用vLLM部署一个DiffusionGemma做A/B对比测试,可能会发现成本结构有显著优化空间。量化版本18GB显存的门槛,意味着云GPU的成本也非常可控。

需要注意的是,DiffusionGemma目前被标记为"实验性"模型。Google也明确表示,在高质量生产输出方面,传统的自回归Gemma 4仍是首选。但考虑到它的开源协议和生态支持,正式版应该不会太远。

风险提示

DiffusionGemma是实验性模型,不建议直接用于金融、医疗等高风险生产场景。实际推理速度受量化方式、硬件配置、任务复杂度等因素影响,请以实测数据为准。Google可能在未来调整模型许可或推出后续迭代版本,商业使用时请关注官方更新。


#AI创业 #大模型 #开源模型 #Google #推理加速 #一人公司

本文由AI辅助创作,经人工审核编辑发布