AI风向

【AI风向】小米祭出「速度核弹」:1万亿参数模型跑出每秒1000字,AI推理进入「实时时代」

当友商还在卷benchmark分数时,小米MiMo团队联合TileRT用一张标准8-GPU节点把1T参数的MoE模型推到了1000+ tokens/秒——不是用定制芯片,就是用普通GPU。AI推理的速度边界,被重新划定了。

事件回顾

2026年6月8日,小米MiMo团队正式发布MiMo-V2.5-Pro-UltraSpeed——全球首个在1万亿参数级别实现每秒1000+ tokens解码速度的大模型。

这不是PPT发布。API已经同步上线,6月9日起开放申请试用,持续到6月23日。HN上499分、345条评论的热度,说明整个技术社区都被震动了。

UltraSpeed不是一个新模型,而是MiMo-V2.5-Pro的高速推理模式。底层模型使用Mixture-of-Experts(MoE)架构,10230亿总参数,每次推理激活420亿参数。关键是它跑在标准GPU集群上——一个8卡节点就搞定了,不需要Cerebras的晶圆级芯片,也不需要Groq的纯SRAM定制架构。

速度提升来自三项协同技术:FP4量化压缩模型体积、投机解码实现并行预测、TileRT系统层极致调度。结果是:价格是原版的3倍,速度是原版的10倍。折算下来,每百万输出token约2.6美元——在这个速度级别上,性价比堪称恐怖。

为什么这对AI创业者是重大信号

信号一:速度本身开始「质变」为智能

这是最容易被忽略但最重要的点。以前面对难题,你的选择只有一个:等一个答案,祈祷它是对的。现在同样时间内,模型可以并行跑几十条推理路径(Best-of-N或Tree Search),自动在后台验证、纠错——用原始速度"买"来了思考深度。

对AI创业者这意味着什么?你构建的Agent系统不再受限于"单次推理质量",而是可以设计"多次推理+自动择优"的流水线。客户服务Agent可以同时生成三个回复方案,实时比对后选择最优解;代码审查Agent可以并行检查多个维度的潜在bug。

信号二:Coding Agent的生产力天花板被击穿

当前AI编程工具最大的痛点是什么?不是"不够聪明",是"太慢了"。Cursor、Copilot、Claude Code在生成长代码块时,开发者往往要盯着屏幕等上十几秒甚至更久。这种等待会打断心流,让AI从"搭档"退化为"需要你迁就的工具"。

1000 tps是什么概念?人类阅读速度大约是200-300字/分钟,也就是每秒3-5字。1000 tps意味着AI的"输出速度"是人类阅读速度的200倍以上。你还没读完第一行,整个函数已经生成完毕。

这对AI编程工具的启示是巨大的:当推理延迟降到几乎不可感知时,AI Agent才能真正融入开发者的工作流,从"你等我一下"变成"我跟你同步思考"。

信号三:万亿参数模型终于能进实时决策环了

这是最具商业想象力的一点。此前1T参数级别的模型,因为推理太慢,几乎无法进入需要毫秒级响应的场景。现在情况变了:

高频量化交易的信号生成、即时反欺诈拦截、智能竞价系统、实时交互式对话——这些对延迟极其敏感的场景,终于可以用上最强模型的能力了。

小米官方在发布博客里特别提到一个发人深省的应用场景:手术辅助和医学影像分析。"在手术台上,AI每节省一秒完成病灶分析和风险预测,就给外科医生多一个自由度。速度的终极意义不只是提升生产力,而是让技术帮人类活得更好。"

信号四:中国AI团队的「系统-模型协同设计」能力已到世界级

这次突破最值得关注的技术哲学是"模型-系统协同设计"(Model-System Codesign)。不是靠堆更多GPU,不是靠定制芯片,而是从FP4量化、投机解码到TileRT推理引擎的全链路协同优化。

这和DeepSeek的路径高度相似——用工程创新在受限硬件上榨出极致性能。NVIDIA的H800出口管制反而催生了中国AI团队在系统优化层面的超强内功。对AI创业者来说,这意味着未来从中国团队手里获得低成本、高速度的模型推理服务,将越来越成为可行的商业选择。

我们能学到什么

1. 重新定义「用户体验」——速度就是功能

很多AI产品经理把"响应速度"当作性能优化指标,而不是产品功能。UltraSpeed证明:当速度快到某个临界点,它就不再是优化,而是质变。你的产品设计里,有没有把"实时性"当作核心卖点?

2. 投机解码的创业启示

UltraSpeed使用的投机解码技术——用小模型"猜"下一个token,大模型并行验证——这个思路可以迁移到Agent设计里。比如:用便宜的模型做初步筛选和候选生成,用贵的模型做最终决策和验证。多模型分层策略不是成本妥协,是架构智慧。

3. 关注端侧推理的下一个战场

FP4量化让1T模型在标准GPU上跑出1000tps,同样的技术路径也能让更小的模型在手机、笔记本上跑出前所未有的速度。Apple Intelligence + Gemini的端侧推理,结合FP4这样的量化技术,2026年下半年"端侧AI"很可能迎来真正的爆发点。

行动建议

  1. 立即申请UltraSpeed试用:platform.xiaomimimo.com/ultraspeed,6月9日-23日限时窗口。即使不立刻商用,亲身体验1000tps的感觉会改变你对"AI能做什么"的认知。
  2. 重新评估你的Agent架构:如果你的Agent系统响应时间超过3秒,检查瓶颈在哪里。是模型推理慢,还是工具调用链太长?UltraSpeed级别的速度意味着你可以用"多次推理+择优"替代"单次推理+祈祷"。
  3. 关注小米MiMo生态:从V2-Flash(309B参数,15B激活)到V2.5-Pro(1023B参数,42B激活),再到UltraSpeed的高速版本,小米正在构建一个从轻量到旗舰的完整模型矩阵。加上开源策略,这可能成为2026下半年最具性价比的模型供应商。
  4. 把"实时AI"写进你的产品路线图:如果你的竞品还在用3-5秒响应的AI,而你率先接入毫秒级推理,这就是代差优势。不要让"AI太慢"成为用户流失的原因。

AI辅助创作,经人工审核编辑发布

本文由AI辅助创作,经人工审核编辑发布