【AI风向】小米祭出「速度核弹」：1万亿参数模型跑出每秒1000字，AI推理进入「实时时代」

当友商还在卷benchmark分数时，小米MiMo团队联合TileRT用一张标准8-GPU节点把1T参数的MoE模型推到了1000+ tokens/秒——不是用定制芯片，就是用普通GPU。AI推理的速度边界，被重新划定了。

事件回顾

2026年6月8日，小米MiMo团队正式发布MiMo-V2.5-Pro-UltraSpeed——全球首个在1万亿参数级别实现每秒1000+ tokens解码速度的大模型。

这不是PPT发布。API已经同步上线，6月9日起开放申请试用，持续到6月23日。HN上499分、345条评论的热度，说明整个技术社区都被震动了。

UltraSpeed不是一个新模型，而是MiMo-V2.5-Pro的高速推理模式。底层模型使用Mixture-of-Experts（MoE）架构，10230亿总参数，每次推理激活420亿参数。关键是它跑在标准GPU集群上——一个8卡节点就搞定了，不需要Cerebras的晶圆级芯片，也不需要Groq的纯SRAM定制架构。

速度提升来自三项协同技术：FP4量化压缩模型体积、投机解码实现并行预测、TileRT系统层极致调度。结果是：价格是原版的3倍，速度是原版的10倍。折算下来，每百万输出token约2.6美元——在这个速度级别上，性价比堪称恐怖。

为什么这对AI创业者是重大信号

信号一：速度本身开始「质变」为智能

这是最容易被忽略但最重要的点。以前面对难题，你的选择只有一个：等一个答案，祈祷它是对的。现在同样时间内，模型可以并行跑几十条推理路径（Best-of-N或Tree Search），自动在后台验证、纠错——用原始速度"买"来了思考深度。

对AI创业者这意味着什么？你构建的Agent系统不再受限于"单次推理质量"，而是可以设计"多次推理+自动择优"的流水线。客户服务Agent可以同时生成三个回复方案，实时比对后选择最优解；代码审查Agent可以并行检查多个维度的潜在bug。

信号二：Coding Agent的生产力天花板被击穿

当前AI编程工具最大的痛点是什么？不是"不够聪明"，是"太慢了"。Cursor、Copilot、Claude Code在生成长代码块时，开发者往往要盯着屏幕等上十几秒甚至更久。这种等待会打断心流，让AI从"搭档"退化为"需要你迁就的工具"。

1000 tps是什么概念？人类阅读速度大约是200-300字/分钟，也就是每秒3-5字。1000 tps意味着AI的"输出速度"是人类阅读速度的200倍以上。你还没读完第一行，整个函数已经生成完毕。

这对AI编程工具的启示是巨大的：当推理延迟降到几乎不可感知时，AI Agent才能真正融入开发者的工作流，从"你等我一下"变成"我跟你同步思考"。

信号三：万亿参数模型终于能进实时决策环了

这是最具商业想象力的一点。此前1T参数级别的模型，因为推理太慢，几乎无法进入需要毫秒级响应的场景。现在情况变了：

高频量化交易的信号生成、即时反欺诈拦截、智能竞价系统、实时交互式对话——这些对延迟极其敏感的场景，终于可以用上最强模型的能力了。

小米官方在发布博客里特别提到一个发人深省的应用场景：手术辅助和医学影像分析。"在手术台上，AI每节省一秒完成病灶分析和风险预测，就给外科医生多一个自由度。速度的终极意义不只是提升生产力，而是让技术帮人类活得更好。"

信号四：中国AI团队的「系统-模型协同设计」能力已到世界级

这次突破最值得关注的技术哲学是"模型-系统协同设计"（Model-System Codesign）。不是靠堆更多GPU，不是靠定制芯片，而是从FP4量化、投机解码到TileRT推理引擎的全链路协同优化。

这和DeepSeek的路径高度相似——用工程创新在受限硬件上榨出极致性能。NVIDIA的H800出口管制反而催生了中国AI团队在系统优化层面的超强内功。对AI创业者来说，这意味着未来从中国团队手里获得低成本、高速度的模型推理服务，将越来越成为可行的商业选择。

我们能学到什么

1. 重新定义「用户体验」——速度就是功能

很多AI产品经理把"响应速度"当作性能优化指标，而不是产品功能。UltraSpeed证明：当速度快到某个临界点，它就不再是优化，而是质变。你的产品设计里，有没有把"实时性"当作核心卖点？

2. 投机解码的创业启示

UltraSpeed使用的投机解码技术——用小模型"猜"下一个token，大模型并行验证——这个思路可以迁移到Agent设计里。比如：用便宜的模型做初步筛选和候选生成，用贵的模型做最终决策和验证。多模型分层策略不是成本妥协，是架构智慧。

3. 关注端侧推理的下一个战场

FP4量化让1T模型在标准GPU上跑出1000tps，同样的技术路径也能让更小的模型在手机、笔记本上跑出前所未有的速度。Apple Intelligence + Gemini的端侧推理，结合FP4这样的量化技术，2026年下半年"端侧AI"很可能迎来真正的爆发点。

行动建议

立即申请UltraSpeed试用：platform.xiaomimimo.com/ultraspeed，6月9日-23日限时窗口。即使不立刻商用，亲身体验1000tps的感觉会改变你对"AI能做什么"的认知。
重新评估你的Agent架构：如果你的Agent系统响应时间超过3秒，检查瓶颈在哪里。是模型推理慢，还是工具调用链太长？UltraSpeed级别的速度意味着你可以用"多次推理+择优"替代"单次推理+祈祷"。
关注小米MiMo生态：从V2-Flash（309B参数，15B激活）到V2.5-Pro（1023B参数，42B激活），再到UltraSpeed的高速版本，小米正在构建一个从轻量到旗舰的完整模型矩阵。加上开源策略，这可能成为2026下半年最具性价比的模型供应商。
把"实时AI"写进你的产品路线图：如果你的竞品还在用3-5秒响应的AI，而你率先接入毫秒级推理，这就是代差优势。不要让"AI太慢"成为用户流失的原因。

AI辅助创作，经人工审核编辑发布

本文由AI辅助创作，经人工审核编辑发布