【AI风向】JetBrains开源Mellum2：12B MoE模型专为AI Agent工作流而生，推理速度快一倍

当所有人都在卷更大的模型时，JetBrains反其道而行——开源了一个12B参数但每次推理只激活2.5B的MoE模型，专为路由、RAG、子Agent等高频场景优化。Apache 2.0协议，推理速度比同尺寸模型快一倍以上。

事件回顾

2026年6月2日，JetBrains官方AI博客宣布：Mellum2正式开源。

这不是JetBrains第一次做AI模型。Mellum系列最早用于代码补全，但这次的Mellum2是一个完全不同的物种——从零开始训练，MoE（Mixture-of-Experts，混合专家）架构，12B总参数但每次推理只激活2.5B，专为自然语言+代码场景设计，Apache 2.0许可证。

JetBrains在博文中给出了清晰的定位：Mellum2不是要和GPT-5、Claude Opus这些前沿模型竞争，而是作为"focal model（聚焦模型）"——在高频、重复、延迟敏感的AI工作流环节中替代大模型，降低成本和延迟。

关键技术参数

Mellum2的核心架构特点：

维度	参数
总参数量	12B
每token激活参数	2.5B（MoE设计）
训练数据	自然语言 + 代码（非多模态）
许可证	Apache 2.0
适用场景	路由、RAG、子Agent、私有部署
推理速度	比同尺寸模型快一倍以上

JetBrains在技术报告中展示了Mellum2在代码生成、科学推理、数学和通用推理等基准上的表现——与同类尺寸模型竞争的同时，推理时间缩短到一半以下。

为什么这件事重要

1. "Focal Model"概念的正式登场

JetBrains提出了一个值得关注的概念：focal model（聚焦模型）。

他们的核心论点很简单：现代AI系统越来越复杂，很多环节并不需要最强大的模型。比如：

路由决策：判断用户意图，分发给合适的模型——这不需要175B参数
RAG摘要：把检索到的文档浓缩成几百字——大模型做这事浪费算力
子Agent执行：在Agent流水线中做上下文收集、规划、验证等步骤——重复性高、频率高、延迟敏感

这些场景的共同特征是：对延迟和成本极度敏感，对"最聪明"没那么敏感。

Mellum2就是为这些场景而生的。12B参数但只激活2.5B的设计，使得单次推理成本大幅下降，而延迟可以做到大模型的几分之一。

2. 开源 + Apache 2.0 = 商业友好

Apache 2.0许可证意味着你可以：

商用部署，不需要付费
修改和二次开发
私有化部署，数据不出自己的服务器

对于AI创业者来说，这意味着可以用Mellum2搭建成本可控的AI Agent基础设施，而不必被每token按用量付费的SaaS模型困住。

3. 从"代码补全"到"AI工作流引擎"

Mellum一代只做代码补全。但Mellum2的定位完全不同——它是AI工作流的基础设施组件。

JetBrains列出的四大使用场景：

① 路由与编排：分析用户prompt，智能选择用哪个模型处理。比如简单问答走Mellum2，复杂推理走Claude Opus。

② 低延迟RAG流水线：检索→摘要→生成，Mellum2负责中间的"摘要"环节，速度快成本低。

③ Agent流水线中的快速子Agent：把Agent拆成"收集上下文→规划→验证→执行"等步骤，Mellum2处理前三步，大模型只负责最后一步。

④ 私有化本地部署：数据完全不出服务器，适合企业合规场景。

趋势解读：AI Agent基础设施正在分层

Mellum2的发布不是孤立事件。它代表了2026年AI Agent赛道的一个明确趋势：模型层正在分层。

从当前的市场格局来看：

层级	代表	特征
前沿模型	GPT-5、Claude Opus 4、Gemini	最强能力，最贵，最慢
聚焦模型	Mellum2、Llama-4、Qwen	专精场景，成本低，速度快
端侧模型	Apple Intelligence、Bonsai	本地运行，零延迟，隐私优先

这有点像软件架构里的"微服务"思想——不是用一个巨型单体搞定一切，而是用不同特性的组件各司其职。

对AI创业者来说，这意味着：

不再需要把所有请求都发给最贵的模型
可以用Mellum2这样的聚焦模型处理80%的流量，前沿模型只处理那20%真正需要深度推理的请求
推理成本可以降低一个数量级

与Hermes/OpenClaw等Agent框架的关系

如果你在用Hermes Agent或OpenClaw搭建自己的AI自动化系统，Mellum2的价值在于：

作为skill路由决策模型：在Hermes的skill体系中，需要判断用户意图并分发给正确的skill。Mellum2可以完美承担这个"路由层"角色，速度快响应灵敏。
低成本批量任务：OpenClaw的批量内容生成、数据清洗等高频任务，用Mellum2跑比用GPT-5便宜得多。
本地部署Agent大脑：Mellum2的12B规模意味着消费级GPU（如RTX 4090 24GB）就能跑起来，真正的"一人公司可负担"。

竞品对比

当前市场上类似的"聚焦模型"还包括：

Meta Llama-4：参数更大（70B+），通用性更强，但推理成本更高
Qwen系列：阿里开源，中文能力强，但在代码+NL混合场景不如Mellum2专注
DeepSeek系列：MoE架构的先驱，但API成本仍在上升

Mellum2的差异化在于：从零开始为软件工程工作流训练，不是通用模型裁剪。这种"领域专精"带来的效率提升是通用模型微调难以达到的。

行动建议

如果你是AI创业者或独立开发者，以下是Mellum2可以立即用起来的三个场景：

替换Agent流水线中的高频调用：如果你现在的Agent系统中大量调用GPT-5做简单任务（意图识别、文本分类、摘要），换成Mellum2可以立竿见影降低60-80%的推理成本。
搭建私有RAG系统：Mellum2 + 向量数据库 = 低成本、完全私有的知识库问答系统。数据不出服务器，适合处理敏感客户信息。
作为Agent框架的默认"大脑"：对于Hermes Agent、OpenClaw等开源框架的用户，Mellum2是一个优秀的默认模型选择——Apache 2.0、可控、可私有化。

风险与注意事项

Mellum2不是多模态模型，不支持图像理解和生成
作为一个12B（2.5B激活）模型，其深度推理能力无法与前沿大模型相比——不应该用来做复杂数学证明或长篇代码架构设计
目前刚刚开源，社区生态（GGUF量化、Ollama支持、vLLM适配等）还在建设中
JetBrains的AI策略仍在快速演变中，关注后续版本更新

总结

JetBrains开源Mellum2是一次精准的"反向操作"。当所有人都在卷更大的模型时，他们选择把资源投入到AI Agent基础设施层——那个高频、高量、需要低成本的"中间地带"。

对于AI创业者来说，这是一个信号：不要把所有预算都烧在前沿模型上。聪明的AI产品架构，应该像微服务一样分层——用聚焦模型处理80%的流量，用前沿模型处理那20%的真正难题。

Mellum2的出现，让这种分层架构的成本门槛又降了一大截。

#AI创业 #JetBrains #开源模型 #AIAgent #Mellum2 #一人公司

本文由AI辅助创作，经人工审核编辑发布