当所有人都在卷更大的模型时,JetBrains反其道而行——开源了一个12B参数但每次推理只激活2.5B的MoE模型,专为路由、RAG、子Agent等高频场景优化。Apache 2.0协议,推理速度比同尺寸模型快一倍以上。
事件回顾
2026年6月2日,JetBrains官方AI博客宣布:Mellum2正式开源。
这不是JetBrains第一次做AI模型。Mellum系列最早用于代码补全,但这次的Mellum2是一个完全不同的物种——从零开始训练,MoE(Mixture-of-Experts,混合专家)架构,12B总参数但每次推理只激活2.5B,专为自然语言+代码场景设计,Apache 2.0许可证。
JetBrains在博文中给出了清晰的定位:Mellum2不是要和GPT-5、Claude Opus这些前沿模型竞争,而是作为"focal model(聚焦模型)"——在高频、重复、延迟敏感的AI工作流环节中替代大模型,降低成本和延迟。
关键技术参数
Mellum2的核心架构特点:
| 维度 | 参数 |
|---|---|
| 总参数量 | 12B |
| 每token激活参数 | 2.5B(MoE设计) |
| 训练数据 | 自然语言 + 代码(非多模态) |
| 许可证 | Apache 2.0 |
| 适用场景 | 路由、RAG、子Agent、私有部署 |
| 推理速度 | 比同尺寸模型快一倍以上 |
JetBrains在技术报告中展示了Mellum2在代码生成、科学推理、数学和通用推理等基准上的表现——与同类尺寸模型竞争的同时,推理时间缩短到一半以下。
为什么这件事重要
1. "Focal Model"概念的正式登场
JetBrains提出了一个值得关注的概念:focal model(聚焦模型)。
他们的核心论点很简单:现代AI系统越来越复杂,很多环节并不需要最强大的模型。比如:
- 路由决策:判断用户意图,分发给合适的模型——这不需要175B参数
- RAG摘要:把检索到的文档浓缩成几百字——大模型做这事浪费算力
- 子Agent执行:在Agent流水线中做上下文收集、规划、验证等步骤——重复性高、频率高、延迟敏感
这些场景的共同特征是:对延迟和成本极度敏感,对"最聪明"没那么敏感。
Mellum2就是为这些场景而生的。12B参数但只激活2.5B的设计,使得单次推理成本大幅下降,而延迟可以做到大模型的几分之一。
2. 开源 + Apache 2.0 = 商业友好
Apache 2.0许可证意味着你可以:
- 商用部署,不需要付费
- 修改和二次开发
- 私有化部署,数据不出自己的服务器
对于AI创业者来说,这意味着可以用Mellum2搭建成本可控的AI Agent基础设施,而不必被每token按用量付费的SaaS模型困住。
3. 从"代码补全"到"AI工作流引擎"
Mellum一代只做代码补全。但Mellum2的定位完全不同——它是AI工作流的基础设施组件。
JetBrains列出的四大使用场景:
① 路由与编排:分析用户prompt,智能选择用哪个模型处理。比如简单问答走Mellum2,复杂推理走Claude Opus。
② 低延迟RAG流水线:检索→摘要→生成,Mellum2负责中间的"摘要"环节,速度快成本低。
③ Agent流水线中的快速子Agent:把Agent拆成"收集上下文→规划→验证→执行"等步骤,Mellum2处理前三步,大模型只负责最后一步。
④ 私有化本地部署:数据完全不出服务器,适合企业合规场景。
趋势解读:AI Agent基础设施正在分层
Mellum2的发布不是孤立事件。它代表了2026年AI Agent赛道的一个明确趋势:模型层正在分层。
从当前的市场格局来看:
| 层级 | 代表 | 特征 |
|---|---|---|
| 前沿模型 | GPT-5、Claude Opus 4、Gemini | 最强能力,最贵,最慢 |
| 聚焦模型 | Mellum2、Llama-4、Qwen | 专精场景,成本低,速度快 |
| 端侧模型 | Apple Intelligence、Bonsai | 本地运行,零延迟,隐私优先 |
这有点像软件架构里的"微服务"思想——不是用一个巨型单体搞定一切,而是用不同特性的组件各司其职。
对AI创业者来说,这意味着:
- 不再需要把所有请求都发给最贵的模型
- 可以用Mellum2这样的聚焦模型处理80%的流量,前沿模型只处理那20%真正需要深度推理的请求
- 推理成本可以降低一个数量级
与Hermes/OpenClaw等Agent框架的关系
如果你在用Hermes Agent或OpenClaw搭建自己的AI自动化系统,Mellum2的价值在于:
- 作为skill路由决策模型:在Hermes的skill体系中,需要判断用户意图并分发给正确的skill。Mellum2可以完美承担这个"路由层"角色,速度快响应灵敏。
- 低成本批量任务:OpenClaw的批量内容生成、数据清洗等高频任务,用Mellum2跑比用GPT-5便宜得多。
- 本地部署Agent大脑:Mellum2的12B规模意味着消费级GPU(如RTX 4090 24GB)就能跑起来,真正的"一人公司可负担"。
竞品对比
当前市场上类似的"聚焦模型"还包括:
- Meta Llama-4:参数更大(70B+),通用性更强,但推理成本更高
- Qwen系列:阿里开源,中文能力强,但在代码+NL混合场景不如Mellum2专注
- DeepSeek系列:MoE架构的先驱,但API成本仍在上升
Mellum2的差异化在于:从零开始为软件工程工作流训练,不是通用模型裁剪。这种"领域专精"带来的效率提升是通用模型微调难以达到的。
行动建议
如果你是AI创业者或独立开发者,以下是Mellum2可以立即用起来的三个场景:
- 替换Agent流水线中的高频调用:如果你现在的Agent系统中大量调用GPT-5做简单任务(意图识别、文本分类、摘要),换成Mellum2可以立竿见影降低60-80%的推理成本。
- 搭建私有RAG系统:Mellum2 + 向量数据库 = 低成本、完全私有的知识库问答系统。数据不出服务器,适合处理敏感客户信息。
- 作为Agent框架的默认"大脑":对于Hermes Agent、OpenClaw等开源框架的用户,Mellum2是一个优秀的默认模型选择——Apache 2.0、可控、可私有化。
风险与注意事项
- Mellum2不是多模态模型,不支持图像理解和生成
- 作为一个12B(2.5B激活)模型,其深度推理能力无法与前沿大模型相比——不应该用来做复杂数学证明或长篇代码架构设计
- 目前刚刚开源,社区生态(GGUF量化、Ollama支持、vLLM适配等)还在建设中
- JetBrains的AI策略仍在快速演变中,关注后续版本更新
总结
JetBrains开源Mellum2是一次精准的"反向操作"。当所有人都在卷更大的模型时,他们选择把资源投入到AI Agent基础设施层——那个高频、高量、需要低成本的"中间地带"。
对于AI创业者来说,这是一个信号:不要把所有预算都烧在前沿模型上。聪明的AI产品架构,应该像微服务一样分层——用聚焦模型处理80%的流量,用前沿模型处理那20%的真正难题。
Mellum2的出现,让这种分层架构的成本门槛又降了一大截。
#AI创业 #JetBrains #开源模型 #AIAgent #Mellum2 #一人公司
本文由AI辅助创作,经人工审核编辑发布
