AI风向

【AI风向】30B参数拿下IMO金牌:上海AI Lab用"四步配方"证明小模型也能登顶

一个仅有30亿参数的模型,在美国数学奥赛上与人类历史最高分并列,训练成本只有大厂的零头。SU-01的故事告诉AI创业者:智慧的效率,比智慧的规模更重要。

事件回顾

2026年5月20日,上海人工智能实验室(上海AI Lab)联合香港中文大学、清华大学、北京大学、上海交通大学等机构,正式发布了科学推理模型SU-01。这个基于30B-A3B架构的"中小尺寸"模型,在数学和物理两个学科的奥林匹克竞赛评测中,均取得了金牌级表现。

核心成绩单极为亮眼:在2025年国际数学奥林匹克(IMO 2025)中,SU-01经人类专家评定获得35分,恰好踩在金牌线上,其中第二题和第三题拿到满分。在2026年美国数学奥林匹克(USAMO 2026)中,同样取得35分,超出金牌线整整10分,与当年340名参赛者中的人类最高分持平。尤其令人震惊的是第三题——这道"地狱难度"的几何题人类选手平均分仅0.01分,SU-01却拿到了满分,而且采用了一种完全不同于人类的解法:用复数代数框架绕开了所有繁琐的几何构造。

在物理奥赛方面,SU-01在IPhO 2024和IPhO 2025上均超过金牌线。更关键的是,在所有竞赛中,SU-01完全不调用外部工具、不执行代码、不依赖专用符号求解器——纯靠自然语言推理完成全部解题过程。论文已发布在arXiv(编号2605.13301),代码已在GitHub开源。

为什么重要

这件事的颠覆性不在分数本身,而在于它颠覆了"更大模型 = 更强能力"的行业共识。

1. 参数效率的革命性突破

SU-01只有30B参数,但它在IMO-ProofBench(需要完整证明的评测集)上直接生成得分57.6%,加上测试时扩展后达到70.2%,远超过所有同体量模型,并接近Gemini 3.1 Pro等万亿参数级商业系统。在"可验证答案"类测试上,SU-01的77.3%与35B的Qwen3.6(77.4%)几乎持平,但训练资源远少于对手。

这说明一个根本性问题:当前大模型的大量参数可能被严重浪费了。对于AI创业者来说,这意味着未来不一定要烧钱堆算力才能做出好产品——方法论对了,小团队用小模型也能做出大效果。

2. 训练成本极度克制

整条训练流水线的成本之低令人惊讶:监督微调(SFT)阶段仅用8块GPU训练四轮,处理33.8万条数据;强化学习阶段用64块GPU训练200步。对比之下,DeepSeek-V3.2在数百亿token上训练了数万步,Nemotron-Cascade 2使用了约2660万条SFT样本和7种RL阶段。SU-01的训练成本可能只有这些大厂的几十分之一甚至更低。

这验证了一个对创业者至关重要的命题:在AI领域,聪明的工程方法可以大幅替代资金投入

3. 跨领域迁移能力出乎意料

最让人意外的是,SU-01的强化学习阶段只用了数学和物理信号,但它在化学测试FrontierScience-Olympiad上同样表现出色(69.4%),甚至在生物学测试上也有25%的正确率。在研究级难题FrontierScience-Research上,SU-01以11.7%的得分排名同等规模模型第一,与Gemini 3.1 Pro的13.3%差距极小(这些题目本身就极难,所有模型得分都低)。

这说明SU-01学到的不是"解题套路",而是一种可迁移的科学推理能力。论文中将这种现象称为"可专业化的通才"——通过高强度数学训练获得的推理结构,可以泛化到其他科学领域。

"四步配方"深度拆解

SU-01的训练方法论堪称教科书级别的工程示范,整个过程分为四步,层层递进:

SU-01四步训练法流水线示意图

▲ SU-01的四步训练流水线:从行为塑形到测试时扩展,8块GPU起步,最终达到IMO金牌水平

第一步:行为塑形(SFT)

核心目的是改变模型的"思考习惯"。基础模型P1-30B-A3B本身就很强,但解题风格像"聪明但粗心的学生"——答案偶尔正确,论证过程松散。研究团队用33.8万条高质量路径进行监督微调,每条路径不仅包含解题过程,还包含自我检验(解完后回头检查漏洞)和自我纠错(发现漏洞后重新推导)。

这里有个精妙的设计叫"逆困难度课程"。传统SFT先喂简单数据再喂难数据,但SU-01团队反其道而行之——用"困惑度"衡量每道题对模型的陌生程度,从最陌生、最不熟悉的数据开始训练。实验证明,这种顺序能让模型在吸收新思维模式的同时更好地保留原有能力。

第二步:粗粒度强化学习(96步)

用有标准答案、可自动判对错的题目进行强化学习。模型反复解题,答对加分、答错扣分。这一步的目的非常纯粹——提升直接解题的准确率。

第三步:精粒度强化学习(104步)

这才是真正的核心。团队引入DeepSeekMath-V2作为"证明评委",不只判断答案对错,而是评估整个证明过程是否严谨、完整、没有逻辑漏洞。

这一步额外加入了两个关键机制。一是"自我精炼":当模型某道题得分很低时,这道题被重新包装成新任务——"这是你之前的错误解法,请找出问题并重新解一遍",强迫模型学会反思和改错。二是"经验回放":如果模型在某道极难的题上偶尔解对了,这条成功轨迹会被保存下来反复学习,确保难得的成功经验不被遗忘。

第四步:测试时扩展(推理阶段)

这一步不需要额外训练,而是在解题时引入结构化迭代循环:模型先写出解答,然后切换为"检查员"角色审查漏洞并出具"缺陷报告",再根据报告修改解答,如此反复。连续5次检查通过则接受;连续10次不通过则放弃重来;每道题最多运行10个独立解题流程,最终选出最佳解答。

研究团队的分析显示,SU-01在USAMO 2026单次推理中,初始解答平均约10.6万词,修改阶段约8.3万词,验证阶段约2.87万词——模型能稳定运行超过10万词的推理轨迹,本身就是训练成功的重要标志。

小模型的时代信号

SU-01不是孤例。过去一年,小模型能效比突破的信号越来越多:

万亿参数大模型与30B小模型对比

▲ 同等IMO金牌水平:万亿参数大模型需要数千张H100,SU-01仅需64块GPU——智慧密度才是真正的竞争力

  • DeepSeek-V3/V4系列通过MoE(混合专家)架构,以远低于GPT-4的参数规模达到了接近甚至超越的性能
  • Qwen系列的A3B(3B激活参数)变体展现出极具竞争力的性价比
  • Mozilla借助Claude Mythos Preview在单月内发现并修复423个Firefox安全漏洞,其中271个为首次发现

所有这些案例指向同一个趋势:AI行业正在从"参数军备竞赛"转向"方法论的深度竞争"。谁的训练数据质量更高、谁的奖励设计更精巧、谁的推理架构更高效——这些正在取代"我有多少张H100"成为核心竞争力。

对于AI创业者而言,这个趋势意味着两件事:

第一,进入门槛在降低。 当30B模型能达到万亿参数模型的奥赛水平时,GPU集群的规模不再是决定产品能力的唯一瓶颈。小团队通过精巧的方法论和高质量数据,完全有可能在垂直领域做出与大厂比肩的产品。

第二,对"智慧密度"的要求在提高。 参数规模的红利正在消退,未来产品比拼的是单位算力的智能产出。这意味着创业团队需要在数据工程、训练策略、推理优化上投入更多精力,而不是简单地靠多租几张GPU来解决问题。

行动建议

对于AI创业者和一人公司:

  1. 关注小而精的模型方案。如果业务场景相对垂直(金融分析、代码审查、文档处理等),30B-70B参数的模型经过针对性微调,性价比可能远超通用大模型API调用。
  2. 重视训练数据的质量而非数量。SU-01的成功证明,33.8万条精心筛选的高质量轨迹,价值可能远超几百万条粗糙数据。在数据标注和清洗上多花1天,可能在训练上节省1周。
  3. 学习SU-01的"自我精炼"机制。在产品设计中引入"AI自我检查+自动修正"的闭环,即使模型本身不是最强的,通过结构化的迭代改进也能大幅提升最终输出质量。这个思路在内容生成、代码审查、数据分析等场景都有直接应用价值。
  4. 关注开源模型生态。SU-01的代码已开源,论文可在arXiv获取。对于有志于做AI产品的小团队,跟踪这类前沿开源成果,比盲目采购API额度更有长期价值。
  5. 警惕"参数规模崇拜"。如果你的AI产品在考虑升级更大模型,先问自己:现有模型的潜力真的被挖掘完了吗?SU-01能从"聪明但粗心的学生"变成"奥赛金牌选手",靠的是改变训练方法,不是增加参数。

#AI创业 #小模型 #科学推理 #奥赛金牌 #一人公司

本文由AI辅助创作,经人工审核编辑发布