【AI风向】30B参数拿下IMO金牌：上海AI Lab用"四步配方"证明小模型也能登顶

一个仅有30亿参数的模型，在美国数学奥赛上与人类历史最高分并列，训练成本只有大厂的零头。SU-01的故事告诉AI创业者：智慧的效率，比智慧的规模更重要。

事件回顾

2026年5月20日，上海人工智能实验室（上海AI Lab）联合香港中文大学、清华大学、北京大学、上海交通大学等机构，正式发布了科学推理模型SU-01。这个基于30B-A3B架构的"中小尺寸"模型，在数学和物理两个学科的奥林匹克竞赛评测中，均取得了金牌级表现。

核心成绩单极为亮眼：在2025年国际数学奥林匹克（IMO 2025）中，SU-01经人类专家评定获得35分，恰好踩在金牌线上，其中第二题和第三题拿到满分。在2026年美国数学奥林匹克（USAMO 2026）中，同样取得35分，超出金牌线整整10分，与当年340名参赛者中的人类最高分持平。尤其令人震惊的是第三题——这道"地狱难度"的几何题人类选手平均分仅0.01分，SU-01却拿到了满分，而且采用了一种完全不同于人类的解法：用复数代数框架绕开了所有繁琐的几何构造。

在物理奥赛方面，SU-01在IPhO 2024和IPhO 2025上均超过金牌线。更关键的是，在所有竞赛中，SU-01完全不调用外部工具、不执行代码、不依赖专用符号求解器——纯靠自然语言推理完成全部解题过程。论文已发布在arXiv（编号2605.13301），代码已在GitHub开源。

为什么重要

这件事的颠覆性不在分数本身，而在于它颠覆了"更大模型 = 更强能力"的行业共识。

1. 参数效率的革命性突破

SU-01只有30B参数，但它在IMO-ProofBench（需要完整证明的评测集）上直接生成得分57.6%，加上测试时扩展后达到70.2%，远超过所有同体量模型，并接近Gemini 3.1 Pro等万亿参数级商业系统。在"可验证答案"类测试上，SU-01的77.3%与35B的Qwen3.6（77.4%）几乎持平，但训练资源远少于对手。

这说明一个根本性问题：当前大模型的大量参数可能被严重浪费了。对于AI创业者来说，这意味着未来不一定要烧钱堆算力才能做出好产品——方法论对了，小团队用小模型也能做出大效果。

2. 训练成本极度克制

整条训练流水线的成本之低令人惊讶：监督微调（SFT）阶段仅用8块GPU训练四轮，处理33.8万条数据；强化学习阶段用64块GPU训练200步。对比之下，DeepSeek-V3.2在数百亿token上训练了数万步，Nemotron-Cascade 2使用了约2660万条SFT样本和7种RL阶段。SU-01的训练成本可能只有这些大厂的几十分之一甚至更低。

这验证了一个对创业者至关重要的命题：在AI领域，聪明的工程方法可以大幅替代资金投入。

3. 跨领域迁移能力出乎意料

最让人意外的是，SU-01的强化学习阶段只用了数学和物理信号，但它在化学测试FrontierScience-Olympiad上同样表现出色（69.4%），甚至在生物学测试上也有25%的正确率。在研究级难题FrontierScience-Research上，SU-01以11.7%的得分排名同等规模模型第一，与Gemini 3.1 Pro的13.3%差距极小（这些题目本身就极难，所有模型得分都低）。

这说明SU-01学到的不是"解题套路"，而是一种可迁移的科学推理能力。论文中将这种现象称为"可专业化的通才"——通过高强度数学训练获得的推理结构，可以泛化到其他科学领域。

"四步配方"深度拆解

SU-01的训练方法论堪称教科书级别的工程示范，整个过程分为四步，层层递进：

▲ SU-01的四步训练流水线：从行为塑形到测试时扩展，8块GPU起步，最终达到IMO金牌水平

第一步：行为塑形（SFT）

核心目的是改变模型的"思考习惯"。基础模型P1-30B-A3B本身就很强，但解题风格像"聪明但粗心的学生"——答案偶尔正确，论证过程松散。研究团队用33.8万条高质量路径进行监督微调，每条路径不仅包含解题过程，还包含自我检验（解完后回头检查漏洞）和自我纠错（发现漏洞后重新推导）。

这里有个精妙的设计叫"逆困难度课程"。传统SFT先喂简单数据再喂难数据，但SU-01团队反其道而行之——用"困惑度"衡量每道题对模型的陌生程度，从最陌生、最不熟悉的数据开始训练。实验证明，这种顺序能让模型在吸收新思维模式的同时更好地保留原有能力。

第二步：粗粒度强化学习（96步）

用有标准答案、可自动判对错的题目进行强化学习。模型反复解题，答对加分、答错扣分。这一步的目的非常纯粹——提升直接解题的准确率。

第三步：精粒度强化学习（104步）

这才是真正的核心。团队引入DeepSeekMath-V2作为"证明评委"，不只判断答案对错，而是评估整个证明过程是否严谨、完整、没有逻辑漏洞。

这一步额外加入了两个关键机制。一是"自我精炼"：当模型某道题得分很低时，这道题被重新包装成新任务——"这是你之前的错误解法，请找出问题并重新解一遍"，强迫模型学会反思和改错。二是"经验回放"：如果模型在某道极难的题上偶尔解对了，这条成功轨迹会被保存下来反复学习，确保难得的成功经验不被遗忘。

第四步：测试时扩展（推理阶段）

这一步不需要额外训练，而是在解题时引入结构化迭代循环：模型先写出解答，然后切换为"检查员"角色审查漏洞并出具"缺陷报告"，再根据报告修改解答，如此反复。连续5次检查通过则接受；连续10次不通过则放弃重来；每道题最多运行10个独立解题流程，最终选出最佳解答。

研究团队的分析显示，SU-01在USAMO 2026单次推理中，初始解答平均约10.6万词，修改阶段约8.3万词，验证阶段约2.87万词——模型能稳定运行超过10万词的推理轨迹，本身就是训练成功的重要标志。

小模型的时代信号

SU-01不是孤例。过去一年，小模型能效比突破的信号越来越多：

▲ 同等IMO金牌水平：万亿参数大模型需要数千张H100，SU-01仅需64块GPU——智慧密度才是真正的竞争力

DeepSeek-V3/V4系列通过MoE（混合专家）架构，以远低于GPT-4的参数规模达到了接近甚至超越的性能
Qwen系列的A3B（3B激活参数）变体展现出极具竞争力的性价比
Mozilla借助Claude Mythos Preview在单月内发现并修复423个Firefox安全漏洞，其中271个为首次发现

所有这些案例指向同一个趋势：AI行业正在从"参数军备竞赛"转向"方法论的深度竞争"。谁的训练数据质量更高、谁的奖励设计更精巧、谁的推理架构更高效——这些正在取代"我有多少张H100"成为核心竞争力。

对于AI创业者而言，这个趋势意味着两件事：

第一，进入门槛在降低。 当30B模型能达到万亿参数模型的奥赛水平时，GPU集群的规模不再是决定产品能力的唯一瓶颈。小团队通过精巧的方法论和高质量数据，完全有可能在垂直领域做出与大厂比肩的产品。

第二，对"智慧密度"的要求在提高。 参数规模的红利正在消退，未来产品比拼的是单位算力的智能产出。这意味着创业团队需要在数据工程、训练策略、推理优化上投入更多精力，而不是简单地靠多租几张GPU来解决问题。

行动建议

对于AI创业者和一人公司：

关注小而精的模型方案。如果业务场景相对垂直（金融分析、代码审查、文档处理等），30B-70B参数的模型经过针对性微调，性价比可能远超通用大模型API调用。
重视训练数据的质量而非数量。SU-01的成功证明，33.8万条精心筛选的高质量轨迹，价值可能远超几百万条粗糙数据。在数据标注和清洗上多花1天，可能在训练上节省1周。
学习SU-01的"自我精炼"机制。在产品设计中引入"AI自我检查+自动修正"的闭环，即使模型本身不是最强的，通过结构化的迭代改进也能大幅提升最终输出质量。这个思路在内容生成、代码审查、数据分析等场景都有直接应用价值。
关注开源模型生态。SU-01的代码已开源，论文可在arXiv获取。对于有志于做AI产品的小团队，跟踪这类前沿开源成果，比盲目采购API额度更有长期价值。
警惕"参数规模崇拜"。如果你的AI产品在考虑升级更大模型，先问自己：现有模型的潜力真的被挖掘完了吗？SU-01能从"聪明但粗心的学生"变成"奥赛金牌选手"，靠的是改变训练方法，不是增加参数。

#AI创业 #小模型 #科学推理 #奥赛金牌 #一人公司

本文由AI辅助创作，经人工审核编辑发布