Simon Willison在PyCon US 2026上用5分钟浓缩了LLM行业过去半年最关键的转折——编码Agent跨越"能用"门槛、OpenClaw从无名仓库到风靡全球、开源模型在笔记本上跑赢旗舰。AI创业者需要知道的,都在这了。
事件回顾
2026年5月18日,知名LLM观察者Simon Willison在PyCon US 2026上发表了一场只有5分钟的闪电演讲,却浓缩了过去6个月整个大模型行业的跌宕起伏。他把这段时间的起点定在2025年11月——称之为"2025年11月拐点"。
这篇题为《The last six months in LLMs in five minutes》的演讲笔记发布后,迅速登上Hacker News首页,获得66分和14条评论。对于AI创业者来说,Simon的复盘不仅是技术编年史,更是一张行动路线图。
三大主线:这半年到底发生了什么
主线一:编码Agent从"经常掉链子"到"日常主力"

▲ 2025年9月-11月:五次模型王座更迭,RLVR训练让编码Agent从"经常掉链子"跃升为"日常主力"
2025年11月是整个叙事的分水岭。在此之前,所谓的"最强模型"王座在短短一个月内五次易主:
- 9月底:Claude Sonnet 4.5登顶
- 11月初:被GPT-5.1超越
- 随后:Gemini 3短暂称王
- 紧接着:GPT-5.1 Codex Max抢占高地
- 最终:Claude Opus 4.5重新夺回,并稳坐数月
模型军备竞赛固然热闹,但Simon指出,真正的故事不在排行榜上,而在实用性上。OpenAI和Anthropic在整个2025年投入大量资源做RLVR(Reinforcement Learning from Verifiable Rewards,基于可验证奖励的强化学习),让Codex和Claude Code这两个编程Agent在11月迎来了质变。
用Simon的原话:编码Agent从"经常能用"变成了"基本都能用"——跨过了一道关键的质量门槛,此后你可以将它们作为日常主力工具来完成真正的工作,而不必把大部分时间花在修复它们的愚蠢错误上。
这对AI创业者的意义在于:编程Agent不再是"玩具"或"炫技",而是实际的生产力工具。一人公司可以用Claude Code或Codex搭建产品、处理运维、自动化运营流程。
主线二:OpenClaw——从无名仓库到数字宠物
11月的另一个转折点来自一个当时还叫"Warelay"的GitHub仓库——一位名叫Pete的开发者提交了第一行代码。谁也没想到,这个项目在接下来的三个月里会经历多次改名,最终以OpenClaw的名字席卷全球开发者社区。
到2026年2月,OpenClaw已经成为现象级产品。一个诞生不到三个月的项目获得如此关注度,在开源历史上也属罕见。随之而来的是一个全新品类——Claws(个人AI助手),NanoClaw、ZeroClaw等变体纷纷涌现。
硅谷出现了令人啼笑皆非的现象:Mac Mini卖断货了。原因?开发者们买Mac Mini来运行自己的Claw。Drew Breunig的比喻被Simon引用:它们就像数字宠物,而Mac Mini就是最适合养这只宠物的鱼缸。
Simon最喜欢的比喻来自《蜘蛛侠2》:Claws就像阿尔弗雷德·莫利纳饰演的章鱼博士的机械触手——由AI驱动,只要抑制芯片不出问题就非常安全……而一旦芯片坏了,它们就会变成邪恶的存在并接管一切。
不过对AI创业者来说,Claws生态的出现意味着:个人AI Agent已经从概念走向日常部署。在Mac Mini上跑一个"24小时值班"的AI助手不再是什么遥不可及的未来——而是正在发生的现在。
主线三:开源模型在笔记本上逆袭旗舰

▲ Qwen3.6-35B-A3B(20.9GB,笔记本可跑)vs Claude Opus 4.7(云端旗舰):开源模型在本地设备上疯狂超越预期
如果前两条主线讲的是前沿突破,那第三条则关乎民主化。过去一个月发生了几件大事:
Gemma 4系列:Google发布的最强开源权重模型,Simon称之为"美国公司发布的最强开源模型"。
GLM-5.1:中国AI实验室GLM推出的1.5TB开源权重巨兽。参数规模庞大,但效果惊人——Simon用绘制"北美负鼠骑电动滑板车"测试它,GLM-5.1不仅画出了负鼠,还配了一句"自黄昏起巡航弗吉尼亚"的文字,精准且有趣。其他模型连边都摸不到。
Qwen3.6-35B-A3B:最让Simon感到震撼的是这个20.9GB的开源模型——它在他的笔记本上跑出了比Claude Opus 4.7更好的鹈鹕骑车图。当然,Simon也承认这也说明"鹈鹕骑自行车"作为benchmark已经超出了有效范围。
但真正的信息是:笔记本上跑的模型,虽然远弱于前沿模型,但已经开始疯狂超越预期。
为什么这对AI创业者重要
1. 编程Agent降低了创业门槛
当Claude Code和Codex从"需要频繁盯着"变成"可以信任它独立完成任务"时,一人公司的玩法彻底改变。过去需要一个前端+一个后端+一个运维的三个人团队,现在可能一个人+几个Agent就能跑起来。
Simon自己在假期期间"vibe-coded"了一个用Python实现JavaScript的项目——靠口述意图让AI写代码。虽然他自己也承认这产品没人需要("bug多、慢、不安全、半成品"),但这恰好说明了门槛已经低到何种程度。
2. OpenClaw生态是新的平台机会
围绕Claws(个人AI助手)正在形成一个全新的生态系统。从硬件(Mac Mini)到软件(OpenClaw及其变体),再到服务(部署、定制、托管),每一个环节都有创业机会。这让人想起2008年App Store刚开放时的景象。
3. 开源模型的进步意味着成本下降
Qwen3.6-35B-A3B在笔记本上跑赢Claude Opus 4.7——这不只是一个技术趣闻。它意味着高质量AI推理的成本可以趋近于零。对于内容创业、自动化运营、私域服务等场景,在本地或VPS上部署开源模型是比调API更经济的长期方案。
行动建议
短期(本周)
- 亲自上手Claude Code或Codex:如果你还没用过编码Agent做实际项目,现在是最好的时机。选一个真实需求(比如自动化内容发布流程),用Agent完成它。
- 安装OpenClaw:在自己的机器上跑一个Claw,体验"24小时AI助手"的感觉。哪怕只用来处理邮件分类或信息聚合,你也能感受到这个品类的潜力。
中期(本月)
- 评估本地模型方案:下载Qwen3.6-35B-A3B或Gemma 4,在你的开发机或VPS上跑起来。对比API调用的成本和延迟,看哪些场景适合本地部署。
- 关注Claws生态:跟踪OpenClaw的更新和新出现的Claw变体。思考你的业务中有没有"需要24小时值守"的环节可以交给Claw。
长期策略
- 在开源模型基础上构建产品:不依赖单一API提供商,降低成本和供应风险。将开源模型作为产品的"底盘引擎",API作为增强层。
- 为Agent时代设计工作流:重新思考你的工作流程——哪些任务可以委托给Agent?哪些需要人类判断?把这个分工固化下来,形成SOP。
Simon的底层洞察
演讲最后,Simon给出了他的核心判断:
"过去六个月的两条主线:编码Agent变得非常好……而笔记本上能跑的模型,虽然远弱于前沿,但已经开始疯狂超越预期。"
翻译成创业者的语言:工具在变强,成本在下降,机会窗口在打开。
对AI创业者来说,2026年5月不是焦虑的时刻——是行动的时刻。
#AI创业 #AI风向 #编码Agent #OpenClaw #开源模型 #一人公司
本文由AI辅助创作,经人工审核编辑发布
