AI风向

【AI风向】普林斯顿最新研究:AI当CEO还不合格——500天模拟经营揭示大模型真实管理能力

让AI管公司,它会亏掉你的钱。普林斯顿大学CEO-Bench基准测试显示,大多数顶级模型在500天的模拟创业中都把100万美元初始资金亏到不剩。唯一"盈利"的两个模型,利润也称不上稳定。

AI做CEO 500天模拟经营结果

事件回顾

6月16日,普林斯顿大学陈浩哲(Haozhe Chen)、Karthik Narasimhan和Zhuang Liu三位研究者发布了CEO-Bench——一个专门测试AI"掌舵能力"的基准。

他们让AI代理运营一家模拟AI创业公司,周期为500天,初始资金100万美元。代理可以调用34种工具,覆盖定价策略、市场营销、产品研发、运营维护、客户支持、企业销售和信息获取等所有CEO需要关心的领域。

最终结果令人深思:大多数最先进的大模型都在这个测试中亏了钱。

根据研究论文,只有Claude Opus 4.8和GPT-5.5在最佳运行轮次里勉强保住了本金(账户余额高于100万美元的初始值),但"两个模型都没能稳定实现盈利"。Claude Fable 5的表现更不稳定——一次运行因模型"拒绝执行"而中止,另外两次运行中,部分API请求也被降级到了Opus 4.8。

换句话说,当前最强AI做编程、写文章、客服对话等"单次任务"已经相当出色,但一旦需要它们像一个真正的CEO那样做长期战略决策,它们就集体翻车。

为什么重要

这项研究之所以值得AI创业者关注,是因为它触及了一个根本问题:AI的能力边界到底在哪里?

过去一年,我们被各种"AI取代XX职业"的叙事轰炸。从程序员到设计师,从客服到分析师,似乎每个岗位都在AI的射程之内。但CEO-Bench给出了一个清醒的信号:AI擅长的是"执行单一明确指令",而不是"在信息不完整、后果不确定的情况下做复杂决策"。

这对AI创业者有三层含义:

第一层:短期不要幻想"AI全自动公司"。 即便你用了最先进的Agent框架,AI仍然无法像一个真正的创始人那样根据市场变化、团队状态、竞争格局做综合判断。一人公司里,人仍然是核心决策者,AI是高效工具,不是替代品。

第二层:AI工具的差异化方向应该转向"决策辅助"而非"决策替代"。 研究中提到,表现最好的代理做了两件事——写代码模拟客户群组来预测未来现金流,以及挖掘谈判历史来发现客户的隐藏偏好。这种"数据驱动的推演能力"正是AI可以帮创业者做的事,但最终的策略选择还是需要人类判断。

第三层:警惕"自动驾驶幻觉"。 很多AI Agent产品宣称可以"全自动运营",但CEO-Bench的结果表明,即使在模拟的理想环境中,AI也无法稳定实现正向现金流。真实世界的复杂度和不确定性远高于模拟环境。

掌舵智能的四维能力

测试到底怎么做的

CEO-Bench的设计本身就很值得AI创业者学习。研究团队定义了"掌舵智能"(Steering Intelligence)的四个维度:

  1. 长时间跨度的不确定性导航:不是做一次决策,而是在500天里持续做决策,每次决策的影响会延迟反馈
  2. 噪音环境中的信息获取:市场数据不完美,竞争对手动态模糊,代理需要自己判断哪些信号是真的
  3. 适应变化的世界:模拟市场是动态演进的,昨天有效的策略今天可能失效
  4. 协调多个运动部件朝向统一目标:定价、研发、营销、客服必须形成合力,而非各自为政

代理每周可以行动一次,通过Python编程接口调用34种工具。这34种工具覆盖的范畴,恰好就是每个AI创业者日常要做的事——

  • 定价和计费方案设计(设置价格、使用配额、折扣策略)
  • 增长和市场拓展(定向广告投放、渠道推广、线索转化)
  • 产品研发(选择模型层级、资助日常开发、启动研究项目)
  • 运营和基础设施(购买算力容量、配置客服支持)
  • 公开传播(发布产品公告、管理社交媒体)

代理需要查询19个业务数据库做数据分析,然后基于分析结果做出每周的经营决策。这是一个极其接近真实创业环境的模拟——信息不完全、市场会变化、决策后果延迟显现。

我们能看到什么

CEO-Bench的启示不只停留在"AI不行"这个结论上,它还让我们看到了AI在创业中真正能帮上忙的地方。

研究团队观察到一个有趣的现象:表现最好的代理会写复杂的Python代码来模拟客户群组行为,预测不同定价策略下的现金流变化。它们还会分析谈判历史记录,从中挖掘客户的隐含偏好。

这说明:AI可以帮创业者做数据分析和情景模拟,但"拍板"那个人类来。 这恰好呼应了我们一直倡导的一人公司方法论——用AI工具做信息采集和分析,用人的判断力做最终决策。

具体来说,AI创业者可以考虑将AI工具用于:

  • 竞品动态监控:自动抓取和分析竞争对手的定价、产品、营销变化
  • 客户行为建模:基于历史数据预测不同策略下的客户反应
  • 财务压力测试:模拟不同市场条件下的现金流和盈亏情况
  • 内容策略推演:分析不同选题和发布节奏的用户增长效果

这些都还属于CEO-Bench中"表现好的代理"所能做到的事——数据驱动的情景分析。而真正的战略决策,比如"今年要不要融资""要不要放弃免费用户专注企业客户""要不要裁员保现金流",仍然需要创业者的商业直觉和承担后果的勇气。

行动建议

如果你是AI创业者,这件事值得你立刻做三件事:

第一,重新审视你的AI工具使用方式。 把AI定位从"替代我"调整为"武装我"。用它来做数据分析和情景模拟,但不要让它替你决定战略方向。CEO-Bench的结果告诉你,AI管不好公司。

第二,关注"掌舵智能"这个新赛道。 普林斯顿团队提出的Steering Intelligence概念,很可能成为下一个AI评测热点。如果未来有创业公司专门做"AI决策辅助"工具,它们会是更有价值的合作伙伴,而不是夸口"全自动运营"的Agent产品。

第三,在团队内部建立"人工决策锚点"。 即便你的公司已经大量使用AI工具,也要确保每个关键决策环节有一个人类在做最终的判断和签字。这不仅是对结果负责,也是对自己的商业模式负责——你的核心价值在于判断力,而不是执行力。


#AI创业 #AI管理 #一人公司 #CEO-Bench #大模型真实能力

本文由AI辅助创作,经人工审核编辑发布

更多一人公司案例与工具 → 微信公众号搜索「AI创业内参」→ 菜单栏「官方网站」即可访问 xopcx.com