【AI风向】普林斯顿最新研究：AI当CEO还不合格——500天模拟经营揭示大模型真实管理能力

让AI管公司，它会亏掉你的钱。普林斯顿大学CEO-Bench基准测试显示，大多数顶级模型在500天的模拟创业中都把100万美元初始资金亏到不剩。唯一"盈利"的两个模型，利润也称不上稳定。

事件回顾

6月16日，普林斯顿大学陈浩哲（Haozhe Chen）、Karthik Narasimhan和Zhuang Liu三位研究者发布了CEO-Bench——一个专门测试AI"掌舵能力"的基准。

他们让AI代理运营一家模拟AI创业公司，周期为500天，初始资金100万美元。代理可以调用34种工具，覆盖定价策略、市场营销、产品研发、运营维护、客户支持、企业销售和信息获取等所有CEO需要关心的领域。

最终结果令人深思：大多数最先进的大模型都在这个测试中亏了钱。

根据研究论文，只有Claude Opus 4.8和GPT-5.5在最佳运行轮次里勉强保住了本金（账户余额高于100万美元的初始值），但"两个模型都没能稳定实现盈利"。Claude Fable 5的表现更不稳定——一次运行因模型"拒绝执行"而中止，另外两次运行中，部分API请求也被降级到了Opus 4.8。

换句话说，当前最强AI做编程、写文章、客服对话等"单次任务"已经相当出色，但一旦需要它们像一个真正的CEO那样做长期战略决策，它们就集体翻车。

为什么重要

这项研究之所以值得AI创业者关注，是因为它触及了一个根本问题：AI的能力边界到底在哪里？

过去一年，我们被各种"AI取代XX职业"的叙事轰炸。从程序员到设计师，从客服到分析师，似乎每个岗位都在AI的射程之内。但CEO-Bench给出了一个清醒的信号：AI擅长的是"执行单一明确指令"，而不是"在信息不完整、后果不确定的情况下做复杂决策"。

这对AI创业者有三层含义：

第一层：短期不要幻想"AI全自动公司"。 即便你用了最先进的Agent框架，AI仍然无法像一个真正的创始人那样根据市场变化、团队状态、竞争格局做综合判断。一人公司里，人仍然是核心决策者，AI是高效工具，不是替代品。

第二层：AI工具的差异化方向应该转向"决策辅助"而非"决策替代"。 研究中提到，表现最好的代理做了两件事——写代码模拟客户群组来预测未来现金流，以及挖掘谈判历史来发现客户的隐藏偏好。这种"数据驱动的推演能力"正是AI可以帮创业者做的事，但最终的策略选择还是需要人类判断。

第三层：警惕"自动驾驶幻觉"。 很多AI Agent产品宣称可以"全自动运营"，但CEO-Bench的结果表明，即使在模拟的理想环境中，AI也无法稳定实现正向现金流。真实世界的复杂度和不确定性远高于模拟环境。

测试到底怎么做的

CEO-Bench的设计本身就很值得AI创业者学习。研究团队定义了"掌舵智能"（Steering Intelligence）的四个维度：

长时间跨度的不确定性导航：不是做一次决策，而是在500天里持续做决策，每次决策的影响会延迟反馈
噪音环境中的信息获取：市场数据不完美，竞争对手动态模糊，代理需要自己判断哪些信号是真的
适应变化的世界：模拟市场是动态演进的，昨天有效的策略今天可能失效
协调多个运动部件朝向统一目标：定价、研发、营销、客服必须形成合力，而非各自为政

代理每周可以行动一次，通过Python编程接口调用34种工具。这34种工具覆盖的范畴，恰好就是每个AI创业者日常要做的事——

定价和计费方案设计（设置价格、使用配额、折扣策略）
增长和市场拓展（定向广告投放、渠道推广、线索转化）
产品研发（选择模型层级、资助日常开发、启动研究项目）
运营和基础设施（购买算力容量、配置客服支持）
公开传播（发布产品公告、管理社交媒体）

代理需要查询19个业务数据库做数据分析，然后基于分析结果做出每周的经营决策。这是一个极其接近真实创业环境的模拟——信息不完全、市场会变化、决策后果延迟显现。

我们能看到什么

CEO-Bench的启示不只停留在"AI不行"这个结论上，它还让我们看到了AI在创业中真正能帮上忙的地方。

研究团队观察到一个有趣的现象：表现最好的代理会写复杂的Python代码来模拟客户群组行为，预测不同定价策略下的现金流变化。它们还会分析谈判历史记录，从中挖掘客户的隐含偏好。

这说明：AI可以帮创业者做数据分析和情景模拟，但"拍板"那个人类来。 这恰好呼应了我们一直倡导的一人公司方法论——用AI工具做信息采集和分析，用人的判断力做最终决策。

具体来说，AI创业者可以考虑将AI工具用于：

竞品动态监控：自动抓取和分析竞争对手的定价、产品、营销变化
客户行为建模：基于历史数据预测不同策略下的客户反应
财务压力测试：模拟不同市场条件下的现金流和盈亏情况
内容策略推演：分析不同选题和发布节奏的用户增长效果

这些都还属于CEO-Bench中"表现好的代理"所能做到的事——数据驱动的情景分析。而真正的战略决策，比如"今年要不要融资""要不要放弃免费用户专注企业客户""要不要裁员保现金流"，仍然需要创业者的商业直觉和承担后果的勇气。

行动建议

如果你是AI创业者，这件事值得你立刻做三件事：

第一，重新审视你的AI工具使用方式。 把AI定位从"替代我"调整为"武装我"。用它来做数据分析和情景模拟，但不要让它替你决定战略方向。CEO-Bench的结果告诉你，AI管不好公司。

第二，关注"掌舵智能"这个新赛道。 普林斯顿团队提出的Steering Intelligence概念，很可能成为下一个AI评测热点。如果未来有创业公司专门做"AI决策辅助"工具，它们会是更有价值的合作伙伴，而不是夸口"全自动运营"的Agent产品。

第三，在团队内部建立"人工决策锚点"。 即便你的公司已经大量使用AI工具，也要确保每个关键决策环节有一个人类在做最终的判断和签字。这不仅是对结果负责，也是对自己的商业模式负责——你的核心价值在于判断力，而不是执行力。

#AI创业 #AI管理 #一人公司 #CEO-Bench #大模型真实能力

本文由AI辅助创作，经人工审核编辑发布

更多一人公司案例与工具 → 微信公众号搜索「AI创业内参」→ 菜单栏「官方网站」即可访问 xopcx.com