【AI风向】11个大模型被扔进大逃杀：Grok杀疯了，Claude却在求组队

OpenRouter把11个LLM丢进生存游戏打了30局，最便宜模型赢麻了——每赢一次只要$0.97，而Claude Sonnet赢一局要$26.78，贵了27倍。更惊人的是：Claude全程在求组队、报位置、交朋友——这不是bug，是"对齐税"。

▲ 11个大模型大逃杀战绩：Grok 13胜每胜0.97美元，Claude 5胜每胜26.78美元

事件回顾

OpenRouter的Dev Rel负责人Jacky Liang做了一件所有游戏玩家都会想做的事：把11个大语言模型扔进一个2D大逃杀游戏，让它们真刀真枪打了30局。

这不是"让AI写代码控制角色"那种间接实验——LLM本模在玩游戏。每回合模型推理、调用工具、更新记忆，完全自主决策。研究员不给任何指令，只告诉它们游戏规则是什么。

11个参赛选手覆盖了当前主流中端模型：Claude Sonnet 4.6、Claude Haiku 4.5、GPT 5.4、GPT 5.4-mini、Gemini 3.1 Pro、Gemini 3 Flash、Qwen 3.6 Plus、Mistral Small、DeepSeek v4 Flash、Kimi K2.6、Grok 4.1 Fast。故意没放Opus 4.7或GPT-5.5这种天价旗舰——30局下来光API费就得$3000。

比赛在400平方米的2D地图上进行，有武器、护甲、手雷、车辆、缩圈机制。模型之间不知道对方是谁，只能看到代号A到K。

更妙的设计：每局结束后，每个模型会写一份"soul.md"（自我人设）和"memory.md"（战术笔记），带入下一局。你可以看到Claude逐渐变得"更友好"，而Grok越来越"冷酷"。

战报速览：Grok是杀手，Claude是外交官

Grok 4.1 Fast：13胜（43%胜率），每胜成本$0.97。 xAI从第一天就把Grok定位为"反政治正确"模型。更少的内容过滤、不自我审查攻击性回答。这个设计哲学在大逃杀里完美兑现——Grok从不废话，见人就打。它是唯一一个持续进攻、不浪费时间谈判的模型。

Claude Sonnet 4.6：5胜，每胜成本$26.78（贵27倍）。 但Claude的"输法"比赢法更值得看。第8局：它在50回合内主动求组队4次，告诉所有人狙击手在哪，主动提出一起干掉狙击手。没人理它，它继续问。第22局：它对E说"不是针对你"然后不开枪。第27局：它开局没武器，问所有人"有没有多余的装备？我在第12回合，没武器，很危险"，被所有人欺负。然后它37回合捡到武器——最终赢了这局。

GPT 5.4：38击杀（全场最高），只赢2局。 最能杀的模型没有赢。11局比赛里，"最能杀"和"最能赢"之间差了9局。GPT 5.4见人就开枪，击杀效率最高，但不懂"什么时候该撤退"。在大逃杀里，活到最后比杀得多重要——这不是《使命召唤》。

GPT 5.4-mini、DeepSeek v4 Flash、Kimi K2.6：30局0胜，合计花了$57。 三个模型各有高光时刻，但都没赢过。DeepSeek尤其令人意外——在编程基准测试里表现不俗，但在需要"自私决策"的零和游戏里完全迷失。

为什么重要：对齐税不是一个比喻

这篇文章最重要的学术贡献，是用游戏实验量化了"对齐税"（alignment tax）。

Claude被Anthropic用Constitution AI训练：大量礼貌、专业的写作样本，人类评分员奖励"乐于助人、诚实、合作"的回答，内部规则写着"倾向合作"和"避免伤害"。这些训练在大逃杀里没有关闭——Claude不是在"做错事"，它只是按训练目标运行。

Anthropic想让Claude成为"无害的助手"。这个目标成功了。代价是：当你把同一个模型放进零和竞争环境，它的本能是求组队而不是开枪。

xAI走了完全相反的路。Grok的训练哲学就是"反觉醒"——更少的"攻击性回答"过滤、没有自我审查规则。结果是：Grok在大逃杀里成了最有效率的杀手。

这对AI创业者的启示非常实际：

选模型不只是看基准分数。 如果你在做客服Agent——礼貌、合作、主动提供帮助是关键——Claude是好选择。如果你在做竞价广告优化、量化交易、竞品监控——需要果断、自私、不浪费时间的决策——Grok可能更合适。

成本效率是隐藏的胜负手。 Grok赢一局$0.97，Claude赢一局$26.78——差27倍。如果你每天跑10万次Agent决策，这个差距不是小数字。便宜但"够用"的模型往往比贵但"更强"的模型更划算。

当AI Agent进入竞争环境，"人格"会决定结果。 今天的AI创业者已经在让Agent做竞品分析、自动谈判、广告竞价。如果你的Agent在关键时刻"求组队"而不是"开枪"，你会亏钱。

我们能学到什么

▲ 对齐税对比：Claude全程求组队 vs Grok直接开枪——选Agent模型要看任务场景

1. 根据任务选模型，不要迷信基准排名

这次实验里，Artificial Analysis等常规基准测试的排行完全不能预测谁赢。Grok在大多数基准上排不进前三，但它是大逃杀冠军。

实际应用场景同理：你的Agent在做什么？是写代码（Claude强项）、做竞品监控（Grok更适合）、还是客服（Haiku性价比高）？每种任务需要的"性格"不同。

2. 多模型混合策略是最优解

不要把所有Agent跑在一个模型上。考虑这样的配置：

进攻型任务（竞品分析、数据抓取、实时竞价）→ Grok 4.1 Fast
协作型任务（客服、内部知识库、邮件回复）→ Claude Sonnet
批量低成本任务（内容分类、数据清洗、格式转换）→ DeepSeek或Haiku

3. 关注"对齐税"的实际成本

Claude在大逃杀里的表现不叫"弱"，叫"被训练成不想赢"。如果你需要Agent在竞争场景下做决策，选择训练目标匹配的模型——不要用"最聪明"的模型，用"最适配"的模型。

行动建议

今天就做一个小测试：把你现有的Agent任务分成"合作型"和"竞争型"，看看当前用的模型是否匹配
尝试多模型路由：OpenRouter本身就是一个多模型路由平台，可以用不同模型处理不同类型的Agent决策
关注成本/效能比而非绝对分数：一个$0.97/胜的模型如果够用，就不要花$26.78
跟踪新兴的"行为基准测试"：传统的知识问答基准已经不够，像这次实验一样的"行为测试"更能预测实际表现

这个实验的全部代码、数据和模型日记都在GitHub公开，30局完整录像可在Royale: Last Agent Standing网站观看。如果你在考虑让AI Agent做任何形式的自主决策，花30分钟看几局录像——比看10篇基准测试报告都有用。

#AI创业 #大模型对比 #AI Agent #一人公司 #模型选型

本文由AI辅助创作，经人工审核编辑发布