3个月前被判定"太危险不能公开"的AI模型,如今以$10/百万token的价格向所有人开放。安全护栏是真实防线还是PR遮羞布?
▲ 31分钟攻破Windows内核:Anthropic Mythos时间线与关键能力数据
事件回顾
6月9日,Anthropic正式向公众发布了Claude Fable 5——这是Claude Mythos系列模型的第一个公开版本。与此同步,该公司还向已有的Glasswing合作伙伴(包括美国政府机构)推出了能力更强的Claude Mythos 5。
这个时间线令人瞠目:仅仅在3个月前,也就是2026年3月,Fortune首次曝光Mythos的存在时,Anthropic将其描述为"能力跃迁级"模型,认为"现有安全措施不足以应对其风险"。4月,公司启动了Project Glasswing,仅向极少数网络安全机构和基础设施提供商开放Mythos Preview。
而现在,任何人都可以通过Anthropic的API调用这个模型。定价是$10/百万输入token、$25/百万输出token——大约是Claude Opus价格的两倍,但不到Mythos Preview时期价格的二分之一。
为什么这个转折如此惊人
理解这次发布的重要性,需要看三个数字:
31分钟。 根据Axios在发布前一天拿到的独家测试数据,Mythos仅需31分钟就能为已披露的Windows内核漏洞编写完整的攻击利用代码。这不是理论推演,是实测结果。
3个月。 从"太危险不能公开"到"人人可用",中间只隔了不到一个季度。Anthropic内部的安全评估流程发生了什么?是模型本身被加了足够强的护栏,还是IPO在即的商业压力推动了这个决定?
0个竞品能打。 Anthropic声称Mythos在知识工作、软件工程、科学研究等所有基准测试上超越了OpenAI和Google DeepMind的所有竞品模型。如果这个声明属实,意味着Anthropic在短短3个月内完成了从追赶者到领跑者的转身。
安全护栏的真实机制
Fable 5的安全策略不是"让模型变笨",而是智能路由:当用户提出高风险请求时——涉及网络安全攻击、生物武器设计、化学武器制造、模型蒸馏——系统不会直接拒绝,而是自动将请求转交给能力较弱的Claude Opus 4.8处理。
这个设计的巧妙之处在于:Opus 4.8没有足够的推理能力来完成这些高风险任务,所以请求实际上被"软拒绝"了,但用户体验上不会看到生硬的错误提示。Anthropic产品管理负责人Dianne Penn强调,公司在发布前进行了内部安全评估、内部红队测试和外部对抗性测试。
但这里有一个关键问题:护栏的有效性取决于"高风险请求识别"的准确率。如果攻击者将恶意意图分解为多个看似无害的子任务,护栏能否识别?Anthropic没有公布这个识别率的具体数字。
▲ Fable 5安全路由机制:高风险请求自动转交Opus 4.8处理
Mythos 5:小圈子的"完整版"
与Fable 5同时发布的还有Claude Mythos 5,但它不面向公众。这个完整版本只提供给已经拥有Mythos Preview访问权限的机构——包括美国政府机构和Project Glasswing合作伙伴。
Anthropic明确表示,Mythos 5会"解除部分安全护栏",并在与美国政府合作的前提下部署。这延续了Anthropic自2026年初以来的策略:将最强AI能力置于政府监管框架内。
这个安排引发了两种截然不同的解读。支持者认为这是负责任的AI发展路径——最强能力在可控范围内使用。批评者则认为这创造了一个"AI双轨制":普通人用阉割版,政府和军事机构用完整版。
AI创业者的信号
对于关注AI创业的人来说,这次发布传递了几个明确的信号:
第一,模型能力竞赛远未结束。 2026年初很多分析认为GPT-5.5之后模型能力趋于平缓,但Mythos的公开化证明"能力跃迁"仍在发生。如果你的产品依赖特定模型的能力上限,需要重新评估护城河。
第二,安全护栏是新的定价维度。 Anthropic将Fable 5定位为$10/M token,Mythos 5给特定用户。这暗示未来的AI市场可能出现"安全等级分层定价"——更多的护栏对应更低的价格,更少护栏对应更高的价格和更严格的使用者审核。
第三,IPO前的关键一步。 Anthropic正在筹备IPO(据Guardian报道已秘密提交申请,估值$380B+)。在这个节点放出最强的Mythos模型,无疑是向资本市场展示肌肉。但这也意味着,公开版的安全护栏可能是"为上市而优化的安全叙事",而非"为安全而优化的技术方案"。
行动建议
如果你在做AI应用开发: 立刻申请Fable 5的API访问权限,测试它在你的具体场景中相比Opus 4.8是否有实质提升。Anthropic声称它在所有基准测试上领先,但"你的业务场景"才是真实基准。
如果你在做AI安全方向: 关注Fable 5的护栏绕过研究。历史上每一次"安全护栏"模型的发布,都会在几周到几个月内被研究人员找到绕过方法。GPT-4o、Claude 3.5 Opus、GPT-5.5的安全系统都经历过这个周期。
如果你在关注AI行业趋势: 观察OpenAI的回应速度。Mythos的公开化将迫使OpenAI加速GPT-5.5的后续版本或降低现有产品的定价。对于AI创业者来说,模型之间的竞争加剧意味着更低的API成本和更强的模型能力——这是一个利好周期。
如果你在思考一人公司的AI工具选型: 不要急着切换。Fable 5价格是Opus的两倍,但对大多数内容创作、代码辅助、数据分析场景,Opus可能已经"足够好"。等社区出了横评再决定。
一个未回答的核心问题
Anthropic这次发布留下了一个关键空白:Fable 5和Mythos 5的能力差距到底有多大?公司用了同一个"底层模型",但不同的护栏配置。如果护栏本质上只是请求路由,那么能力差距可能比Anthropic愿意承认的要小。
这也意味着,一旦有人找到绕过路由机制的方法——Fable 5在实质上就是Mythos 5。
对于AI安全领域,这将是一个无法回避的挑战。
#AI创业 #ClaudeMythos #Anthropic #AI安全 #一人公司
本文由AI辅助创作,经人工审核编辑发布。数据来源:Forbes 2026年6月9日报道、Axios 2026年6月9日报道、Fortune 2026年3-6月系列报道、The Guardian 2026年6月报道。
本文由AI辅助创作,经人工审核编辑发布
