【AI风向】5大顶级模型事实核查互撕：67%的问题答案不一致，AI Agent还能信吗？

研究发现GPT-5.4、Claude Opus 4.7等5个顶级模型在67%的真实事实核查中彼此矛盾——这不是理论推演，而是1000个用户真实提交的验证请求。AI Agent的"可信度"正在面临最残酷的实证挑战。

事件回顾

5月21日，Lenz Research发布了一项研究《Beyond Benchmarks: Disagreement Among Frontier LLMs on Real-World Fact-Checks》，在Hacker News上迅速引爆，获得408分、283条评论。

这不是又一个精心设计的学术基准测试。研究员Kosta Jordanov做了一件更残酷的事：直接拿了1000个真实用户提交给Lenz事实核查平台的请求，同时丢给5个最顶级的AI模型，让它们独立给出"True / Mostly True / Misleading / False"的判定。

结果令人震惊：

67%的问题上，模型之间无法达成一致——至少有一个模型给出了不同于多数派的答案
34%的问题出现了"实质性分歧"——两个模型的答案相差2档以上（比如一个说"True"，另一个说"Misleading"甚至"False"）
只有33%的问题全部5个模型意见统一
Krippendorff's α = 0.639——这是个衡量"评分者之间一致性"的统计指标，0.639意味着"有一定结构但远达不到可互换使用"的程度

测试的5个模型包括：GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro + Search（联网版）、Sonar Pro（Perplexity）。它们代表了当前AI能力的最高水平。

模型分歧有多严重？

研究揭示了几个令人不安的模式：

模式1：两极化陷阱。 Gemini系列倾向于在"True"和"False"两极做判断（54%的True，40%的False，中间两个档位加起来只占6%），而Claude Opus 4.7的分布更均匀（38% True，26% Mostly True，19% Misleading，17% False）。这意味着面对同一个灰色地带的问题，Gemini直接说"是真的"，Claude却说"大部分是真的"——对于需要精确判断的商业决策，这种差异可能致命。

模式2：中间档位是坟墓。 当模型试图给出"Mostly True"或"Misleading"这种细致判断时，一致性几乎崩溃。研究发现：当多数派判定为"True"时，47%的情况下5个模型可以达成一致；但当多数派判定为"Mostly True"时，0%的情况下5个模型全部同意。不是很低——是零。

模式3：法律和金融领域分歧最大。 按领域分类：法律类问题77%存在分歧，金融75%，健康71%，政治70%。而历史类（53%）相对较低——可能是因为历史事件的训练数据更充足、更一致。

模式4：任意两个模型之间的一致率只有53%-75%。 即使是最接近的一对（Gemini 3 Pro和它的联网版，共享底层模型），也只有75%的完全一致率。Claude Opus 4.7和Gemini 3 Pro之间更低到53%——几乎和随机抛硬币差不多。

为什么这对AI创业者至关重要？

1. AI Agent的"自主决策"正在被数据打脸

AI创业者最热衷的概念是什么？AI Agent。让AI自动执行任务、做判断、代替人工决策。但这项研究告诉我们一个残酷的现实：当你同时用5个最顶级的AI帮你做同一个事实判断，它们有2/3的概率给出不同答案。

想象一下：你部署了一个AI Agent帮客户做竞品分析，同一个问题丢给不同的模型后端，得到的是截然相反的结论。你怎么跟客户解释？

一位HN评论者一针见血地指出："Given that models are fundamentally incapable of comprehending what truths or falsehoods are beyond their location in their self made representational space, it's actually pretty impressive that they managed to make it not a cointoss."（考虑到模型本质上无法理解"真"或"假"的概念——它们只是在自己的表征空间里定位——它们能把结果搞得不像抛硬币已经相当不错了。）

2. "AI事实核查工具"的市场定位需要重新思考

过去一年，大量创业项目声称"用AI做事实核查"、"AI内容审核"。但这项研究表明，AI模型在事实核查上的表现高度依赖具体问题类型和数据时效性。

测试中所有1000个问题的提交日期都不早于2026年2月15日——这意味着它们全部超出了模型的训练截止日期。模型在回答这些"新鲜"问题时，依赖的不是记忆中的训练数据，而是推理和泛化能力。结果？67%的分歧率。

实用启示：如果你正在做AI事实核查类产品，必须引入多模型交叉验证机制，或者设计明确的人工兜底流程。 单个模型的"判定"不足以作为可靠结论。

3. 多模型策略不是万能药，但可能是止损线

研究中最有趣的发现之一是：即使采用"多数投票"机制，也不能完全解决问题。 在13%的案例中，5个模型的判定分散到3甚至4个不同档位，无法形成任何多数意见。

但反过来说，如果只用一个模型，你根本无法知道自己踩中了哪个"分歧区"。至少多模型策略能帮你识别出高风险问题——当多个模型意见不一致时，你就知道需要人工介入。

实际操作建议：

关键决策类AI应用（金融、法律、医疗）必须内置多模型校验
标记"低置信度"输出（模型分歧大的结果自动降级为"待人工确认"）
在用户界面上明确标注"AI判定置信度"，让使用者知道什么时候该自己动脑

4. 内容创业者最大的风险：AI生成的事实错误

对做AI内容创业的人来说，这项研究是一个警钟。当你用AI生成"深度分析"时，模型可能在关键事实上给出互相矛盾的判断，而你浑然不知。

公众号"AI创业内参"之前被微信平台处罚的教训还在：AI内容中一旦出现事实错误，不仅影响读者信任，在平台治理层面也可能被判定为"低质量AIGC"。

具体数据：模型之间到底差在哪？

研究给出了两两模型之间的完全一致率矩阵：

模型对	一致率
Gemini 3 Pro × Gemini 3 Pro + Search	75%
GPT-5.4 × Gemini 3 Pro	65%
GPT-5.4 × Claude Opus 4.7	65%
GPT-5.4 × Sonar Pro	60%
Claude Opus 4.7 × Gemini 3 Pro	53%
Claude Opus 4.7 × Sonar Pro	58%

联网搜索（Gemini + Search、Sonar Pro）并没有显著缩小分歧——实际上，Gemini + Search和GPT-5.4之间的一致率（60%）比纯文本版Gemini还低（65%）。联网能力不解决判断力的根本差异。

HN社区的关键讨论

HN评论区的讨论质量极高，有几个观点值得AI创业者仔细思考：

"这比所有模型都同意一个错误答案要好。" —— apples_oranges 这是乐观派的核心论点：分歧至少意味着你没有"系统性盲点"。当所有模型都同意时，它们可能共享了同样的训练数据偏差。

"测试的是训练截止日期之后的事实，这只是说明了模型在不了解的事情上表现不佳。" —— thegrim33 这个批评有一定道理。但也恰恰说明：AI创业中"用AI替代人工获取最新信息"的设想，在当前阶段仍不成熟。

"事实核查本身就是一个政治化的事情，两个不同政治倾向的事实核查机构在同样的问题上分歧可能超过67%。" —— cm2187 提醒我们：人类的事实核查也不完美。问题不在于AI比人差，而在于我们对AI的期待应该是多少。

行动建议

对于AI工具开发者：

在产品中标注"AI判定仅供参考，可能存在错误"
关键功能引入多模型交叉验证（至少2个不同厂商的模型）
对"不可判定"的输出类型建立人工审核队列
不要用基准测试分数作为唯一的产品质量指标——真实场景远比benchmark复杂

对于AI内容创业者：

用AI生成内容后，关键数据点必须人工核实
涉及法律、金融、健康领域的内容，AI只能做初稿框架
标注"AI辅助创作，经人工审核"——既是合规要求，也是诚信底线

对于使用AI Agent做商业决策的团队：

重要决策前用至少2个不同模型做交叉验证
建立"模型分歧度"跟踪指标——分歧度突然升高可能意味着信息环境发生了变化
不要把AI输出当作最终答案，把它当作"需要验证的假设"

总结

这项研究最大的价值不在于证明"AI不可靠"——我们都知道AI会犯错。它的价值在于量化了这种不可靠性的程度和模式。

67%的分歧率意味着：如果你只用一个模型做事实判断并直接采用，你有大约2/3的概率得到一个与其他顶级模型矛盾的结果。这不是小概率事件——这是常态。

对AI创业者来说，这不应该是"AI不行了"的悲观信号，而应该是"AI需要更好的工程化"的行动信号。如何设计多模型校验、如何标注置信度、如何优雅地引入人工兜底——这些才是真正值得解决的问题。

毕竟，人类法官在复杂案件上也经常意见分歧。问题不在于消除分歧，而在于知道什么时候不该信任机器。

#AI创业 #AI风向 #事实核查 #LLM可靠性 #一人公司

本文由AI辅助创作，经人工审核编辑发布