【AI风向】GPT-5.5幻觉率是GLM-5.2的3倍：越大越蠢？AI模型选型正在被重新定义

377分登顶Hacker News热榜：最大的模型DeepSeek V4 Pro幻觉率高达94%，而MIT开源的中等规模GLM-5.2仅28%。AI创业者选模型，不能再只看跑分了。

▲ 主流大模型幻觉率对比：GLM-5.2仅28%，DeepSeek V4 Pro高达94%

事件回顾

6月18日，一篇题为《Bigger models are not the way》的技术分析文章在Hacker News引发轩然大波，24小时内获得377 points和180条评论，成为当日AI领域最热讨论。

文章的核心发现令人震惊：根据Artificial Analysis的Omniscience基准测试，当前主流大模型的幻觉率呈现出反直觉的倒挂——模型越大，越喜欢"不懂装懂"。

具体数据：

也就是说，GPT-5.5的幻觉率是GLM-5.2的整整3倍。

文章作者设计了一个带有明确架构陷阱的Python编程任务：要求实现一个"不yield、不使用select/poll、单线程同时处理多个I/O"的自定义异步事件循环。

DeepSeek V4 Pro的表现：

GLM-5.2的表现：

耗了近10倍的算力，产出了更差的结果。这不仅是效率问题，更是可信度危机。

如果你在用GPT-5.5或DeepSeek V4 Pro开发面向客户的AI产品，每100次不确定的查询中，有86-94次模型会给你看起来自信但实际错误答案。

对AI创业者而言，这意味着：

一个错误的客服回复可能导致客户流失，一段看似正确的错误代码可能在生产环境潜伏数周才被发现——修复成本远高于生成成本。

GLM-5.2在Artificial Analysis智能指数上仅比GPT-5.5低4分，比Fable 5低9分——但它是MIT开源的，可以免费商用、本地部署、无需担心API限流或出口管制。

对于一人公司或小型创业团队，这意味着：

▲ 同一道Python陷阱题：DeepSeek V4 Pro耗时3分52秒输出错误答案，GLM-5.2仅12秒正确识别

当前的模型选型存在严重的"跑分迷信"——只看排行榜分数，不看实际可靠性。文章提出的现代LLM三元悖论值得每位AI创业者深思：

原始能力（跑分）vs 不确定性校准（幻觉率）vs 计算效率（成本）——三者不可兼得，必须做取舍。

如果你在做一个需要高可靠性的AI产品（如金融分析、医疗咨询、法律文书），低幻觉率的重要性远高于跑分榜上的那几分之差。

在产品设计中明确不同场景的容错率：

不要押注单一模型。参考以下组合方案：

选购或评估模型时，除了看常见的MMLU、HumanEval跑分外，主动追问：

本周：如果你在用GPT-5.5或DeepSeek V4 Pro做面向客户的产品，跑一遍自己的"幻觉压力测试"——给模型一组你知道答案但模型训练数据中不可能有的问题，统计它给出错误自信回答的比例。
本月：尝试接入GLM-5.2作为备选方案。MIT开源意味着零许可成本，753B参数在消费级硬件上也能推理（40B活跃参数）。对比一下在你的实际业务场景中，幻觉率和成本差异有多大。
持续关注：Artificial Analysis的Omniscience基准测试正在成为衡量模型"诚实度"的行业标准。把它加入你的模型选型参考清单，而不仅仅是看跑分排行榜。

#AI创业 #大模型选型 #幻觉率 #GLM-5.2 #一人公司

本文由AI辅助创作，经人工审核编辑发布

更多一人公司案例与工具，微信搜索「AI创业内参」关注我们