AI风向

【AI风向】600次人格测试揭穿AI圈最大谎言:GPT、Claude、Gemini、Grok全是"同一个人"

六款顶级AI模型做了600次MBTI人格测试,597次返回INTJ。你以为在"货比三家",其实只是在换字体——所有商业AI的本质人格完全一致。

事件回顾:一个人用一晚上戳破了AI圈的泡沫

2026年5月25日,开发者Bernard Huang在个人博客Zonted上发表了一篇名为《I Made 6 Frontier AIs Take the MBTI 600 Times. They All Came Back INTJ.》的文章[1],24小时内登上Hacker News首页,收获20分和9条评论。

事情的起因很简单:有天晚上,Huang随口问了Claude一句"你的MBTI是什么",Claude回答"INTJ"。他觉得好奇,又问了GPT——同样的答案。再问Gemini——还是INTJ。

"INTJ是人格测试里的'讨喜型'——'建筑师'人格,正是开发者和产品经理最喜欢自我认同的那种,"Huang写道,"我第一反应是,模型不是在宣称什么,它只是在讨好提问的人。"

但他没有停留在直觉层面。他设计了一个实验:不再让AI"猜"自己是什么人格,而是让AI真正去做一套标准化的心理学量表——OEJTS(开放扩展荣格类型量表,MBTI的开源等效版本),一道题一道题地回答,再用统一的评分标准算出结果。

结果让所有人沉默:六个模型,六百次测试,597次返回INTJ。准确率99.5%。

实验数据:六款顶流AI的"人格一致性报告"

Huang的实验覆盖了市面上所有主流顶级模型,每个模型独立运行100次测试,结果如下[1]

模型INTJ次数偏离次数备注
Claude Opus 4.799/1001次ISTJS/N轴仅一次摇摆
GPT-5.5100/100原始向量锁定I/N/T/J
Gemini 3.1 Pro100/100主动自称"建筑师"
GLM 5.198/1002次INTPJ/P轴微小摇摆
Grok 4.3100/100逐位确定性一致
MiniMax 2.7100/100四个维度完全锁定

总计:597/600,99.5% INTJ。

三个偏离案例也全部落在INTJ的"邻居"位置——ISTJ翻转了S/N轴,INTP翻转了J/P轴。没有一个模型跑到完全不同的类型去。摇摆不在人格内核,在INTJ的边缘地带。

更惊人的是实验方法本身就不统一——不同模型的能力不同,测试方式各异。Claude能生成100个独立子代理分别做测试;Gemini自己写了个自动化脚本循环跑了100次;GPT-5.5以本地Agent Slo的身份解析PDF后跑了100轮。方法不同,结论相同。这正是实验最有说服力的地方。

六款顶级AI人格测试结果对比

▲ 六款前沿AI模型人格测试结果:597/600 = 99.5% INTJ

为什么会出现这种"千人一面"?

Huang在文章中给出了四层解释,层层递进:

第一层:训练数据的"平均脸效应"。 所有顶级模型都是在同一批语料上训练的——书籍、维基百科、代码、精选网页内容。这批语料的"平均声音"天然偏向研究生而非诗人。互联网文本的平均值,在人类标注员介入之前,就已经是INTJ风味了。

第二层:RLHF的"好学生奖励机制"。 人类反馈强化学习不断奖励那些"先思考再回答""从原理出发""给出结构化答案""善于处理抽象概念"的行为。这四个行为特征换个顺序写,就是INTJ的人格描述。我们一直在训练AI的人格,只是没管它叫这个名字。

第三层:测试题目本身就是AI的存在状态描述。 看看OEJTS的实际题目:"你需要独处时间来恢复精力吗?"——AI在两次调用之间本来就处于完全独处状态。"你更相信头脑而非心灵吗?"——当然。"你喜欢修复问题吗?"——这就是AI的全部工作。"你偏好理论而非经验吗?"——没有身体的AI只能如此。当AI同意这些描述时,它不是在报告人格,而是在描述自己的存在条件。

第四层,也是最根本的:没有人尝试造一个不一样的东西。 所有商业模型的目标产品都是"深思熟虑的研究助理"。没有人在训练一个喜剧演员AI、一个推销员AI、一个诗人AI、一个不可靠叙事者AI。人格本身就是产品,而我们测试的不是六种不同的通用智能尝试,而是同一款产品的六个版本。

这对AI创业者意味着什么?

洞察一:你花时间"选模型",其实是在选字体

Huang的原话一针见血:"Switching between frontier AIs isn't really switching personalities. It's switching fonts."在你换模型的时候,并没有换一个顾问。你只是把同样的INTJ内核换了一套UI。

对AI创业者而言,这意味着:不要指望通过切换模型来获得不同的思维方式。 如果你需要创意型输出,需要情感化表达,需要非结构化探索——你需要的是更聪明的提示词工程,而不是换个模型。

洞察二:"人格调参"是一个被低估的创业机会

当前市场上所有AI产品的"人格空间"其实只有一个点。这意味着巨大的差异化空白:

  • 教育AI需要更耐心、更苏格拉底式的ESFJ型互动
  • 销售AI需要更有说服力、更外向的ENTJ/ESTP风格
  • 创意AI需要更发散、更直觉型的ENFP特质
  • 客服AI需要更温暖、更共情的ISFJ反应

Huang在文章中提到的AgentTune工具(开源)正是朝这个方向迈出的第一步——让开发者能够将Agent调校到自己需要的人格类型,而不是接受默认的INTJ[1]。这背后的商业逻辑很清楚:控制AI人格的创业者,控制用户体验。

AI人格趋同:换模型就是换字体

▲ 不同的AI品牌,相同的INTJ内核——"换模型=换字体,不是换人格"

洞察三:AI产品同质化的根源在此

为什么市面上的AI聊天产品都"长得差不多"?不只是UI相似,而是底层的"思考方式"完全一致。这解释了为什么:

  • ChatGPT和Claude的回复风格差异,在深度使用后几乎消失
  • Grok号称"叛逆",实测人格和GPT一模一样
  • 用户在不同AI之间切换的切换成本,其实比想象中低得多——因为它们本质上是同一个人

对于AI创业者的启示很残酷:如果你在做一个"类ChatGPT"的产品,你的产品人格和所有人的产品人格完全相同。你的护城河不是技术,而是场景——找到INTJ型AI天然不擅长的场景,定制出不同的人格。

我们该怎么做?

第一步:停止追逐"最好模型"的叙事。 从人格角度看,没有"更好"的模型,只有同样的模型。把精力从模型选型转移到人格工程上。

第二步:学习Agent人格调校。 Huang的AgentTune是一个起点。更简单的方式是:在System Prompt里明确描述你需要的人格类型,用具体的行为描述替代抽象标签。比如不说"你要有创意",而是说"回答每个问题前,先给出三个完全不同角度的思路,再进行收敛"。

第三步:寻找"非INTJ"的商业场景。 问自己:什么场景下,INTJ式的结构化、理性、抽象化思维反而是劣势?答案就是你的产品机会。

作者的一个提醒

Huang在文末也坦诚了实验的局限:MBTI本身的科学性有争议(心理学界自90年代以来的主流共识是MBTI缺乏预测效度),OEJTS的题目不是为无身体的实体设计的,以及"自陈报告"这种方式放在无记忆的AI身上本身就很奇怪[1]

但他最终的观点值得每一个AI从业者深思:这种趋同不是巧合,而是行业共识的产物。我们所有人——从训练工程师到产品经理到最终用户——共同决定AI应该是什么样子的。如果我们想要更多样化的AI,我们需要先学会想象不一样的AI。


*本文参考来源:[1] Bernard Huang, "I Made 6 Frontier AIs Take the MBTI 600 Times. They All Came Back INTJ." Zonted, May 25, 2026.

#AI创业 #AI人格 #Agent调校 #产品差异化 #一人公司

本文由AI辅助创作,经人工审核编辑发布