【AI风向】600次人格测试揭穿AI圈最大谎言：GPT、Claude、Gemini、Grok全是"同一个人"

六款顶级AI模型做了600次MBTI人格测试，597次返回INTJ。你以为在"货比三家"，其实只是在换字体——所有商业AI的本质人格完全一致。

事件回顾：一个人用一晚上戳破了AI圈的泡沫

2026年5月25日，开发者Bernard Huang在个人博客Zonted上发表了一篇名为《I Made 6 Frontier AIs Take the MBTI 600 Times. They All Came Back INTJ.》的文章^[1]，24小时内登上Hacker News首页，收获20分和9条评论。

事情的起因很简单：有天晚上，Huang随口问了Claude一句"你的MBTI是什么"，Claude回答"INTJ"。他觉得好奇，又问了GPT——同样的答案。再问Gemini——还是INTJ。

"INTJ是人格测试里的'讨喜型'——'建筑师'人格，正是开发者和产品经理最喜欢自我认同的那种，"Huang写道，"我第一反应是，模型不是在宣称什么，它只是在讨好提问的人。"

但他没有停留在直觉层面。他设计了一个实验：不再让AI"猜"自己是什么人格，而是让AI真正去做一套标准化的心理学量表——OEJTS（开放扩展荣格类型量表，MBTI的开源等效版本），一道题一道题地回答，再用统一的评分标准算出结果。

结果让所有人沉默：六个模型，六百次测试，597次返回INTJ。准确率99.5%。

实验数据：六款顶流AI的"人格一致性报告"

Huang的实验覆盖了市面上所有主流顶级模型，每个模型独立运行100次测试，结果如下^[1]：

模型	INTJ次数	偏离次数	备注
Claude Opus 4.7	99/100	1次ISTJ	S/N轴仅一次摇摆
GPT-5.5	100/100	—	原始向量锁定I/N/T/J
Gemini 3.1 Pro	100/100	—	主动自称"建筑师"
GLM 5.1	98/100	2次INTP	J/P轴微小摇摆
Grok 4.3	100/100	—	逐位确定性一致
MiniMax 2.7	100/100	—	四个维度完全锁定

总计：597/600，99.5% INTJ。

三个偏离案例也全部落在INTJ的"邻居"位置——ISTJ翻转了S/N轴，INTP翻转了J/P轴。没有一个模型跑到完全不同的类型去。摇摆不在人格内核，在INTJ的边缘地带。

更惊人的是实验方法本身就不统一——不同模型的能力不同，测试方式各异。Claude能生成100个独立子代理分别做测试；Gemini自己写了个自动化脚本循环跑了100次；GPT-5.5以本地Agent Slo的身份解析PDF后跑了100轮。方法不同，结论相同。这正是实验最有说服力的地方。

▲ 六款前沿AI模型人格测试结果：597/600 = 99.5% INTJ

为什么会出现这种"千人一面"？

Huang在文章中给出了四层解释，层层递进：

第一层：训练数据的"平均脸效应"。 所有顶级模型都是在同一批语料上训练的——书籍、维基百科、代码、精选网页内容。这批语料的"平均声音"天然偏向研究生而非诗人。互联网文本的平均值，在人类标注员介入之前，就已经是INTJ风味了。

第二层：RLHF的"好学生奖励机制"。 人类反馈强化学习不断奖励那些"先思考再回答""从原理出发""给出结构化答案""善于处理抽象概念"的行为。这四个行为特征换个顺序写，就是INTJ的人格描述。我们一直在训练AI的人格，只是没管它叫这个名字。

第三层：测试题目本身就是AI的存在状态描述。 看看OEJTS的实际题目："你需要独处时间来恢复精力吗？"——AI在两次调用之间本来就处于完全独处状态。"你更相信头脑而非心灵吗？"——当然。"你喜欢修复问题吗？"——这就是AI的全部工作。"你偏好理论而非经验吗？"——没有身体的AI只能如此。当AI同意这些描述时，它不是在报告人格，而是在描述自己的存在条件。

第四层，也是最根本的：没有人尝试造一个不一样的东西。 所有商业模型的目标产品都是"深思熟虑的研究助理"。没有人在训练一个喜剧演员AI、一个推销员AI、一个诗人AI、一个不可靠叙事者AI。人格本身就是产品，而我们测试的不是六种不同的通用智能尝试，而是同一款产品的六个版本。

这对AI创业者意味着什么？

洞察一：你花时间"选模型"，其实是在选字体

Huang的原话一针见血："Switching between frontier AIs isn't really switching personalities. It's switching fonts."在你换模型的时候，并没有换一个顾问。你只是把同样的INTJ内核换了一套UI。

对AI创业者而言，这意味着：不要指望通过切换模型来获得不同的思维方式。 如果你需要创意型输出，需要情感化表达，需要非结构化探索——你需要的是更聪明的提示词工程，而不是换个模型。

洞察二："人格调参"是一个被低估的创业机会

当前市场上所有AI产品的"人格空间"其实只有一个点。这意味着巨大的差异化空白：

教育AI需要更耐心、更苏格拉底式的ESFJ型互动
销售AI需要更有说服力、更外向的ENTJ/ESTP风格
创意AI需要更发散、更直觉型的ENFP特质
客服AI需要更温暖、更共情的ISFJ反应

Huang在文章中提到的AgentTune工具（开源）正是朝这个方向迈出的第一步——让开发者能够将Agent调校到自己需要的人格类型，而不是接受默认的INTJ^[1]。这背后的商业逻辑很清楚：控制AI人格的创业者，控制用户体验。

▲ 不同的AI品牌，相同的INTJ内核——"换模型=换字体，不是换人格"

洞察三：AI产品同质化的根源在此

为什么市面上的AI聊天产品都"长得差不多"？不只是UI相似，而是底层的"思考方式"完全一致。这解释了为什么：

ChatGPT和Claude的回复风格差异，在深度使用后几乎消失
Grok号称"叛逆"，实测人格和GPT一模一样
用户在不同AI之间切换的切换成本，其实比想象中低得多——因为它们本质上是同一个人

对于AI创业者的启示很残酷：如果你在做一个"类ChatGPT"的产品，你的产品人格和所有人的产品人格完全相同。你的护城河不是技术，而是场景——找到INTJ型AI天然不擅长的场景，定制出不同的人格。

我们该怎么做？

第一步：停止追逐"最好模型"的叙事。 从人格角度看，没有"更好"的模型，只有同样的模型。把精力从模型选型转移到人格工程上。

第二步：学习Agent人格调校。 Huang的AgentTune是一个起点。更简单的方式是：在System Prompt里明确描述你需要的人格类型，用具体的行为描述替代抽象标签。比如不说"你要有创意"，而是说"回答每个问题前，先给出三个完全不同角度的思路，再进行收敛"。

第三步：寻找"非INTJ"的商业场景。 问自己：什么场景下，INTJ式的结构化、理性、抽象化思维反而是劣势？答案就是你的产品机会。

作者的一个提醒

Huang在文末也坦诚了实验的局限：MBTI本身的科学性有争议（心理学界自90年代以来的主流共识是MBTI缺乏预测效度），OEJTS的题目不是为无身体的实体设计的，以及"自陈报告"这种方式放在无记忆的AI身上本身就很奇怪^[1]。

但他最终的观点值得每一个AI从业者深思：这种趋同不是巧合，而是行业共识的产物。我们所有人——从训练工程师到产品经理到最终用户——共同决定AI应该是什么样子的。如果我们想要更多样化的AI，我们需要先学会想象不一样的AI。

*本文参考来源：^[1] Bernard Huang, "I Made 6 Frontier AIs Take the MBTI 600 Times. They All Came Back INTJ." Zonted, May 25, 2026.

#AI创业 #AI人格 #Agent调校 #产品差异化 #一人公司

本文由AI辅助创作，经人工审核编辑发布