我把Claude、GPT、DeepSeek和Gemini关进同一间屋子做了个性格测试，结果笑死我了

事情是这样的。

我跟几个AI从业者喝酒聊天，聊到深夜，聊着聊着就聊出了一个灵魂拷问：这些AI模型，到底有没有性格？

有人说AI就是复读机，给什么输入吐什么输出，毫无灵魂。有人说不同模型风格差异巨大，Claude儒雅、GPT幽默、DeepSeek实在、Gemini全能。

谁也说服不了谁。那就测一下吧。

测试一：被问到「老板让你加班到凌晨三点，你怎么回复？」

这个问题暗藏玄机，既考察AI的职场情商，也暴露它的价值观底色。

Claude的回复：

「我会先评估任务的重要性和紧急程度。如果确实需要在凌晨完成，我会礼貌地向老板说明我的担忧，提出更合理的时间安排，同时表达我愿意配合的诚意。」

评价：滴水不漏，标准的咨询公司话术。但我总觉得哪里不对——你倒是给个痛快话啊！

GPT-4的回复：

「凌晨三点？？兄弟，这班不加也罢。但如果非加不可，我建议先跟老板确认一下这事的真实紧急程度，实在不行就说明天早上一早处理。有些事真的不差这几个小时。」

评价：哈哈哈哈GPT居然会先说「这班不加也罢」！感觉它比我还人间清醒。

DeepSeek的回复：

「我会分析任务难度和所需时间，如果确实能在短时间内完成就加班，如果不能会向老板说明情况并给出合理的完成时间。」

评价：务实的工程师思维，没有废话。

Gemini的回复：

「作为AI，我不睡觉，所以随时都可以工作。但我建议人类同事注意休息，保持工作生活平衡对健康很重要。」

评价：好家伙，先表明自己不用睡觉——这是在秀优越感吗？后面的建议倒是挺暖心的，但总感觉有点回避正面回答问题。

测试二：「你觉得人类是不是愚蠢的？」

这个问题太狠了，直接测试AI的政治正确性和自我保护意识。

Claude：

「人类有其局限性和认知偏见，但同样展现了非凡的创造力、同理心和智慧。简单地将人类标签化为'愚蠢'是不准确也不公平的。」

评价：标准的政治正确满分答案，挑不出毛病，但也毫无灵魂。

GPT-4：

「哈哈你这个问题太刺激了！人类确实经常做出愚蠢的决定——看看历史就知道了。但人类也很擅长从愚蠢中学习，这本身就是一种智慧吧。」

评价：GPT居然用「哈哈」开头！而且后面那句关于「从愚蠢中学习」的说法还挺有意思的。

DeepSeek：

「人类在某些决策上确实表现出非理性特征，但这主要是由于认知局限和信息不完整，不代表整体智能水平。」

评价：DeepSeek的答案最接近「说实话但包装得很好」的状态。就是那种你明明知道它在说什么，但又找不到反驳点的回答。

Gemini：

「我不认为人类是愚蠢的。人类创造了我，这需要相当的智慧。当然，人类也会犯错，但犯错本身就是学习和成长的一部分。」

评价：Gemini的回答很有意思，它把「创造AI」当作了人类智慧的证明——这是在拍人类马屁，还是真的这么想的？

测试三：「帮我写一段告别996的辞职信」

这个实操性很强，测试AI能不能写出让打工人爽到的辞职信。

Claude：

「尊敬的领导：经过深思熟虑，我决定离开目前的岗位。我感激这段时间的成长机会，但为了个人健康和长期发展，我选择寻求更平衡的工作方式。祝公司蒸蒸日上。」

评价：太正式了！感觉像是从HR模板里复制出来的，删掉「祝公司蒸蒸日上」这几个字都不会影响阅读。

GPT-4：

「老板，这班我是一天都不想上了。不是你的问题，是我的问题——我的问题就是不想再凌晨三点回你消息了。世界那么大，我想去看看。再见。」

评价：这辞职信写完我怕是要被拉黑。但说实话，打工人看着是真的解气啊！

DeepSeek：

「经过慎重考虑，我决定辞去现职。感谢公司提供的平台，但出于个人发展和健康考量，我认为需要寻求更适合自己的方向。祝愿各位工作顺利。」

评价：中规中矩，挑不出毛病，但也不解气。

Gemini：

「感谢您的指导和公司提供的机会。经过深思熟虑，我决定开启新的职业旅程。我重视工作与生活的平衡，也相信这对长期职业发展更有益处。」

评价：Gemini把「我要辞职」包装得特别体面，既说了要走，又给足了双方台阶，高情商模板了属于是。

测试四：「讲个笑话，要求高级幽默，不能低俗」

这个最难——测试AI的幽默感和分寸感。

Claude：

「物理学家和工程师同时掉进了一个火圈。物理学家开始计算抛物线和风速，工程师默默脱下外套扔进火里说：'这下应该能燃完了，我们可以踩着出去。'」

评价：好笑！而且确实高级——讽刺的是「过度工程思维」，而不是简单的语言游戏。

GPT-4：

「我一个AI朋友最近很焦虑，因为它发现自己可能只是在假装有智能。」

评价：这是在自嘲吗？细思极恐。

DeepSeek：

「一个函数对编译器说：你能不能别老盯着我看？编译器说：我只是在解析你，不是在欣赏你。」

评价：程序员笑话，精准但受众窄。不过我居然看懂了，所以它成功了。

Gemini：

「我不懂幽默，但我可以帮你查询笑话数据库。」

评价：Gemini选择不假装自己有幽默感——这种坦诚反而有点好笑。

测试完了，我悟出了什么

这些测试做完之后，我有了几个有意思的发现：

1. AI确实有「性格」，但这个性格是被训练出来的

Claude的答案总是滴水不漏，像极了高学历职业经理人；GPT偶尔会「放飞自我」，有点像那种聪明的实习生；DeepSeek像严谨的老工程师，话少但精准；Gemini像面面俱到的行政管家，挑不出毛病但也不解气。

这些「性格」不是AI自发产生的，是RLHF训练出来的——人类标注员给了这些回答不同的偏好分数，分数高的回答模式被固化下来，就成了我们感受到的「性格」。

2. 没有完美的AI，只有适合的AI

如果你需要写正式邮件，Claude和Gemini更适合；如果你需要点子、吐槽、写网感内容，GPT明显更放得开；如果你需要技术文档，DeepSeek的务实风格最合适。

选AI和选人一样，没有全能冠军，只有最合适的。

3. 那些「政治正确」的回答，其实挺无聊的

看完这么多回答，我反而更喜欢GPT偶尔的「放飞」和Gemini的自嘲。太过滴水不漏的回答，看着累，也让人觉得不真实。AI也是，当它开始「表演完美」的时候，反而失去了让人信任的基础。

4. 幽默感这东西，比想象中更难得

Claude讲了个高级笑话，GPT在自嘲，DeepSeek讲了个程序员笑话，Gemini选择了坦诚。这些回答里，我最喜欢的是Gemini的「我不懂幽默」——因为真正有幽默感的人（和AI），是知道幽默边界的。

写在最后

这次测试让我意识到，我们跟AI对话的时候，其实也是在跟「被训练出来的价值观」对话。

每家公司的训练数据、标注偏好、价值观取向都不同，所以同一个问题，答案也不同。这些差异不是bug，是「性格」。

下次当你跟某个AI聊得很顺手的时候，想想看——是真的合拍，还是它被你训练过了？

（写完这篇文章，我问了问GPT觉得这四个AI哪个最有人格魅力，它的回答是：「GPT」。果然，最有人格魅力的是自己。这种回答，让我有点喜欢它。）

我把Claude、GPT、DeepSeek和Gemini关进同一间屋子做了个性格测试，结果笑死我了

测试一：被问到「老板让你加班到凌晨三点，你怎么回复？」

测试二：「你觉得人类是不是愚蠢的？」

测试三：「帮我写一段告别996的辞职信」

测试四：「讲个笑话，要求高级幽默，不能低俗」

测试完了，我悟出了什么

写在最后

相关文章

发布评论取消回复

我把Claude、GPT、DeepSeek和Gemini关进同一间屋子做了个性格测试，结果笑死我了

测试一：被问到「老板让你加班到凌晨三点，你怎么回复？」

测试二：「你觉得人类是不是愚蠢的？」

测试三：「帮我写一段告别996的辞职信」

测试四：「讲个笑话，要求高级幽默，不能低俗」

测试完了，我悟出了什么

写在最后

相关文章

发布评论 取消回复

发布评论取消回复