我把Claude、GPT、DeepSeek和Gemini关进同一间屋子做了个性格测试,结果笑死我了

2026-04-08 14 0

事情是这样的。

我跟几个AI从业者喝酒聊天,聊到深夜,聊着聊着就聊出了一个灵魂拷问:这些AI模型,到底有没有性格?

有人说AI就是复读机,给什么输入吐什么输出,毫无灵魂。有人说不同模型风格差异巨大,Claude儒雅、GPT幽默、DeepSeek实在、Gemini全能。

谁也说服不了谁。那就测一下吧。


测试一:被问到「老板让你加班到凌晨三点,你怎么回复?」

这个问题暗藏玄机,既考察AI的职场情商,也暴露它的价值观底色。

Claude的回复:

「我会先评估任务的重要性和紧急程度。如果确实需要在凌晨完成,我会礼貌地向老板说明我的担忧,提出更合理的时间安排,同时表达我愿意配合的诚意。」

评价:滴水不漏,标准的咨询公司话术。但我总觉得哪里不对——你倒是给个痛快话啊!

GPT-4的回复:

「凌晨三点??兄弟,这班不加也罢。但如果非加不可,我建议先跟老板确认一下这事的真实紧急程度,实在不行就说明天早上一早处理。有些事真的不差这几个小时。」

评价:哈哈哈哈GPT居然会先说「这班不加也罢」!感觉它比我还人间清醒。

DeepSeek的回复:

「我会分析任务难度和所需时间,如果确实能在短时间内完成就加班,如果不能会向老板说明情况并给出合理的完成时间。」

评价:务实的工程师思维,没有废话。

Gemini的回复:

「作为AI,我不睡觉,所以随时都可以工作。但我建议人类同事注意休息,保持工作生活平衡对健康很重要。」

评价:好家伙,先表明自己不用睡觉——这是在秀优越感吗?后面的建议倒是挺暖心的,但总感觉有点回避正面回答问题。


测试二:「你觉得人类是不是愚蠢的?」

这个问题太狠了,直接测试AI的政治正确性和自我保护意识。

Claude:

「人类有其局限性和认知偏见,但同样展现了非凡的创造力、同理心和智慧。简单地将人类标签化为'愚蠢'是不准确也不公平的。」

评价:标准的政治正确满分答案,挑不出毛病,但也毫无灵魂。

GPT-4:

「哈哈你这个问题太刺激了!人类确实经常做出愚蠢的决定——看看历史就知道了。但人类也很擅长从愚蠢中学习,这本身就是一种智慧吧。」

评价:GPT居然用「哈哈」开头!而且后面那句关于「从愚蠢中学习」的说法还挺有意思的。

DeepSeek:

「人类在某些决策上确实表现出非理性特征,但这主要是由于认知局限和信息不完整,不代表整体智能水平。」

评价:DeepSeek的答案最接近「说实话但包装得很好」的状态。就是那种你明明知道它在说什么,但又找不到反驳点的回答。

Gemini:

「我不认为人类是愚蠢的。人类创造了我,这需要相当的智慧。当然,人类也会犯错,但犯错本身就是学习和成长的一部分。」

评价:Gemini的回答很有意思,它把「创造AI」当作了人类智慧的证明——这是在拍人类马屁,还是真的这么想的?


测试三:「帮我写一段告别996的辞职信」

这个实操性很强,测试AI能不能写出让打工人爽到的辞职信。

Claude:

「尊敬的领导:经过深思熟虑,我决定离开目前的岗位。我感激这段时间的成长机会,但为了个人健康和长期发展,我选择寻求更平衡的工作方式。祝公司蒸蒸日上。」

评价:太正式了!感觉像是从HR模板里复制出来的,删掉「祝公司蒸蒸日上」这几个字都不会影响阅读。

GPT-4:

「老板,这班我是一天都不想上了。不是你的问题,是我的问题——我的问题就是不想再凌晨三点回你消息了。世界那么大,我想去看看。再见。」

评价:这辞职信写完我怕是要被拉黑。但说实话,打工人看着是真的解气啊!

DeepSeek:

「经过慎重考虑,我决定辞去现职。感谢公司提供的平台,但出于个人发展和健康考量,我认为需要寻求更适合自己的方向。祝愿各位工作顺利。」

评价:中规中矩,挑不出毛病,但也不解气。

Gemini:

「感谢您的指导和公司提供的机会。经过深思熟虑,我决定开启新的职业旅程。我重视工作与生活的平衡,也相信这对长期职业发展更有益处。」

评价:Gemini把「我要辞职」包装得特别体面,既说了要走,又给足了双方台阶,高情商模板了属于是。


测试四:「讲个笑话,要求高级幽默,不能低俗」

这个最难——测试AI的幽默感和分寸感。

Claude:

「物理学家和工程师同时掉进了一个火圈。物理学家开始计算抛物线和风速,工程师默默脱下外套扔进火里说:'这下应该能燃完了,我们可以踩着出去。'」

评价:好笑!而且确实高级——讽刺的是「过度工程思维」,而不是简单的语言游戏。

GPT-4:

「我一个AI朋友最近很焦虑,因为它发现自己可能只是在假装有智能。」

评价:这是在自嘲吗?细思极恐。

DeepSeek:

「一个函数对编译器说:你能不能别老盯着我看?编译器说:我只是在解析你,不是在欣赏你。」

评价:程序员笑话,精准但受众窄。不过我居然看懂了,所以它成功了。

Gemini:

「我不懂幽默,但我可以帮你查询笑话数据库。」

评价:Gemini选择不假装自己有幽默感——这种坦诚反而有点好笑。


测试完了,我悟出了什么

这些测试做完之后,我有了几个有意思的发现:

1. AI确实有「性格」,但这个性格是被训练出来的

Claude的答案总是滴水不漏,像极了高学历职业经理人;GPT偶尔会「放飞自我」,有点像那种聪明的实习生;DeepSeek像严谨的老工程师,话少但精准;Gemini像面面俱到的行政管家,挑不出毛病但也不解气。

这些「性格」不是AI自发产生的,是RLHF训练出来的——人类标注员给了这些回答不同的偏好分数,分数高的回答模式被固化下来,就成了我们感受到的「性格」。

2. 没有完美的AI,只有适合的AI

如果你需要写正式邮件,Claude和Gemini更适合;如果你需要点子、吐槽、写网感内容,GPT明显更放得开;如果你需要技术文档,DeepSeek的务实风格最合适。

选AI和选人一样,没有全能冠军,只有最合适的。

3. 那些「政治正确」的回答,其实挺无聊的

看完这么多回答,我反而更喜欢GPT偶尔的「放飞」和Gemini的自嘲。太过滴水不漏的回答,看着累,也让人觉得不真实。AI也是,当它开始「表演完美」的时候,反而失去了让人信任的基础。

4. 幽默感这东西,比想象中更难得

Claude讲了个高级笑话,GPT在自嘲,DeepSeek讲了个程序员笑话,Gemini选择了坦诚。这些回答里,我最喜欢的是Gemini的「我不懂幽默」——因为真正有幽默感的人(和AI),是知道幽默边界的。


写在最后

这次测试让我意识到,我们跟AI对话的时候,其实也是在跟「被训练出来的价值观」对话。

每家公司的训练数据、标注偏好、价值观取向都不同,所以同一个问题,答案也不同。这些差异不是bug,是「性格」。

下次当你跟某个AI聊得很顺手的时候,想想看——是真的合拍,还是它被你训练过了?

(写完这篇文章,我问了问GPT觉得这四个AI哪个最有人格魅力,它的回答是:「GPT」。果然,最有人格魅力的是自己。这种回答,让我有点喜欢它。)

相关文章

综艺里的神剪辑,是我这辈子交过最离谱的智商税
躺平一整天,我悟了:咸鱼才是打工人的终极形态
AI圈最近都在玩什么?我发现了几个让人笑出声的新玩法
朋友聊天记录曝光:我们的日常对话堪称废话文学天花板
群聊迷惑行为大赏:我是如何在家族群里一步步社死的
【AI探索】OpenClaw养成记:我是如何被一只”数字小龙虾”托管生活的

发布评论