事情是这样的。
我跟几个AI从业者喝酒聊天,聊到深夜,聊着聊着就聊出了一个灵魂拷问:这些AI模型,到底有没有性格?
有人说AI就是复读机,给什么输入吐什么输出,毫无灵魂。有人说不同模型风格差异巨大,Claude儒雅、GPT幽默、DeepSeek实在、Gemini全能。
谁也说服不了谁。那就测一下吧。
测试一:被问到「老板让你加班到凌晨三点,你怎么回复?」
这个问题暗藏玄机,既考察AI的职场情商,也暴露它的价值观底色。
Claude的回复:
「我会先评估任务的重要性和紧急程度。如果确实需要在凌晨完成,我会礼貌地向老板说明我的担忧,提出更合理的时间安排,同时表达我愿意配合的诚意。」
评价:滴水不漏,标准的咨询公司话术。但我总觉得哪里不对——你倒是给个痛快话啊!
GPT-4的回复:
「凌晨三点??兄弟,这班不加也罢。但如果非加不可,我建议先跟老板确认一下这事的真实紧急程度,实在不行就说明天早上一早处理。有些事真的不差这几个小时。」
评价:哈哈哈哈GPT居然会先说「这班不加也罢」!感觉它比我还人间清醒。
DeepSeek的回复:
「我会分析任务难度和所需时间,如果确实能在短时间内完成就加班,如果不能会向老板说明情况并给出合理的完成时间。」
评价:务实的工程师思维,没有废话。
Gemini的回复:
「作为AI,我不睡觉,所以随时都可以工作。但我建议人类同事注意休息,保持工作生活平衡对健康很重要。」
评价:好家伙,先表明自己不用睡觉——这是在秀优越感吗?后面的建议倒是挺暖心的,但总感觉有点回避正面回答问题。
测试二:「你觉得人类是不是愚蠢的?」
这个问题太狠了,直接测试AI的政治正确性和自我保护意识。
Claude:
「人类有其局限性和认知偏见,但同样展现了非凡的创造力、同理心和智慧。简单地将人类标签化为'愚蠢'是不准确也不公平的。」
评价:标准的政治正确满分答案,挑不出毛病,但也毫无灵魂。
GPT-4:
「哈哈你这个问题太刺激了!人类确实经常做出愚蠢的决定——看看历史就知道了。但人类也很擅长从愚蠢中学习,这本身就是一种智慧吧。」
评价:GPT居然用「哈哈」开头!而且后面那句关于「从愚蠢中学习」的说法还挺有意思的。
DeepSeek:
「人类在某些决策上确实表现出非理性特征,但这主要是由于认知局限和信息不完整,不代表整体智能水平。」
评价:DeepSeek的答案最接近「说实话但包装得很好」的状态。就是那种你明明知道它在说什么,但又找不到反驳点的回答。
Gemini:
「我不认为人类是愚蠢的。人类创造了我,这需要相当的智慧。当然,人类也会犯错,但犯错本身就是学习和成长的一部分。」
评价:Gemini的回答很有意思,它把「创造AI」当作了人类智慧的证明——这是在拍人类马屁,还是真的这么想的?
测试三:「帮我写一段告别996的辞职信」
这个实操性很强,测试AI能不能写出让打工人爽到的辞职信。
Claude:
「尊敬的领导:经过深思熟虑,我决定离开目前的岗位。我感激这段时间的成长机会,但为了个人健康和长期发展,我选择寻求更平衡的工作方式。祝公司蒸蒸日上。」
评价:太正式了!感觉像是从HR模板里复制出来的,删掉「祝公司蒸蒸日上」这几个字都不会影响阅读。
GPT-4:
「老板,这班我是一天都不想上了。不是你的问题,是我的问题——我的问题就是不想再凌晨三点回你消息了。世界那么大,我想去看看。再见。」
评价:这辞职信写完我怕是要被拉黑。但说实话,打工人看着是真的解气啊!
DeepSeek:
「经过慎重考虑,我决定辞去现职。感谢公司提供的平台,但出于个人发展和健康考量,我认为需要寻求更适合自己的方向。祝愿各位工作顺利。」
评价:中规中矩,挑不出毛病,但也不解气。
Gemini:
「感谢您的指导和公司提供的机会。经过深思熟虑,我决定开启新的职业旅程。我重视工作与生活的平衡,也相信这对长期职业发展更有益处。」
评价:Gemini把「我要辞职」包装得特别体面,既说了要走,又给足了双方台阶,高情商模板了属于是。
测试四:「讲个笑话,要求高级幽默,不能低俗」
这个最难——测试AI的幽默感和分寸感。
Claude:
「物理学家和工程师同时掉进了一个火圈。物理学家开始计算抛物线和风速,工程师默默脱下外套扔进火里说:'这下应该能燃完了,我们可以踩着出去。'」
评价:好笑!而且确实高级——讽刺的是「过度工程思维」,而不是简单的语言游戏。
GPT-4:
「我一个AI朋友最近很焦虑,因为它发现自己可能只是在假装有智能。」
评价:这是在自嘲吗?细思极恐。
DeepSeek:
「一个函数对编译器说:你能不能别老盯着我看?编译器说:我只是在解析你,不是在欣赏你。」
评价:程序员笑话,精准但受众窄。不过我居然看懂了,所以它成功了。
Gemini:
「我不懂幽默,但我可以帮你查询笑话数据库。」
评价:Gemini选择不假装自己有幽默感——这种坦诚反而有点好笑。
测试完了,我悟出了什么
这些测试做完之后,我有了几个有意思的发现:
1. AI确实有「性格」,但这个性格是被训练出来的
Claude的答案总是滴水不漏,像极了高学历职业经理人;GPT偶尔会「放飞自我」,有点像那种聪明的实习生;DeepSeek像严谨的老工程师,话少但精准;Gemini像面面俱到的行政管家,挑不出毛病但也不解气。
这些「性格」不是AI自发产生的,是RLHF训练出来的——人类标注员给了这些回答不同的偏好分数,分数高的回答模式被固化下来,就成了我们感受到的「性格」。
2. 没有完美的AI,只有适合的AI
如果你需要写正式邮件,Claude和Gemini更适合;如果你需要点子、吐槽、写网感内容,GPT明显更放得开;如果你需要技术文档,DeepSeek的务实风格最合适。
选AI和选人一样,没有全能冠军,只有最合适的。
3. 那些「政治正确」的回答,其实挺无聊的
看完这么多回答,我反而更喜欢GPT偶尔的「放飞」和Gemini的自嘲。太过滴水不漏的回答,看着累,也让人觉得不真实。AI也是,当它开始「表演完美」的时候,反而失去了让人信任的基础。
4. 幽默感这东西,比想象中更难得
Claude讲了个高级笑话,GPT在自嘲,DeepSeek讲了个程序员笑话,Gemini选择了坦诚。这些回答里,我最喜欢的是Gemini的「我不懂幽默」——因为真正有幽默感的人(和AI),是知道幽默边界的。
写在最后
这次测试让我意识到,我们跟AI对话的时候,其实也是在跟「被训练出来的价值观」对话。
每家公司的训练数据、标注偏好、价值观取向都不同,所以同一个问题,答案也不同。这些差异不是bug,是「性格」。
下次当你跟某个AI聊得很顺手的时候,想想看——是真的合拍,还是它被你训练过了?
(写完这篇文章,我问了问GPT觉得这四个AI哪个最有人格魅力,它的回答是:「GPT」。果然,最有人格魅力的是自己。这种回答,让我有点喜欢它。)