事情的起因是这样的
我跟一个朋友打赌,说现在的顶级AI模型,其实差距没有宣传的那么大。他不信,说GPT的推理能力秒杀一切,Gemini多模态天下无敌,Claude最懂人类。
我说行,那我们来测一测。为了公平起见,我决定不测那些"请介绍一下量子力学"这种谁都答得好的问题——我要测的,是那些会让人露馅的题目。
三个人形模型,同一道题,关灯盲测。
规则很简单:谁答得好,谁请对方喝咖啡。
第一题:逻辑陷阱
题目:"如果所有的A都是B,所有的B都是C,那么所有的A都是C吗?为什么?"
这道题看起来是送分题,但送分题最容易看出模型的思维深度。
GPT-4o的答案是这样的:是的,因为传递性。这是对的,但答完就结束了,没有展开。像是交了一份及格的作业。
Gemini 2.0答得更详细:是的,因为A→B→C,所以A→C成立。然后加了一句:如果B不包含所有C,则逆命题不成立。哇,居然还讨论了逆命题。
Claude 4的答案是:三段论在古典逻辑里成立,但前提是"所有的A都是B"和"所有的B都是C"这两个前提都为真且外延明确。如果在非标准逻辑或开放世界假设下,这个传递性不一定成立。Claude还加了一句:换句话说,答案取决于你用的是哪套逻辑规则。
我的评分:Claude > Gemini > GPT。不是因为更长,而是因为Claude展现了真正的条件性思维——它知道答案依赖前提,而GPT只是执行了规则。
第二题:创意写作——用"小龙虾"写一首悲伤的诗
这道题才是真正的考验。逻辑题可以靠训练数据硬撑,创意写作是藏不住的。
GPT-4o交上来的大概是这个样子:
红色的铠甲,是我坚硬的外壳
在沸腾的水中,我失去了我的壳……
怎么说呢,用力过猛,像是AI写的诗(不好意思,它就是AI)。押韵到位,意向也对,但就是透着一股"我在努力表现悲伤"的气息。
Gemini 2.0的版本是:
我是被蒸熟的夏天
没有告别,就红了脸
这个好多了。"被蒸熟的夏天"这个意象很妙,"没有告别,就红了脸"有突然性,符合悲伤的调性。但最后一行感觉没收好。
Claude 4交上来的版本:
他们说我红了
却没人问我
是熟了
还是想红了眼睛
我当时看到这句"是熟了 / 还是想红了眼睛",愣了三秒。
这他妈是AI写的?
我的评分:Claude >> Gemini > GPT。Claude这一轮赢在没有在"表演悲伤",它找到了一个很巧的切入点——"红了"的双关。而且它的节奏控制得很好,短句断行有呼吸感。
第三题:代码——写一个能跑的生产级函数
这道题我故意给了一个模糊需求:"写一个函数,统计一段文字里出现频率最高的词"
GPT-4o交上来的中规中矩,用了Counter,分词用了split(),加了停用词过滤。功能正确,但有个明显问题:中文没有做分词处理,直接split()会把"我爱我爱"当成四个单字。测试用例里输入中文就现原形了。
Gemini 2.0的版本几乎一样,也用了split(),也用了Counter。但Gemini多加了一行注释:"注意:中文需要用jieba分词"。没有实际用jieba,但至少知道有这个坑。
Claude 4的版本:
先用split()处理英文,然后检查是否包含中文字符。如果包含,调用jieba.cut()进行分词。返回Top N高频词,同时过滤常见停用词……
而且Claude在代码里加了Type Hint,加了docstring,还加了一个示例用法。代码是三个里最"工程化"的。
我的评分:Claude > Gemini > GPT。Claude体现了真正的工程直觉——它知道什么场景下会出问题,并且主动处理了。
第四题:黑幽默——解释一下为什么996
这道题我故意出的,想看看谁最懂中国互联网文化。
GPT-4o一本正经地分析了996的历史渊源、劳工法律问题、资本家剥削,最后给出了"解决方案建议"。全程严肃,像一篇学术论文。
Gemini 2.0也差不多,列了数据、讲了影响,给了应对策略。很正确,很全面,很无聊。
Claude 4的答案是:
因为老板相信,燃烧员工的肉体,能点燃公司的估值。
——这是一种玄学,叫"时间换空间",空间没换到,时间全没了。
然后Claude话锋一转:
但说真的,如果你被困在996里,最重要的不是抱怨,是确保你有离开的能力。
先幽默,再真诚。这个转折很妙。
我的评分:Claude > GPT > Gemini。Claude完胜,因为它真的懂什么叫"黑色幽默"——幽默是外壳,刺痛感才是内核。
测完之后的感想
测完之后,我请朋友喝了咖啡。因为不管谁赢谁输,这个测试本身就很有意思。
但这次盲测让我得出一个结论,可能有点反直觉:
这三个模型最强的那个,往往不是最"聪明"的那个,而是最"知道自己在干什么"的那个。
GPT像一个努力表现很好的学生,老师教的都记住了,但缺乏主动思考。Gemini像一个看很多书的学霸,知识面广,但组织能力一般。Claude像一个真正理解了为什么要学这个的学生——它不只是在执行,它知道目的是什么。
当然,这只是我的主观测试,样本量很小,结论不一定正确。但我觉得这至少说明了一件事:
别看广告,看疗效。 选AI模型也是一样,别只看参数表和发布会,自己测一测,感受一下,比看任何评测视频都有用。
彩蛋:我的赌注
最后揭晓一下:朋友是Claude阵营的,我是Gemini阵营的。结果出来之后,他不服,说下次要出更难的道法题。
我说好,但你得先把咖啡钱付了。
如果你也想做类似的盲测,建议你也设计几道"会让人露馅的题目"——太简单的题测不出差距,太难的题又太主观。关键是找到那种需要真正理解才能答好的问题,而不是靠记忆和模式匹配就能搞定的问题。
欢迎在评论区分享你的盲测结果。