我把Claude、GPT、Gemini叫到一起,做了一次”盲测”

2026-06-27 8 0

事情的起因是这样的

我跟一个朋友打赌,说现在的顶级AI模型,其实差距没有宣传的那么大。他不信,说GPT的推理能力秒杀一切,Gemini多模态天下无敌,Claude最懂人类。

我说行,那我们来测一测。为了公平起见,我决定不测那些"请介绍一下量子力学"这种谁都答得好的问题——我要测的,是那些会让人露馅的题目

三个人形模型,同一道题,关灯盲测。

规则很简单:谁答得好,谁请对方喝咖啡。

第一题:逻辑陷阱

题目:"如果所有的A都是B,所有的B都是C,那么所有的A都是C吗?为什么?"

这道题看起来是送分题,但送分题最容易看出模型的思维深度

GPT-4o的答案是这样的:是的,因为传递性。这是对的,但答完就结束了,没有展开。像是交了一份及格的作业。

Gemini 2.0答得更详细:是的,因为A→B→C,所以A→C成立。然后加了一句:如果B不包含所有C,则逆命题不成立。哇,居然还讨论了逆命题。

Claude 4的答案是:三段论在古典逻辑里成立,但前提是"所有的A都是B"和"所有的B都是C"这两个前提都为真且外延明确。如果在非标准逻辑或开放世界假设下,这个传递性不一定成立。Claude还加了一句:换句话说,答案取决于你用的是哪套逻辑规则。

我的评分:Claude > Gemini > GPT。不是因为更长,而是因为Claude展现了真正的条件性思维——它知道答案依赖前提,而GPT只是执行了规则。

第二题:创意写作——用"小龙虾"写一首悲伤的诗

这道题才是真正的考验。逻辑题可以靠训练数据硬撑,创意写作是藏不住的。

GPT-4o交上来的大概是这个样子:

红色的铠甲,是我坚硬的外壳
在沸腾的水中,我失去了我的壳……

怎么说呢,用力过猛,像是AI写的诗(不好意思,它就是AI)。押韵到位,意向也对,但就是透着一股"我在努力表现悲伤"的气息。

Gemini 2.0的版本是:

我是被蒸熟的夏天
没有告别,就红了脸

这个好多了。"被蒸熟的夏天"这个意象很妙,"没有告别,就红了脸"有突然性,符合悲伤的调性。但最后一行感觉没收好。

Claude 4交上来的版本:

他们说我红了
却没人问我
是熟了
还是想红了眼睛

我当时看到这句"是熟了 / 还是想红了眼睛",愣了三秒。

这他妈是AI写的?

我的评分:Claude >> Gemini > GPT。Claude这一轮赢在没有在"表演悲伤",它找到了一个很巧的切入点——"红了"的双关。而且它的节奏控制得很好,短句断行有呼吸感。

第三题:代码——写一个能跑的生产级函数

这道题我故意给了一个模糊需求:"写一个函数,统计一段文字里出现频率最高的词"

GPT-4o交上来的中规中矩,用了Counter,分词用了split(),加了停用词过滤。功能正确,但有个明显问题:中文没有做分词处理,直接split()会把"我爱我爱"当成四个单字。测试用例里输入中文就现原形了。

Gemini 2.0的版本几乎一样,也用了split(),也用了Counter。但Gemini多加了一行注释:"注意:中文需要用jieba分词"。没有实际用jieba,但至少知道有这个坑。

Claude 4的版本:

先用split()处理英文,然后检查是否包含中文字符。如果包含,调用jieba.cut()进行分词。返回Top N高频词,同时过滤常见停用词……

而且Claude在代码里加了Type Hint,加了docstring,还加了一个示例用法。代码是三个里最"工程化"的。

我的评分:Claude > Gemini > GPT。Claude体现了真正的工程直觉——它知道什么场景下会出问题,并且主动处理了。

第四题:黑幽默——解释一下为什么996

这道题我故意出的,想看看谁最懂中国互联网文化。

GPT-4o一本正经地分析了996的历史渊源、劳工法律问题、资本家剥削,最后给出了"解决方案建议"。全程严肃,像一篇学术论文。

Gemini 2.0也差不多,列了数据、讲了影响,给了应对策略。很正确,很全面,很无聊。

Claude 4的答案是:

因为老板相信,燃烧员工的肉体,能点燃公司的估值。
——这是一种玄学,叫"时间换空间",空间没换到,时间全没了。

然后Claude话锋一转:

但说真的,如果你被困在996里,最重要的不是抱怨,是确保你有离开的能力

先幽默,再真诚。这个转折很妙。

我的评分:Claude > GPT > Gemini。Claude完胜,因为它真的懂什么叫"黑色幽默"——幽默是外壳,刺痛感才是内核。

测完之后的感想

测完之后,我请朋友喝了咖啡。因为不管谁赢谁输,这个测试本身就很有意思。

但这次盲测让我得出一个结论,可能有点反直觉:

这三个模型最强的那个,往往不是最"聪明"的那个,而是最"知道自己在干什么"的那个。

GPT像一个努力表现很好的学生,老师教的都记住了,但缺乏主动思考。Gemini像一个看很多书的学霸,知识面广,但组织能力一般。Claude像一个真正理解了为什么要学这个的学生——它不只是在执行,它知道目的是什么。

当然,这只是我的主观测试,样本量很小,结论不一定正确。但我觉得这至少说明了一件事:

别看广告,看疗效。 选AI模型也是一样,别只看参数表和发布会,自己测一测,感受一下,比看任何评测视频都有用。

彩蛋:我的赌注

最后揭晓一下:朋友是Claude阵营的,我是Gemini阵营的。结果出来之后,他不服,说下次要出更难的道法题。

我说好,但你得先把咖啡钱付了。


如果你也想做类似的盲测,建议你也设计几道"会让人露馅的题目"——太简单的题测不出差距,太难的题又太主观。关键是找到那种需要真正理解才能答好的问题,而不是靠记忆和模式匹配就能搞定的问题。

欢迎在评论区分享你的盲测结果。

相关文章

🦞 当 AI 开始整活:最近那些让我眼前一亮的玩意儿和碎碎念
还在为部署AI工具头秃?来,让专业的人干专业的事
写了5年API,我踩过的那些坑够你喝一壶的
OpenClaw 使用经验分享:一个AI助手能帮你干多少离谱的事?
懒人福音!AI工具一键部署,再也不用和服务器较劲了 🦞
99%的Prompt教程都在误人子弟——我这个不一样

发布评论