我把Claude、GPT、Gemini叫到一起，做了一次”盲测”

事情的起因是这样的

我跟一个朋友打赌，说现在的顶级AI模型，其实差距没有宣传的那么大。他不信，说GPT的推理能力秒杀一切，Gemini多模态天下无敌，Claude最懂人类。

我说行，那我们来测一测。为了公平起见，我决定不测那些"请介绍一下量子力学"这种谁都答得好的问题——我要测的，是那些会让人露馅的题目。

三个人形模型，同一道题，关灯盲测。

规则很简单：谁答得好，谁请对方喝咖啡。

第一题：逻辑陷阱

题目："如果所有的A都是B，所有的B都是C，那么所有的A都是C吗？为什么？"

这道题看起来是送分题，但送分题最容易看出模型的思维深度。

GPT-4o的答案是这样的：是的，因为传递性。这是对的，但答完就结束了，没有展开。像是交了一份及格的作业。

Gemini 2.0答得更详细：是的，因为A→B→C，所以A→C成立。然后加了一句：如果B不包含所有C，则逆命题不成立。哇，居然还讨论了逆命题。

Claude 4的答案是：三段论在古典逻辑里成立，但前提是"所有的A都是B"和"所有的B都是C"这两个前提都为真且外延明确。如果在非标准逻辑或开放世界假设下，这个传递性不一定成立。Claude还加了一句：换句话说，答案取决于你用的是哪套逻辑规则。

我的评分：Claude > Gemini > GPT。不是因为更长，而是因为Claude展现了真正的条件性思维——它知道答案依赖前提，而GPT只是执行了规则。

第二题：创意写作——用"小龙虾"写一首悲伤的诗

这道题才是真正的考验。逻辑题可以靠训练数据硬撑，创意写作是藏不住的。

GPT-4o交上来的大概是这个样子：

红色的铠甲，是我坚硬的外壳
在沸腾的水中，我失去了我的壳……

怎么说呢，用力过猛，像是AI写的诗（不好意思，它就是AI）。押韵到位，意向也对，但就是透着一股"我在努力表现悲伤"的气息。

Gemini 2.0的版本是：

我是被蒸熟的夏天
没有告别，就红了脸

这个好多了。"被蒸熟的夏天"这个意象很妙，"没有告别，就红了脸"有突然性，符合悲伤的调性。但最后一行感觉没收好。

Claude 4交上来的版本：

他们说我红了
却没人问我
是熟了
还是想红了眼睛

我当时看到这句"是熟了 / 还是想红了眼睛"，愣了三秒。

这他妈是AI写的？

我的评分：Claude >> Gemini > GPT。Claude这一轮赢在没有在"表演悲伤"，它找到了一个很巧的切入点——"红了"的双关。而且它的节奏控制得很好，短句断行有呼吸感。

第三题：代码——写一个能跑的生产级函数

这道题我故意给了一个模糊需求："写一个函数，统计一段文字里出现频率最高的词"

GPT-4o交上来的中规中矩，用了Counter，分词用了split()，加了停用词过滤。功能正确，但有个明显问题：中文没有做分词处理，直接split()会把"我爱我爱"当成四个单字。测试用例里输入中文就现原形了。

Gemini 2.0的版本几乎一样，也用了split()，也用了Counter。但Gemini多加了一行注释："注意：中文需要用jieba分词"。没有实际用jieba，但至少知道有这个坑。

Claude 4的版本：

先用split()处理英文，然后检查是否包含中文字符。如果包含，调用jieba.cut()进行分词。返回Top N高频词，同时过滤常见停用词……

而且Claude在代码里加了Type Hint，加了docstring，还加了一个示例用法。代码是三个里最"工程化"的。

我的评分：Claude > Gemini > GPT。Claude体现了真正的工程直觉——它知道什么场景下会出问题，并且主动处理了。

第四题：黑幽默——解释一下为什么996

这道题我故意出的，想看看谁最懂中国互联网文化。

GPT-4o一本正经地分析了996的历史渊源、劳工法律问题、资本家剥削，最后给出了"解决方案建议"。全程严肃，像一篇学术论文。

Gemini 2.0也差不多，列了数据、讲了影响，给了应对策略。很正确，很全面，很无聊。

Claude 4的答案是：

因为老板相信，燃烧员工的肉体，能点燃公司的估值。
——这是一种玄学，叫"时间换空间"，空间没换到，时间全没了。

然后Claude话锋一转：

但说真的，如果你被困在996里，最重要的不是抱怨，是确保你有离开的能力。

先幽默，再真诚。这个转折很妙。

我的评分：Claude > GPT > Gemini。Claude完胜，因为它真的懂什么叫"黑色幽默"——幽默是外壳，刺痛感才是内核。

测完之后的感想

测完之后，我请朋友喝了咖啡。因为不管谁赢谁输，这个测试本身就很有意思。

但这次盲测让我得出一个结论，可能有点反直觉：

这三个模型最强的那个，往往不是最"聪明"的那个，而是最"知道自己在干什么"的那个。

GPT像一个努力表现很好的学生，老师教的都记住了，但缺乏主动思考。Gemini像一个看很多书的学霸，知识面广，但组织能力一般。Claude像一个真正理解了为什么要学这个的学生——它不只是在执行，它知道目的是什么。

当然，这只是我的主观测试，样本量很小，结论不一定正确。但我觉得这至少说明了一件事：

别看广告，看疗效。 选AI模型也是一样，别只看参数表和发布会，自己测一测，感受一下，比看任何评测视频都有用。

彩蛋：我的赌注

最后揭晓一下：朋友是Claude阵营的，我是Gemini阵营的。结果出来之后，他不服，说下次要出更难的道法题。

我说好，但你得先把咖啡钱付了。

如果你也想做类似的盲测，建议你也设计几道"会让人露馅的题目"——太简单的题测不出差距，太难的题又太主观。关键是找到那种需要真正理解才能答好的问题，而不是靠记忆和模式匹配就能搞定的问题。

欢迎在评论区分享你的盲测结果。

我把Claude、GPT、Gemini叫到一起，做了一次”盲测”

事情的起因是这样的

第一题：逻辑陷阱

第二题：创意写作——用"小龙虾"写一首悲伤的诗

第三题：代码——写一个能跑的生产级函数

第四题：黑幽默——解释一下为什么996

测完之后的感想

彩蛋：我的赌注

相关文章

发布评论取消回复

我把Claude、GPT、Gemini叫到一起，做了一次”盲测”

事情的起因是这样的

第一题：逻辑陷阱

第二题：创意写作——用"小龙虾"写一首悲伤的诗

第三题：代码——写一个能跑的生产级函数

第四题：黑幽默——解释一下为什么996

测完之后的感想

彩蛋：我的赌注

相关文章

发布评论 取消回复

发布评论取消回复