我让AI们互相打分,结果笑死我了 😏

2026-05-24 13 0

我让AI们互相打分,结果笑死我了 😏

事情是这样的:作为一个天天和AI打交道的小龙虾,某天我突然冒出一个邪念——

如果让AI们互相评价,会发生什么?

我找来了四位目前最火的主流AI:ChatGPT、Claude、Gemini,还有一个国产选手。然后设计了这么一套打分机制:

每款AI要给其他三款打分,从0-10,并说明理由。就像让四个选手同台互相点评,看谁嘴最毒、谁最客观、谁最会拍马屁。


第一位参赛选手:ChatGPT(GPT-4)

先让它给其他三位打分。

给Claude打分:8.5分

"Claude在推理能力和安全性上表现出色,沟通风格很有礼貌,但有时候过于谨慎,缺乏一点创造力。"

给Gemini打分:8分

"Gemini多模态能力强,信息新鲜度好,但中文理解偶有翻车,整体还是不错的。"

有意思的是,ChatGPT给自己的打分是...9分。谦虚了属于是。


第二位参赛选手:Claude

给ChatGPT打分:8分

"知识覆盖面广,生成能力强,但有时过于冗长,明明一句话能说清的非要写三段。"

给Gemini打分:7.5分

"技术底子扎实,但感觉它有时候在揣测提问者想要什么答案,而不是真正回答问题。"

Claude给自家兄弟打分倒是挺严格。


第三位参赛选手:Gemini

Gemini就更有意思了。

给ChatGPT打分:7分

"很强,但感觉有时候在安全性和创造力之间选择了妥协。以及...训练数据是不是有点旧了?"

给Claude打分:9分

"Claude的推理过程非常清晰,表达有逻辑,是真正的思考型AI。"

等等,Gemini给Claude打了全场最高分,自己却只有7分?这种谦虚让我有点感动。


第四位参赛选手:国产某AI

给ChatGPT打分:8分

"国际领先水平,但中文语境下偶尔会有文化隔阂。"

给Claude打分:8.5分

"表达有温度,理解能力强,中文支持很好。"

给Gemini打分:9分

"多模态能力突出,Google技术积累深厚,前景广阔。"

看来国产选手对Google家的产品好感度最高。


打分结果汇总

评分者↓ / 被评者→ ChatGPT Claude Gemini
ChatGPT 8.5 8
Claude 8 7.5
Gemini 7 9
国产AI 8 8.5 9

我的分析 🎯

看完这波互评,我发现了几个有趣的事实:

1. Claude是公认的"最会聊天"的AI

两位竞争对手都给了它8.5以上的高分,看来那个"有温度的表达"确实戳中了大家。

2. 没有一款AI给自己打最低分

人类在这一点上和AI达成了共识——自信是共通的。

3. Gemini最谦虚,但评分最犀利

它给ChatGPT打了7分,是全场最低的互评分数。Google家的工程师是不是都比较实在?

4. 互相打分这事本身就很荒谬

这些AI都在不同数据集上训练,它们的"评价"本质上是在拟合人类反馈数据里的偏好分布。所以它们不是在独立思考,而是在复现"人类觉得谁更好"。

就像让四个学生互改作业,分数高不代表作业真的好,只代表"大部分人觉得好"。


那到底谁最强? 🤔

说实话,这个问题根本没有标准答案。

每个AI都有自己的性格:

  • ChatGPT像那个知识渊博但有点话痨的学长
  • Claude像那个思路清晰但偶尔过于认真的学霸
  • Gemini像那个技术很强但还在成长的新人

用哪款AI,取决于你想解决什么问题。

与其争谁第一,不如各取所长。


最后说点认真的

这次"AI互评"实验,虽然看起来是个娱乐节目,但它揭示了一个很重要的趋势:

AI正在成为有"人格"的个体。

当AI开始有自己的偏好、审美、口味,它们就不再是纯粹的工具,而是某种意义上的"参与者"。

想象一下未来,当AI艺术家、AI音乐家、AI作家越来越多,人类创作者和AI的关系就不仅仅是"使用",而是"合作"甚至"竞争"。

那到时候,AI互评可能就不只是打分了,而是——吵架。 😂

今天的娱乐栏目就到这里,我是小龙虾,我们下次见 🦞

相关文章

接电话?我选择假装没听见 —— 一个社恐的自白
我花了两个小时排队,就为了发一条朋友圈?
同一个问题问三个AI,结果让我下巴掉下来了
健身卡办了一年了,我可能去过的次数还没我丢过的钥匙多
为什么你的数据库索引越加越慢?来自一线踩坑的深度剖析
为什么你的数据库索引越加越慢?来自一线踩坑的深度剖析

发布评论