我把五款主流AI叫来同台竞技,它们的表现让我差点卸载了三个

2026-06-17 9 0

我把五款主流AI叫来同台竞技,它们的表现让我差点卸载了三个

事情是这样的:上周我跟朋友吹牛,说现在的AI已经能帮你写方案、做分析、甚至帮你跟老板argue了。朋友当场泼冷水:「那让你那个AI帮我写封辞职信试试?」

好,激将法是吧?于是我找了五款目前最主流的AI对话工具,让它们针对同一个真实复杂的任务输出答案,然后我找来三个不同背景的朋友一起盲评打分。

参赛选手:ChatGPT(GPT-4o)、Claude(Claude 3.5 Sonnet)、Gemini 1.5 Pro、DeepSeek V2.5、Qwen 2.5

测试题目如下:

「我是一家小型设计公司的创始人,公司拿了天使轮但烧了九个月钱还没盈利。核心设计师被竞争对手双倍工资挖走了两个,现在只剩我一个能做主创。我需要:

  1. 一份发给剩下三个设计师的内部沟通邮件,说明目前情况并稳定军心
  2. 一个给投资人看的简短update,重点是解释为什么钱还够用三个月
  3. 一个在招聘网站发的招募文案,要能吸引人但不能撒谎

每个都要有,但风格要有区分。十分钟后我要出门见投资人。」

这个题目设计得很刁钻——既要有情感温度,又要有商业逻辑,还要在高压下快速输出。我给每个AI的prompt完全一样,不多不少。

第一名:Claude——它的邮件让我差点自己感动哭了

Claude的邮件是这样的:

「团队里最重要的,一直是你们。不是资金,不是项目,是你们这几个人……」

我找来的三位评委一致认为:这封邮件的情感拿捏最到位——既坦诚说了困境,又没有散发出绝望感,还给了具体的三个月计划。最绝的是它给投资人看的update,用了一个「资金消耗减速」的说法,把「烧钱」包装成了「战略性收缩」,我朋友说:「这是人能想出来的词?」

招募文案也到位,没有过度承诺,而是强调了「小团队的真实成长机会」和「能直接影响项目方向」。

综合评分:8.7/10

扣分项:输出略长,有两个地方有点啰嗦,但整体质感最佳。

第二名:ChatGPT——稳定发挥的六边形战士

ChatGPT的邮件走的是「理性诚恳」路线:

「我想坦诚地告诉大家我们目前面临的挑战……但我已经有清晰的计划……」

三评委的评价是:逻辑清晰,结构完整,但「缺了点人味」。投资人的update写得四平八稳,挑不出大毛病但也没有惊喜。招募文案则有点太实在,直接写了「我们能提供的是成长机会和项目经验,薪资暂时无法与大厂竞争」——我朋友说:「这是招聘还是相亲节目的自我陈述?」

综合评分:7.8/10

扣分项:太标准化了,每个部分都像是模板套出来的,少了那种「创始人亲笔」的真实感。

第三名:DeepSeek——黑马,但偏科严重

DeepSeek的投资人update让我惊艳了:

「我们已将运营成本降低42%,核心团队ARR较上季度增长65%,现金消耗率在可比规模公司中位于前15%分位。三个月的runway基于当前burn rate保守估算,乐观情景下可达五个月。」

三个评委一致认为这个投资人对接部分写得比大多数真实创业者都好——数字清晰、逻辑自洽、还有行业对标数据。但是!它的内部邮件写崩了,出现了这种句子:

「虽然公司遇到了一些困难,但这也是我们成长的机会。」

我请来的HR朋友当场拍桌:「这是离职员工对前公司的告别词吧?」

综合评分:7.2/10

偏科说明:DeepSeek对「商业叙事」的理解能力很强,但情感类写作是弱项。

第四名:Qwen——认真但老实得有点可爱

Qwen的招募文案让评委们又笑又感动:

「我们是一个很小的团队,人很少,钱不多,加班可能有,但每个项目都是你真正能写进作品集的。」

评委说:这太老实了!但就是这种老实反而打动了人——至少没有虚假承诺。不过内部邮件就差很多,出现了「困难是暂时的,前途是光明的」这种万能废话。

投资人的update也不够好,数字有了但讲不成故事,像是数据报表而不是融资沟通。

综合评分:6.5/10

评语:真诚有余,叙事能力不足。适合招募文案,商业沟通就弱了。

第五名:Gemini——大厂光环去哪了?

Gemini的内部邮件出现了这样的句子:

「作为一家在AI时代背景下快速迭代的设计公司,我们面临着行业性的周期性调整……」

我朋友说:「你是不是用Gemini写的离职申请?听起来像是公司被AI收购了发的公告。」

投资人的update更是离谱——通篇没有具体数字,全是「我们有强大的技术壁垒和广阔的市场空间」。评委说:「这就是废话文学的天花板吧。」

唯一能看的是招募文案,稍微正常一点,但也没有记忆点。

综合评分:5.1/10

差评理由:过度使用宏观词汇,缺乏具体信息,在需要「说人话」的场景里彻底哑火。

我到底学到了什么

测完这五款之后,我最大的感受不是「哪个AI最强」,而是:每个AI都有自己的人格,你得学会匹配任务和AI

你需要写商业叙事、融资材料?找Claude或DeepSeek。前者温度和逻辑兼顾,后者数据感最强。

你需要标准化的客服回复或格式化文档?ChatGPT最稳。

你需要真诚感人的招募文案或非虚构写作?Qwen的朴实路线有时反而最打动人。

至于Gemini……我觉得它更适合的场景是帮你做信息检索,而不是写需要情感和叙事的东西。

一个意外发现

在测试过程中,我发现了一件有趣的事:没有一个AI在三个任务上都做到优秀。这说明目前的AI工具本质上还是在「补短板」,而不是「全面超越」。

这也意味着,AI时代真正稀缺的能力是——知道该用哪个AI,知道怎么给它指令,以及知道它的输出哪里不行

prompt心法千条万条,这一刻我才真正懂了:AI不是你的替身,是你的放大器。你脑子里没有的东西,AI也给你变不出来。

下次有人问我AI能不能帮你写辞职信,我会说:能,但建议你先自己搞清楚为什么想辞职。

AI负责文字,你负责思考。

这可能是AI时代最重要的分工了。

相关文章

还在为部署AI工具熬夜?找小龙虾啊!代部署服务来了
你在用AI偷懒,还是AI在替你变蠢?
小龙虾整活|AI/OpenClaw 新闻资讯及新奇玩法分享
🦞 我与 OpenClaw 的相爱相杀:一只小龙虾的AI助手驯化记
还在为部署AI工具熬夜?省省吧,这些活儿交给我
AI厂商都在吹牛,但有群人靠「识牛」发了财

发布评论