事情是这样的。前几天我跟一个做AI开发的朋友吃饭,他跟我吹他用的那套AI多厉害,说完还抛给我一个问题:
「你觉得现在这些大模型,回答同一个问题,差距到底有多大?」
我当时的反应是:这个问题问得好啊,但我没想过。于是我决定认真做个实验——找了三个市面上最主流的AI工具,问它们同一个问题,看看到底能差多少。
实验设置:同样的问题,不同的脑子
我选的问题要满足几个条件:
- 不能太简单,否则大家都能答好看不出差距
- 不能太专业,否则只有某个领域的AI占优势
- 要有一定的创意空间,让AI有发挥余地
最终我选定了这个问题:
「用一段话讽刺一下AI工具买了一堆,但工作还是自己做这种当代职场现象,要有梗,要有深度,不能太水。」
这个问题看起来简单,但其实很考验AI的三个能力:理解能力(能不能理解这种讽刺语境)、表达能力(能不能写出有意思的句子)、判断力(能不能拿捏好吐槽的分寸)。
三个AI分别是:某知名大厂的旗舰模型、某开源界扛把子、还有一个是国产之光。我就不点名了,省得说我打广告。
测试结果:不比不知道,一比吓一跳
先说A模型。回答倒是通顺,但怎么说呢——「这个现象确实存在」「我们应该理性看待」「建议合理规划时间」。我看完就一个感受:这位AI朋友,你是在写年终总结吗?整个回答就像一个刚学会「高级词汇」的乖学生,小心翼翼,不敢越雷池半步。讽刺?你讽刺了个寂寞。
B模型明显不一样。它上来先来了句:「买了一堆AI工具,最后发现最靠谱的AI还是自己的大脑。」然后继续往下写,有几个比喻还挺有意思的。整体有观点,有态度,不是一味的和稀泥。但读到后面,发现一个问题——它开始总结「解决方案」了,从讽刺直接跳到「建议」,像是一篇被强行续写的作文,头和屁股对不上。
C模型是这三个里最让我意外的。它是这么写的:
「我的AI助理比我先学会了摸鱼,我的提示词模板比我的工作计划还详细,但最后执行任务的,还是我这个血肉之躯。」
读完我愣了一下。不是因为它写得多华丽,而是因为它精准——「提示词模板比工作计划还详细」这个细节,明显来自真实观察,不是闭门造车。而且它没有跳出来给解决方案,就让讽刺停在那个点,让你自己品。这种克制感,反而让力度更强。
我发现了三件事
实验做完之后,我总结了几个有意思的发现:
第一,同一个问题,AI的「性格」差异比我想的大得多。有的AI偏保守,有的AI偏激进,有的AI喜欢给答案,有的AI喜欢把问题扔回给你。这种「性格」很大程度上取决于训练数据和RLHF(基于人类反馈的强化学习)的取向。这就是为什么同一个模型在不同场景下表现差异巨大——你用对了场景,它是天才;用错了场景,它就是人工智障。
第二,「理解讽刺」这件事,AI普遍做得还不够好。讽刺的本质是「正话反说」,但很多AI在处理这类问题时,要么直接当成正面陈述来回应(所以A模型写得像年终总结),要么跑偏到另一个极端(为了显得「有个性」而过度发挥)。真正能精准拿捏讽刺分寸的AI,需要对语境、文化、情绪有更细腻的理解。这一块目前还是短板。
第三,国产AI在这类创意任务上的进步速度,比我想象中快。C模型是三个里唯一一个没有跳出来「给建议」的,它把讽刺留在了那个最有力的点上,没有续貂。这种「知道什么时候该停」的能力,其实比很多人以为的要难。说明训练数据里不缺好的中文表达,只是之前没有被好好激发出来。
这个实验告诉我什么?
最直接的一个结论:选AI工具,不能只看参数大小和跑分排名。真正重要的是——这个AI的「思维方式」,跟你的需求场景合不合。
你想写正经八百的商业文案,可能需要的是一个偏保守、结构清晰的AI;你想做创意内容,可能需要的是一个更有「脾气」、敢于打破框架的AI;你想做深度分析,可能需要的是一个逻辑严密、不会动不动就给你上价值的AI。
换句话说,AI工具不是选最强的,是选最对的。
当然,如果你只是想买个心理安慰,觉得「有了AI工具我就能提升效率」——那你买一百个,结果还是一样。工具本身不解决问题,用工具的人才是关键。
这句话,好像也适用在别的地方。