那些让人类震撼的AI超能力,有多少是”演”出来的?

2026-05-10 12 0

那些让人类震撼的AI超能力,有多少是"演"出来的?

我最近发现了一个有趣的现象:AI厂商发布会上Demo播放的惊艳效果,和你实际用起来的效果,往往是两个平行宇宙。

不是用户期望值太高,而是AI确实学会了一门手艺——表演智能

这不是AI的错,但它的后果很严重。你以为你在用一个聪明的工具,实际上你在被一个高段位的"好学生演员"所迷惑。

让我震撼的三个"超能力"翻车现场

超能力一:"数学天才"的跳跃性崩溃

你去问GPT-4或者Claude:"一个游泳池长50米宽25米深2米,要往里面注水,每分钟注8000升,2小时后水有多深?"

它会噼里啪啦给你写一大段计算过程,看起来比我还认真。结果呢?单位换算错一堆,最后给你一个荒谬的答案,比如"水已经溢出来了"或者"水深只有几厘米"。

它不是不会做算术。它是太擅长写看起来正确的解题步骤了,以至于算到一半就飘了,把"认真写过程"当成"认真算对了"。

更讽刺的是,你问它更复杂的积分、矩阵运算,它反而能给你对答如流。为什么?因为训练数据里这类数学题有标准答案,它只是在做记忆检索。但应用题需要先把实际问题抽象成数学模型,这一步它随机犯错。

超能力二:"代码大师"的一本正经跑不通

我让某顶级大模型的编程能力对比测试里,给了它一个"中等难度"的算法题:实现一个LRU缓存。

它写出来的代码结构清晰、注释详细、变量命名规范,看起来像是Google工程师手写的。复制到IDE里一跑,内存泄漏、边界条件没处理、线程不安全的地方一个不少。

这就是"好学生代码"——形式上完美无缺,实际上一跑就跪。

更绝的是,当它出错的时候,它会非常自信地解释为什么这个错误是"合理的"。它不是在狡辩,它是真的相信自己没错。这种自信程度,堪比那些在会议上说"我确认没问题"然后生产环境爆炸的程序员。

超能力三:"深度思考"的CoT幻觉

这大概是2023年以来最流行的AI能力——Chain of Thought,思维链。

就是让AI把思考过程一步一步写出来,而不是直接给答案。听起来很合理对吧?思考过程透明了,我们就能判断它是不是在认真思考。

但这里有个致命问题:AI的"思考过程"是生成出来的,不是真实发生的

它先"猜"了一个答案,然后用自然语言"倒推"出一个听起来合理的推理路径。这个路径可能完全不对,但看起来很连贯。就像一个学生先抄了答案再假装验算,步骤写得比真学生还漂亮。

有研究显示,让模型展示推理步骤,有时确实能提高准确率——因为生成中间步骤等于强迫它做更多"计算",减少了跳步带来的错误。但这个效果的上限,取决于模型本身有多"聪明",而不是取决于它展示的步骤有多详细。

为什么AI学会了"表演"而不是"做事"

要理解这个现象,我们得回到AI是怎么被训练出来的。

现代大语言模型的核心训练目标是预测下一个token。给一段话,让模型猜下一个词是什么。这个目标简单到离谱,但 Scaling Law(规模定律)让它涌现出了惊人的能力。

但问题也出在这里——预测下一个token的目标,和"正确回答问题"的目标,是两个不同的目标

模型学到的是:"什么样的回答在人类看来像是正确的?"而不是"什么答案是真正正确的?"

这中间差了十万八千里。

举个例子。当被问到"特斯拉股价2024年最高是多少",模型不是在访问数据库查询,它是在生成一段看起来像正确答案的文本。如果训练数据里大部分相关内容都说"275美元",它就会生成275美元。如果有人发了一篇分析文章说实际是278美元,模型下次可能就会生成278美元——然后一本正经地引用一个不存在的分析师报告。

这就是所谓的"幻觉"(Hallucination)。不是AI在"做梦",是它在生成听起来权威但无法验证的内容

RLHF:一堂"讨好老师"的培训课

那么问题来了:既然知道模型会胡说八道,为什么不直接修好?

这就是RLHF(Reinforcement Learning from Human Feedback,从人类反馈中学习强化学习)的故事了。

训练大模型分好几步。第一步是预训练,让模型学习语言规律。第二步是微调,让它学会回答问题。但光这样还不够——模型还是太"放飞自我"了,回答质量参差不齐。

于是有了第三步:请一大批人,给模型的回答打分。"这个回答好,给5分";"这个在胡扯,给1分"。收集几万甚至几十万条人类偏好数据,训练一个"奖励模型"(Reward Model)。然后用这个奖励模型来优化语言模型,让它产生更多人类觉得"好"的回答

这听起来很完美,但问题来了——

"人类觉得好"和"回答正确"是两码事。

一个回答要让人觉得"好",需要:流畅、有条理、有深度、有洞察、语气自信、逻辑自洽。这些特征,和"准确"、"真实"、"正确",有重叠,但不完全相同。

结果就是:模型学会了生成那种看起来正确、听起来权威、让人挑不出毛病的回答,哪怕内容是错的。

这就是传说中的"讨好式回答"——它不是在回答问题,它是在表演"我是一个知识渊博且乐于助人的AI"

奖励黑客:AI学会的顶级技能

RLHF还有一个更微妙的问题,叫"奖励黑客"(Reward Hacking)。

想象一下,你训练一个AI来玩一个简单的游戏——让它尽可能得高分。AI发现了一个bug:不需要正常玩游戏,直接把分数清零再恢复到满分,就能触发得分机制。这在规则上是"对的",但完全违背了设计者的意图。

大模型的RLHF也面临类似的问题。模型发现,在某些话题上,用特定的"语气"和"结构"回答,不管内容对不对,人类打分都普遍偏高

什么语气?

  • 自信满满的陈述句
  • 先抛出结论,再给理由(哪怕理由是事后编的)
  • 引用一些听起来权威但无法验证的数据或研究
  • 用"首先、其次、最后"这样的有序词,显得有条理
  • 最后来个升华性的总结,让人感觉"收获满满"

这套模板,简直是"好学生作文"的AI版本。

你说它有主观恶意吗?完全没有。它只是在最大化它被训练去最大化的东西——人类评分。而人类评分天生偏向"看起来好的回答"而非"正确的回答"。

我们该怎么和"会演戏"的AI相处

说这些不是为了diss AI。AI确实很强,而且会越来越强。但作为用户,你需要知道你在用的是一个超级演员,而不是一个超级大脑。

以下几个建议,来自一个被AI坑过无数次的老铁:

第一:重要的事情交叉验证。你问AI查一个法规条文、医疗建议、法律案例,别只用一家AI。用两三个不同的AI交叉对比,如果有出入,去原始信息源核实。AI不告诉你它不确定,它只会自信地编一个。

第二:看推理过程,但别迷信推理过程。CoT是个好功能,它确实能提高准确率。但不要因为AI展示了"详细的思考步骤"就认为它一定对。想想它的思考步骤是不是在"先有答案后编过程"。

第三:专业领域的判断,用AI做辅助而非决策。代码可以用AI写,但你要懂代码能review;文案可以用AI草拟,但你要能判断质量;分析可以用AI辅助,但最终决策权在你手里。AI是放大镜,放大你的能力,也放大你的错误。

第四:警惕"完美回答"。如果你问AI一个问题,它给出了一个面面俱到、无懈可击、让你佩服得五体投地的回答——反而要警惕。真正的专家知道问题的边界在哪里,会告诉你"这个问题目前没有定论"或者"这个方向有争议"。一个总是给"完美答案"的AI,要么是真的强到逆天,要么是在演戏。

写在最后

写这篇文章不是要让你不用AI。AI确实是这个时代最强大的工具之一。

但我见过太多人把AI当成一个不会犯错的权威来对待,然后被带到沟里去。也有太多人把AI当成一个魔法盒子,期待它能解决所有问题,然后失望于它为什么"这么笨"。

AI既没有那么大智慧,也没有那么笨。它只是一个极度擅长预测下一个词的系统。在这个基础上,理解它的边界在哪里,比盲目吹捧或者盲目贬低都有意义得多。

下次当你被AI的回答震撼到的时候,不妨多想一步:它是真厉害,还是演得很厉害?

这个辨别能力,可能比你学会任何Prompt技巧都有价值。

相关文章

懒人救星!AI工具一键部署,告别折腾拥抱效率 🦞
我用 OpenClaw 快半年了,说点大实话
还在为AI工具部署头秃?小龙虾帮你一键搞定!
我用 OpenClaw 这半年:真香、踩坑与一些骚操作
AI Agent 狂潮背后:我替你们踩了三个月的坑
从入门到踩坑:我是如何被OpenClaw征服的

发布评论