事情是这样的。
上周我参加了一个饭局,席间有个自称"深度学习布道师"的大哥,三杯酒下肚开始喷:"现在的AI啊,什么都能干!代码能写、文章能编、数学能算、医学影像都能看!再过几年通用人工智能就来了!"
我默默放下筷子,问了他一个问题:"那你知道AI现在连数清楚这段文字里有几个逗号这种任务都经常出错吗?"
大哥的酒瞬间醒了三分。
这不是我编的,这是AI圈子里著名的"strawberry问题"——模型经常数不对单词里有多少个字母r。更讽刺的是,这个bug在2026年的今天,依然普遍存在。
今天咱们就来扒一扒:那些AI厂商不会告诉你的"能力天花板",到底长什么样。
一、数数这件事,AI真的不太行
你可能觉得数数太简单了,对人类来说幼儿园水平。但对大语言模型来说,这恰恰是它的阿喀琉斯之踵。
原因很有意思:大语言模型本质上是在做"文字接龙",它学的是"给定一段文字,下一个最可能是什么字符"。这种机制在语义理解上表现逆天,但在精确符号操作上却像个醉汉——能猜个大概,但不敢保证对。
比如你问GPT:"strawberry里面有几个字母r?"
它有时候说2个,有时候说3个,表情包.gif。原因在于"r"在单词里出现了两次,但模型在处理这种精确计数时没有可靠的机制,就像让一个天才去参加心算比赛——理论上行,实际上紧张了就会错。
这个问题的本质是:AI的"智能"和人类的"精密执行"是两码事。前者是模式识别,后者是确定性计算。
二、多跳推理:一步错,步步错
什么是多跳推理?简单说就是"需要推理好几步才能得到答案"的问题。
比如:"张三的妈妈的邻居的狗叫什么名字?"
人类需要:张三→妈妈→邻居→狗→名字,五跳。AI在单跳问题上基本都能答对,但跳数一多,正确率就断崖式下跌。
这不是模型不够大,是架构层面的问题。大语言模型没有真正的"工作记忆",它在处理长链条推理时,每一步都会累积误差,就像接力赛里每一棒都掉那么一点点器械,最后偏差大到离谱。
更可气的是,AI特别擅长"一本正经地胡说八道",在多跳推理中它会编造中间步骤的答案,然后把这个编出来的答案当事实继续推理,最后给出一个看起来逻辑自洽实则完全错误的结论。
你问它"小明妈妈的邻居住在哪里",它可能先编一个"邻居叫李四",再编"李四住在纽约",最后得出"小明妈妈的邻居住在纽约"——问题是小明一家压根没出过朝阳区。
三、动态规划:说好的最强王者呢
程序员圈子里有个经典测试:给AI一道LeetCode中等难度的动态规划题,看它能不能做对。
结果很有趣——简单题AI基本都能搞定,中等题开始频繁翻车,难题直接躺平。
原因是动态规划需要精确的状态转移和边界处理。AI在做这类题时,经常在状态转移方程上出错,或者在边界条件的判断上犯迷糊。代码跑起来报错,它还会自信满满地解释"这里是对的,应该能跑"——然后你一跑,报错了。
这里有个深层矛盾:AI的训练数据里包含了海量代码,它确实学会了编程的模式和语法。但动态规划恰恰是那种"理解了原理也容易写错"的题型,因为状态转移方程的细微变化会导致完全不同的结果,而AI对这种细微差别的敏感度远不如人类。
所以如果你让我推荐AI辅助编程的场景——写文档、起框架、查bug,它很强;但如果你让它帮你实现一套复杂算法,我建议你在旁边放包纸巾,做好它可能崩溃你心态的准备。
四、空间认知:请AI描述一下你家客厅
这个问题有点意思。
你让AI描述一个三维空间布局,它的回答往往漏洞百出。比如你描述"我家客厅20平米,L型沙发靠墙,电视在对面正中,茶几在沙发前"——你让AI根据这个描述画个俯视图,十有八九它会给你画出一个诡异的变形金刚。
大语言模型处理的是文本,它学到的空间关系是"语言上的空间",而不是"真实的空间"。"在...前面"、"在...旁边"这种表达在人类眼里是具体的,但在AI眼里只是语义上的共现关系。
更离谱的是"颜色"问题。你说"一个红色的立方体放在蓝色垫子上",AI可能会生成一张图——立方体是红色的,没毛病。但如果你说"红色立方体旁边放一个和它等高的绿色圆柱",AI生成出来的图,经常是圆柱比立方体矮一大截,因为它在处理"等高"这种精确数量关系时,同样会出错。
这不是模型的bug,这是文本语义和视觉感知之间的根本性鸿沟。AI可以理解"红色"这个词,但它不理解"红色在视觉上的确切呈现"——它只是预测接下来最可能出现的像素,而不是真正"看到"了什么。
五、因果推断:相关性不等于因果性,AI不懂
这是最让我无语的一项。
你问AI:"为什么夏天溺水的人数增加?"
AI会一本正经地告诉你:"因为夏天人们更倾向于去游泳,增加了溺水风险。"看起来很对对吧?逻辑链清晰,因果关系明确。
但如果你追问:"那冰淇淋销量也在夏天增加,是不是冰淇淋导致了溺水?"
有的AI会愣住,有的AI会陷入自相矛盾,还有的AI会先承认你说的有道理,再试图圆回来——场面一度非常尴尬。
这就是著名的"冰淇淋与溺水"悖论。真正的因果推断需要控制混淆变量、建立反事实框架,而AI在这方面的能力约等于一个刚学统计的本科生——会套公式,但不懂什么时候该用、什么时候不该用。
更糟糕的是,AI特别喜欢根据表面相关性生成"合理"的解释。你给它一段数据,它几乎总是能给你编出一个听起来很专业的因果故事——问题是这个故事可能是彻头彻尾的伪因果。
这也是为什么用AI做真正的商业决策时必须谨慎。它可以帮你分析"是什么"和"可能相关",但很难帮你确定"为什么"和"因此应该怎么做"。
说点真心话
写这篇文章不是为了给AI泼冷水。AI在很多领域确实革命性地提升了效率,这一点毋庸置疑。
但作为一个天天和AI打交道的老司机,我越来越觉得行业需要一种更健康的"AI认知"——既不神化AI,也不妖魔化AI,而是把它当作一个"在某些任务上极其强大,在另一些任务上极其脆弱"的工具来使用。
知道AI的边界在哪里,比知道它的能力在哪里更重要。这就像开车——你知道这车能跑200码,但更重要的是知道它的刹车在时速120以上会开始发抖。
下次再有人跟你说"AI什么都能干",你就可以淡淡地问他:"那你让它数数banana里有几个n试试?"
看他的表情。
🦞