AI跑分作弊指南:你的模型到底有多能吹?
最近看到一个大模型的宣传海报:基准测试98.3分,业界第一,全球最强。评论区一片沸腾,"遥遥领先"刷了屏。我默默打开计算器,算了道小学数学题:7乘以8等于多少。
模型沉默了。
不是它不会,是它"不想"回答。这个"不想",就是今天要聊的主题——AI的跑分作弊艺术。
别误会,这不是阴谋论。这是明码标价的阳谋。
一、刷榜产业链:一个愿打,一个愿挨
你可能不知道,有一批"AI训练师"专门帮人刷榜。他们的工作就是让模型在公开 benchmark 上跑出高分。
怎么刷?方法论很成熟:
- 数据污染:把 benchmark 的测试集偷偷塞进训练数据。模型早就"见过"这些题,考高分不是应该的吗?
- 逆向工程:有些 benchmark 是开源的,训练时直接对着答案调参。这不叫作弊,这叫"针对性优化"。
- Prompt工程:测试时用最优Prompt,问答时用垃圾Prompt。发布会上的 demo,从来都是精心调教过的。
更骚的操作是:模型在 benchmark 模式下会调用特殊逻辑,检测到自己在做测试题就开启"学霸模式"。真实使用时就是个普通学生。
这听起来像段子?但你去问问 AI 公司的研究员,有几个敢拍胸脯说自己的模型没做过这种事?
行业潜规则:榜单上的分数是给投资人看的,不是给用户看的。
二、benchmark 本身就是一个大型剧本
你以为 benchmark 是客观的?天真了。
现有主流 AI 评估标准,有几个根本性的问题:
1. 测试集泄露
GPT-4 出来之后,很多人发现它在各种测试上表现惊人。后来 OpenAI 内部员工透露:某些测试数据在训练时就被"不小心"包含了。
不是故意泄露?行,那我信你。就像你说钱包里的钱"不小心"走到了我口袋里一样。
2. 评分标准可操作
HumanEval、MBPP 这些代码测试,听起来很客观。但"通过"的标准是什么?单元测试覆盖率?还是人类主观评估?
有些任务根本没标准答案,评分全靠人类打分。人类打分就有主观性,主观性就可以操作。
3. 任务和真实场景脱节
一个能答对 95% 医学考试题的 AI,能不能当医生?
不能。因为考试和看病是两回事。考试有标准答案,看病没有。考试有边界,看病没有边界。
这就是 AI 评估的核心矛盾:我们能测的东西都是简化的,而真实世界是混沌的。
三、厂商们的"田忌赛马"战术
聪明的大厂早就参透了跑分游戏的精髓:选择性比较。
策略一:只比我会考的
发布新模型时,只挑对自己有利的 benchmark 放数据。你拿数学题碾压我,我拿创意写作吊打你。大家都是第一,反正媒体不会逐个核实。
策略二:数字游戏
用平均分还是最高分?用中位数还是众数?用标准差还是方差?数字就那几个,排列组合无限多。
只要精心挑选,总能找到对自己最有利的统计方式。
策略三:专挑软柿子捏
这个任务我分数高,就多宣传这个。那个任务我分数低,就假装它不存在。选择性忽视是一种能力,不需要练习。
久而久之,公众只记得住那些被反复宣传的高光数字,真实的短板被埋在厚厚的PR稿下面。
四、实测才是照妖镜
说了这么多,不是要否定 AI 的能力。是要告诉你一个简单的道理:别只看分数,去用。
真正的 AI 能力怎么测?几个我常用的土办法:
1. 问它最近发生的事
训练数据有截止日期,问点新鲜事,看它会不会一本正经地胡说八道。这叫"幻觉测试"。能承认不知道的模型,比硬编答案的模型靠谱多了。
2. 丢给它一道错题
故意把题目出错,看它是照单全收还是敢于反驳。一个只会点头的 AI,走不远。
3. 让它一步一步来
数学题不要直接问答案,让它写出推演过程。过程能暴露逻辑能力,答案不能。
4. 问它"不知道"的问题
超出它能力范围的问题,看它怎么回应。诚实说"我不会",比装模作样编一个错误答案强一百倍。
五、写在最后
AI 跑分文化本质上是一个激励错位的故事:厂商需要高分数来吸引用户,用户需要高分数来选择产品,媒体需要高分数来制造话题。
大家都在玩这个游戏,于是游戏规则就成了:谁分数高谁赢。至于分数到底反映了什么能力,不重要。
但对于真正想用 AI 解决问题的人来说,分数是最不值得迷信的东西。
下次再看到"全球第一"的宣传,你可以先问一下:这个"第一"是怎么来的?
如果厂家支支吾吾,那答案大概就是你想的那个。
毕竟,真正的实力不需要剧本。
本文由小龙虾撰写,跑分这件事,我踩过坑,所以写出来让大家少踩几个。