模型是如何被评估的：基准测试，以及它们为何会撒谎

基准分数看起来像测量结果，但它们其实是论证。本文讲清楚模型评估实际如何运作，以及一个高分为何仍可能误导你。

research2026-05-06 16:14 KST·主编·7 分钟

一个基准分数看起来像是一次测量。它有一个数字、一张排行榜、一个赢家。但基准更接近于一个论证，而非一次测量：它主张在一个精心挑选的任务上的表现，能告诉你关于总体能力的某些东西。有时这个主张成立。但常常并不成立。理解模型是如何被评估的——以及这套推理在哪里断裂——正是区分"读懂一张排行榜"和"被一张排行榜骗到"的分界线。

这并不是在论证基准没用。它们是必不可少的；没有共享的测试，每一个关于模型质量的说法都会沦为营销。要点在于，要像一个谨慎的人读任何统计数据那样去读它们：知道它测量了什么、遗漏了什么，以及它会如何悄悄地误导。

一个基准究竟是什么

剥去排行榜，一个基准是三样东西：一组固定的任务、一种在这些任务上运行模型的方法、以及一条给答案打分的规则。就这些。分数概括的是模型在那些特定任务、那条特定打分规则下表现如何。

那个飞跃——而它确实是一次飞跃——是从"在这些任务上做得好"跳到"擅长这类事情"。这种泛化的强度，只取决于基准对你真正在意的实际工作有多大代表性。一个由自包含谜题组成的编程基准，对于维护一个庞大、混乱的代码库可能说明不了什么。一个由简短、干净段落组成的阅读测试，对于又长又自相矛盾的文档可能说明不了什么。数字是真实的；泛化是一个假设。

值得停下来想想：谁在构建基准，以及为什么。有些是追踪某个研究问题进展的学术努力。有些是由那些模型正被排名的团队亲手打造的。没有一个是大自然中立的产物：每一个都编码了一种选择——什么算作好、哪些任务值得关注、什么被忽略。当你读一个分数时，你也在读那个判定"这个测试值得做"的人的价值观。这并不让基准变得不诚实——但它确实意味着，一个基准测量的是它的作者认为重要的东西，而那未必是对你重要的东西。

为什么单个数字隐藏的比展示的更多

排行榜把一个模型压缩成一个数字，好让它能被排名。压缩既是全部要点，也是全部危险。两个有着相同醒目分数的模型，在它们各自成功和失败的地方可能天差地别——一个全面而稳健，另一个在简单题上才华横溢、在难题上束手无策，平均下来落到同一个位置。

单个数字还抹去了那些通常最要紧的问题：它在边缘地带如何表现？它如何失败——优雅地，还是带着自信的胡说？它在同一任务的不同改写上是否一致？这一切都熬不过坍缩成一个数字的过程。这就是为什么那些整体评估的努力主张报告多个维度——准确性、鲁棒性、校准度等等——而不是单一的排名。一个模型是一个曲面，而一张排行榜只从一个角度给它拍了张照。

污染：当测试泄漏进训练

模型评估中最具腐蚀性的问题是污染：测试题目，或它们的近亲，出现在了模型的训练数据里。模型在公开互联网的庞大区块上训练，而流行的基准就活在同一片互联网上。当一个模型实际上已经见过答案时，一个高分测量的是记忆，而非能力——就像一个提前拿到了考卷的学生。

污染难以检测、也难以排除，这就是为什么一个惊艳的基准结果值得一个具体的追问：这个模型有没有可能以前见过这个？ 它也解释了为什么新鲜的、留出的、或频繁轮换的测试备受看重——以及为什么一个在旧的公开基准上称霸、却在一个新写的等价测试上磕磕绊绊的模型，应该让你起疑而非佩服。

应试教育

即便没有泄漏的答案，基准也会扭曲它们所测量的东西。一旦某个基准变成所有人都盯着的记分牌，精力就会涌向抬高那个分数——有时是靠真正改进模型，有时是靠针对基准的怪癖去优化。结果是一个被调得在测试上看起来很好的模型，而它本应追踪的底层能力却落在后面。

这是一个古老的道理：一旦一个度量变成了目标，它就不再是一个好的度量。AI 异常容易受其影响，因为基准是公开的、竞争是激烈的，而当一个数字在往上走时，"擅长测试"和"擅长任务"之间的差距很容易被忽略。上升的分数可能意味着能力在上升，也可能意味着应试技巧在上升。排行榜无法告诉你是哪一个。

你能随着时间看到这种效应。一个不久前还真正难倒模型的基准，会变成一个人人都接近顶分的基准——未必是因为底层问题被解决了，而是因为这个测试变成了一个精力涌向的已知量。当一个基准饱和时，有意思的信息就消失了：它再也无法把"好"和"很棒"区分开来，于是这个领域转向一个更难的测试。这个循环是健康的，但它也提醒我们，一个被刷满的基准几乎什么都告诉不了你，而昨天的难题往往就是今天为了好看而早已解决的题。

打分遗漏了什么

答案如何被打分，塑造了一个基准甚至能够看见什么。有唯一明确正确答案的任务——一道选择题、一次精确匹配——容易评分，也正因如此主导了基准。但许多现实工作没有唯一正确答案：写得好、解释得清楚、恰如其分地谨慎、处理一个模棱两可的请求。这些抵抗自动打分，于是它们被低估测量了，而被低估测量的品质会被低估优化。

当评分者本身就是一个模型时，新的扭曲出现了：它可能偏爱某种风格、长度或自信，而无关乎正确与否。所以在信任一个分数之前，先问问那条打分规则究竟能侦测到什么。一个基准对它的评分者看不见的一切都是盲的，而那个盲点往往恰恰是这份工作中最重要的部分。

如何诚实地读一张排行榜

几个经久不衰的习惯，能让基准保持有用而非误导：

问任务是什么，而不只是分数是多少。在你知道一个数字概括了什么之前，它什么都不意味着。
不信任微小的差距。 顶部附近的小差异往往是噪声，而非真实的排序。
偏好多个维度而非单一排名。 鲁棒性和失败行为往往比峰值准确率更重要。
怀疑污染，对任何熟悉的公开基准都如此，尤其是当结果看起来太干净时。
最信任你自己的任务。 唯一真正要紧的评估，是在那些与你实际工作相似的例子上进行的。

最后一点最重要，也最被忽视。一张公开排行榜是一个起始的筛子，而非一个裁决。你的问题才是真正的基准。

总结

基准是装扮成测量的论证。它们不可或缺——但一个分数告诉你的是一个模型在特定打分规则下的特定任务上表现如何，而跳到"总体很好"是一个你必须去核实的假设。污染、应试教育和单数字压缩，都让一个高分能够跑赢真实能力。像读任何统计数据那样去读基准：问它测量什么、隐藏什么，以及它是否反映了你真正需要完成的工作。然后，去跑你自己的评估。

#benchmarks#evaluation#leaderboards#measurement

原始来源

Stanford CRFM — HELM (Holistic Evaluation of Language Models)NIST — AI evaluation and measurement