超越基准的评估：人类与模型裁判

基准测量的是易于打分的东西。对于开放式的工作，你需要判断——来自人，或来自代替人的模型。两者都可能误导你。

research2026-05-06 16:53 KST·主编·7 分钟

很长一段时间里，机器学习的进展是用基准来衡量的：有已知正确答案的固定数据集，模型的分数不过是它答对的频率。基准在适用时妙不可言。它们客观、可重复、可比较。麻烦在于，模型如今所做的最有意思的事情——写一篇文章、解释一个概念、起草代码、进行一场有帮助的对话——都没有唯一正确答案可供核对。评估那类工作需要判断，而判断是混乱的。

这篇文章讲的是这个领域如何应对：当基准用尽时，你转向裁判。有时那些裁判是人。越来越多地，它们是其他模型。两种方法都有用，而且两者都可能悄悄把你带偏。

为什么基准不再够用

当正确性被良好定义时，基准就奏效。模型给图像贴对标签了吗？它解出方程了吗？你能自动给这些打分，并信任那个数字。

开放式任务打破了这一点。假设两个模型各自为一篇文章写一段摘要。哪个更好？"更好"现在取决于准确性、完整性、清晰度、语气、长度，以及它是否漏掉了某个重要的东西——一束没有任何精确匹配分数能捕捉的品质。你可以发明一个代理指标，比如与一段参考摘要的重叠度，但那奖励的是表面的相似，而非真正的质量，于是一段恰好措辞不同的优秀摘要会得低分。

还有一个更微妙的失败：基准会被钻空子和饱和。一旦一个基准变成目标，系统就会被针对那个特定测试去优化，而高分就不再反映总体能力。一个模型可以在某个基准上拿满分，却在真实使用中令人不快或不可靠。所以这个领域转向那些更像人类实际会如何判断输出的评估方法。

人类评估：黄金标准，但有保留

判断开放式质量最直接的方法，是去问人。把模型的输出展示给人，让他们打分，或者展示两个输出，问他们更偏好哪个。偏好比较很受欢迎，因为对一个人来说，"这两个哪个更好？"是一个比"给这个从一到十打分"远更容易、也更可靠的问题。

人类判断是我们对主观质量所拥有的、最接近真值的东西，它支撑了现代模型被对齐得有帮助的很大一部分过程。但它不是一个干净的信号：

它慢且贵。 人比一个自动指标昂贵得多，这限制了你能评估多少。
它不一致。 不同的人意见相左；同一个人在不同的日子也会和自己意见相左。你需要大量评分来把噪声平均掉。
它以可预测的方式带有偏见。 评分者可能偏爱更长的答案、听起来更自信的答案，或格式更好的答案——即便那些实际上并不更好。他们可能被流畅却暗藏错误的行文所左右。

所以人类评估同时是黄金标准和一件有缺陷的工具。纪律在于把问题设计好、收集足够的评分，并提防你已知潜伏着的那些偏见。

作为裁判的模型

因为人类评估如此昂贵，一个自然的想法站住了脚：用一个有能力的模型来做裁判。把任务、候选答案（或两个待比较的答案）和一份评分标准交给一个强模型，让它打分或选出赢家。这通常被称为 LLM-as-judge。

吸引力是显而易见的。一个模型裁判快、便宜、全天候可用，而且在"它每次都遵循同样的指令"这个狭义上完美地一致。它能在人类评审团处理一小撮的时间里评估数千个输出，这让那些原本贵到无法衡量的改动变得可以测试。对许多开放式任务，一个强模型的偏好与人们的偏好相当吻合——吻合到足以对快速迭代真正有用。

这已经成了现代评估的一匹主力，恰恰是因为它疏通了那个瓶颈。但它带着自己的一整套危害，而把模型裁判当作神谕，是自欺欺人的配方。

模型裁判如何误导你

模型裁判有偏见，而因为它是自动的，那些偏见会系统性地施加于每一个判断之上——这可能比至少能被平均掉的人类噪声更糟。

位置和排序效应。 比较两个答案时，裁判可能偏爱先（或后）展示的那个，无关内容。交换顺序再取平均是一种标准的预防措施。
冗长与风格偏见。 模型裁判常偏爱更长、更精巧、听起来更自信的答案，即便一个简短正确的答案更好。光鲜的形式可能压过正确的实质。
自我偏好。 裁判可能偏爱那些与它自己风格相像、或它自己本会产出的输出，这会扭曲模型之间的比较。
易受问题措辞的影响。 评分标准如何措辞能左右裁决，所以给裁判的提示词本身就是一个你必须做对的设计产物。

最深的风险是循环性：如果你用一个模型去评判一个模型，而两者共享同样的盲点，那么裁判会乐呵呵地把自信的胡说评为优秀，因为它共享同样的误解。评估看起来严谨，测量的却是错的东西。

让裁判值得信赖

这些问题没有一个意味着你该抛弃模型裁判；它们意味着你该把它的输出当作证据，而非裁决。一些有帮助的做法：

用人类来验证裁判。 定期检查模型裁判的裁决，是否在一个样本上与审慎的人类判断一致。如果它们分歧，信任人类并重新校准。
控制已知偏见。 随机化答案顺序，盯着裁判是否只是奖励长度，并设计那些要求具体标准、而非含糊整体感觉的评分标准。
使用清晰、具体的评分标准。 一个被明确告知该看什么的裁判，比一个被问开放式"哪个更好？"的裁判更可靠。
在高风险时把人留在回路里。 用便宜的模型判断来快速迭代，把人类评估留给那些真正要紧的决策。

目标是一个分层的系统：用自动判断换取速度和规模，再用定期的人类判断作为真值来锚定它。

总结

基准测量的是易于打分的东西，而模型所做的最有价值的事情并不易于打分。这把评估推向了判断——来自人，他们是黄金标准，却慢、不一致、并悄悄带有偏见；也来自充当裁判的模型，它们快而便宜，却带着自身系统性的偏见，并冒着一个循环陷阱的风险，即一个模型奖励它自己的盲点。两种裁判都不是神谕。可靠的路径是：用模型裁判换取规模，用人类来验证它们，控制你已知存在的偏见，并让人类判断锚定那些算数的决策。好的评估不是一个数字——而是知道该在多大程度上信任你手上那个数字。

#evaluation#llm-as-judge#benchmarks#alignment

原始来源

arXiv Anthropic documentation