welclaiAI·TREND·DIGEST
研究

超越基准的评估:人类与模型裁判

基准测量的是易于打分的东西。对于开放式的工作,你需要判断——来自人,或来自代替人的模型。两者都可能误导你。

research2026-05-06 16:53 KST·主编·7 分钟

很长一段时间里,机器学习的进展是用基准来衡量的:有已知正确答案的固定数据集,模型的分数不过是它答对的频率。基准在适用时妙不可言。它们客观、可重复、可比较。麻烦在于,模型如今所做的最有意思的事情——写一篇文章、解释一个概念、起草代码、进行一场有帮助的对话——都没有唯一正确答案可供核对。评估那类工作需要判断,而判断是混乱的。

这篇文章讲的是这个领域如何应对:当基准用尽时,你转向裁判。有时那些裁判是人。越来越多地,它们是其他模型。两种方法都有用,而且两者都可能悄悄把你带偏。

为什么基准不再够用

当正确性被良好定义时,基准就奏效。模型给图像贴对标签了吗?它解出方程了吗?你能自动给这些打分,并信任那个数字。

开放式任务打破了这一点。假设两个模型各自为一篇文章写一段摘要。哪个更好?"更好"现在取决于准确性、完整性、清晰度、语气、长度,以及它是否漏掉了某个重要的东西——一束没有任何精确匹配分数能捕捉的品质。你可以发明一个代理指标,比如与一段参考摘要的重叠度,但那奖励的是表面的相似,而非真正的质量,于是一段恰好措辞不同的优秀摘要会得低分。

还有一个更微妙的失败:基准会被钻空子和饱和。一旦一个基准变成目标,系统就会被针对那个特定测试去优化,而高分就不再反映总体能力。一个模型可以在某个基准上拿满分,却在真实使用中令人不快或不可靠。所以这个领域转向那些更像人类实际会如何判断输出的评估方法。

人类评估:黄金标准,但有保留

判断开放式质量最直接的方法,是去问人。把模型的输出展示给人,让他们打分,或者展示两个输出,问他们更偏好哪个。偏好比较很受欢迎,因为对一个人来说,"这两个哪个更好?"是一个比"给这个从一到十打分"远更容易、也更可靠的问题。

人类判断是我们对主观质量所拥有的、最接近真值的东西,它支撑了现代模型被对齐得有帮助的很大一部分过程。但它不是一个干净的信号:

  • 它慢且贵。 人比一个自动指标昂贵得多,这限制了你能评估多少。
  • 它不一致。 不同的人意见相左;同一个人在不同的日子也会和自己意见相左。你需要大量评分来把噪声平均掉。
  • 它以可预测的方式带有偏见。 评分者可能偏爱更长的答案、听起来更自信的答案,或格式更好的答案——即便那些实际上并不更好。他们可能被流畅却暗藏错误的行文所左右。

所以人类评估同时是黄金标准和一件有缺陷的工具。纪律在于把问题设计好、收集足够的评分,并提防你已知潜伏着的那些偏见。

作为裁判的模型

因为人类评估如此昂贵,一个自然的想法站住了脚:用一个有能力的模型来做裁判。把任务、候选答案(或两个待比较的答案)和一份评分标准交给一个强模型,让它打分或选出赢家。这通常被称为 LLM-as-judge

吸引力是显而易见的。一个模型裁判快、便宜、全天候可用,而且在"它每次都遵循同样的指令"这个狭义上完美地一致。它能在人类评审团处理一小撮的时间里评估数千个输出,这让那些原本贵到无法衡量的改动变得可以测试。对许多开放式任务,一个强模型的偏好与人们的偏好相当吻合——吻合到足以对快速迭代真正有用。

这已经成了现代评估的一匹主力,恰恰是因为它疏通了那个瓶颈。但它带着自己的一整套危害,而把模型裁判当作神谕,是自欺欺人的配方。

模型裁判如何误导你

模型裁判有偏见,而因为它是自动的,那些偏见会系统性地施加于每一个判断之上——这可能比至少能被平均掉的人类噪声更糟。

  • 位置和排序效应。 比较两个答案时,裁判可能偏爱先(或后)展示的那个,无关内容。交换顺序再取平均是一种标准的预防措施。
  • 冗长与风格偏见。 模型裁判常偏爱更长、更精巧、听起来更自信的答案,即便一个简短正确的答案更好。光鲜的形式可能压过正确的实质。
  • 自我偏好。 裁判可能偏爱那些与它自己风格相像、或它自己本会产出的输出,这会扭曲模型之间的比较。
  • 易受问题措辞的影响。 评分标准如何措辞能左右裁决,所以给裁判的提示词本身就是一个你必须做对的设计产物。

最深的风险是循环性:如果你用一个模型去评判一个模型,而两者共享同样的盲点,那么裁判会乐呵呵地把自信的胡说评为优秀,因为它共享同样的误解。评估看起来严谨,测量的却是错的东西。

让裁判值得信赖

这些问题没有一个意味着你该抛弃模型裁判;它们意味着你该把它的输出当作证据,而非裁决。一些有帮助的做法:

  • 用人类来验证裁判。 定期检查模型裁判的裁决,是否在一个样本上与审慎的人类判断一致。如果它们分歧,信任人类并重新校准。
  • 控制已知偏见。 随机化答案顺序,盯着裁判是否只是奖励长度,并设计那些要求具体标准、而非含糊整体感觉的评分标准。
  • 使用清晰、具体的评分标准。 一个被明确告知该看什么的裁判,比一个被问开放式"哪个更好?"的裁判更可靠。
  • 在高风险时把人留在回路里。 用便宜的模型判断来快速迭代,把人类评估留给那些真正要紧的决策。

目标是一个分层的系统:用自动判断换取速度和规模,再用定期的人类判断作为真值来锚定它。

总结

基准测量的是易于打分的东西,而模型所做的最有价值的事情并不易于打分。这把评估推向了判断——来自人,他们是黄金标准,却慢、不一致、并悄悄带有偏见;也来自充当裁判的模型,它们快而便宜,却带着自身系统性的偏见,并冒着一个循环陷阱的风险,即一个模型奖励它自己的盲点。两种裁判都不是神谕。可靠的路径是:用模型裁判换取规模,用人类来验证它们,控制你已知存在的偏见,并让人类判断锚定那些算数的决策。好的评估不是一个数字——而是知道该在多大程度上信任你手上那个数字。

#evaluation#llm-as-judge#benchmarks#alignment