ベンチマークを越えた評価:人間とモデルの審判
ベンチマークは採点しやすいものを測ります。自由形式の仕事には判断が要ります——人から、あるいは人の代わりを務めるモデルから。どちらも人を惑わせえます。
長らく、機械学習の進歩はベンチマークで測られてきました。正解の分かっている固定データセットで、モデルのスコアは単にどれだけの頻度で正解するかです。ベンチマークは、当てはまるときには素晴らしい。客観的で、再現可能で、比較可能です。困るのは、モデルが今行う最も面白いこと——エッセイを書く、概念を説明する、コードを起草する、役立つ会話を保つ——には、照合できる単一の正解がないことです。その種の仕事を評価するには判断が要り、判断は厄介です。
この記事は、分野がどう対処するかについてです。ベンチマークが尽きたら、審判に頼ります。その審判が人であることもあります。ますます、他のモデルであることも。どちらのアプローチも有用で、どちらも密かにあなたを誤らせえます。
なぜベンチマークでは足りなくなるのか
ベンチマークは、正しさが明確に定義されているとき機能します。モデルは画像を正しくラベル付けしたか? 方程式を解いたか? それは自動で採点でき、数字を信頼できます。
自由形式のタスクはこれを壊します。2つのモデルがそれぞれ記事の要約を書くとします。どちらが優れているか? 「優れている」は今や、正確さ、網羅性、明快さ、トーン、長さ、そして重要なことを省いていないか——完全一致のスコアでは捉えられない性質の束に依存します。参照要約との重なりのような代理指標を発明できますが、それは真の品質ではなく表面的な類似を報い、たまたま違う言い回しの優れた要約は低く採点されます。
もっと巧妙な失敗もあります。ベンチマークはゲーム化され、飽和しうるのです。いったんベンチマークが目標になると、システムはその特定のテストに最適化され、高スコアは一般的な能力を反映しなくなります。モデルはベンチマークで満点を取りながら、実際の利用では不快だったり当てにならなかったりしえます。そこで分野は、人間が実際に出力を判断する仕方により近い評価方法に手を伸ばします。
人間評価:但し書きつきのゴールドスタンダード
自由形式の品質を判断する最も直接的な方法は、人に尋ねることです。モデルの出力を人間に見せて評価してもらうか、2つの出力を見せてどちらを好むか尋ねます。選好の比較が人気なのは、「これらのどちらが優れているか?」が、人にとって「これを1から10で採点せよ」よりはるかに容易で信頼できる問いだからです。
人間の判断は、主観的な品質について私たちが持つ真実に最も近いものであり、現代のモデルが役立つよう整合される仕方の大部分を支えています。しかしそれはきれいな信号ではありません。
- 遅く、高コスト。 人は自動指標よりはるかにコストがかかり、評価できる量を制限します。
- 一貫しない。 異なる人は意見が食い違い、同じ人が日によって自分自身と食い違います。ノイズを均すには多くの評価が必要です。
- 予測可能な形で偏っている。 評価者は、より長い回答、より自信ありげに聞こえる回答、より体裁の整った回答を好みえます——それらが実際には優れていなくても。微妙に間違った流暢な散文に動かされうるのです。
ですから人間評価は、ゴールドスタンダードであると同時に欠陥のある計器でもあります。規律は、問いをうまく設計し、十分な評価を集め、潜んでいると分かっている偏りを警戒することにあります。
審判としてのモデル
人間評価がこれほど高コストなので、自然な発想が定着しました。有能なモデルに判断をさせるのです。強いモデルに、タスク、候補の回答(または比較する2つの回答)、そしてルーブリックを与え、採点するか勝者を選ぶよう求めます。これはふつうLLM-as-judgeと呼ばれます。
魅力は明白です。モデルの審判は速く、安く、24時間利用可能で、毎回同じ指示に従うという狭い意味で完璧に一貫しています。人間のパネルがひと握りを扱う時間に、何千もの出力を評価でき、さもなければ測るには高すぎる変更のテストを実用的にします。多くの自由形式のタスクで、強いモデルの選好は人々が好むものとそこそこよく一致します——速い反復に本当に有用なほどに。
これが現代の評価の主力になったのは、まさにボトルネックを解くからです。しかしそれは独自の危険のカタログを伴い、モデルの審判を神託として扱うのは、自分を欺くレシピです。
モデルの審判はどう人を惑わせるか
モデルの審判には偏りがあり、それが自動化されているため、その偏りはあらゆる判断に体系的に適用されます——少なくとも均される人間のノイズよりも悪くなりうるのです。
- 位置と順序の効果。 2つの回答を比較するとき、審判は内容に関係なく、先に(または後に)示されたほうを好みえます。順序を入れ替えて平均するのが標準的な用心です。
- 冗長さとスタイルの偏り。 モデルの審判は、短い正しい回答のほうが優れているときでも、より長く、より凝った、より自信ありげに聞こえる回答をしばしば好みます。磨かれた形が、正しい中身に勝ちうるのです。
- 自己選好。 審判は、自分のスタイルに似た、または自分が生み出したであろう出力を好みえ、モデル間の比較を歪めます。
- 問いの枠組みへの感受性。 ルーブリックがどう言い回されるかが評決を揺らしうるので、審判へのプロンプト自体、あなたが正しく作らねばならない設計物です。
最も深いリスクは循環性です。モデルを判断するためにモデルを使い、両者が同じ盲点を共有していれば、審判は同じ誤解を共有しているがゆえに、自信ある戯言を喜んで優秀と評価します。評価は厳密に見えて、間違ったものを測ります。
審判を信頼できるものにする
これらの問題のどれも、モデルの審判を捨てるべきだという意味ではありません。その出力を、評決ではなく証拠として扱うべきだという意味です。役立つ実践は次のとおりです。
- 審判を人間に対して検証する。 モデルの審判の評決が、サンプルでの注意深い人間の判断と一致するか定期的に確認します。食い違うなら、人間を信頼し、較正し直します。
- 既知の偏りを統制する。 回答の順序をランダム化し、審判が単に長さを報いていないか見張り、漠然とした全体の雰囲気ではなく具体的な基準を求めるルーブリックを設計します。
- 明確で具体的なルーブリックを使う。 何を見るべきか正確に告げられた審判は、自由形式の「どちらが優れているか?」を尋ねられた審判より信頼できます。
- 高リスクでは人間をループに保つ。 安いモデルの判断で速く反復し、本当に重要な決定には人間評価を取っておきます。
ゴールは層をなすシステムです。速度と規模のための自動判断を、真実のための定期的な人間の判断で錨づけするのです。
まとめ
ベンチマークは採点しやすいものを測り、モデルが行う最も価値あることは採点しやすくありません。それが評価を判断へと押しやります——ゴールドスタンダードだが遅く、一貫せず、密かに偏った人間から、そして、速く安いが独自の体系的な偏りを抱え、モデルが自らの盲点を報いる循環の罠を冒すリスクのある、審判として振る舞うモデルから。どちらの審判も神託ではありません。信頼できる道は、規模のためにモデルの審判を使い、それらを人間に対して検証し、存在すると分かっている偏りを統制し、重要な決定を錨づけする人間の判断を保つことです。良い評価は1つの数字ではありません——手元の数字をどれだけ信頼すべきかを知ることなのです。
