大規模言語モデルはどう訓練されるのか、平易な言葉で
言語モデルの訓練は1つの魔法のステップではなく、段階を踏んで進みます。各段階が何をするのか、なぜ順番が重要なのかを平易な言葉で解説します。
大規模言語モデルは、単一の完成した物のように感じられます——何かを打ち込めば、答えが返ってくる。しかしあなたに答えているそれは、段階を踏んで作られており、各段階は異なる仕事をします。「AIはインターネットから学んだ」とだけ思い描いていると、モデルがなぜそう振る舞うのかを取りこぼします。なぜ時に自信たっぷりに間違えるのか、そもそもなぜ指示に従うのか、なぜ似たデータで訓練された2つのモデルがこれほど違って感じられるのか。この記事では、起こる順番に沿って、主要な段階を平易な言葉で見ていきます。
核心の発想:次のテキストの断片を予測する
専門用語を取り払うと、言語モデルが行うのは1つだけです。次に来るものを予測すること。ひと続きのテキストが与えられると、次に来うる各断片がどれくらい起こりやすいかを見積もり、その中から選び、繰り返します。それが機械的な仕事のすべてです。
これを強力にしているのは、次の断片をうまく予測することが、結果として大量の暗黙の知識を要するという点です。「その国の首都は」を締めくくる語を当てるには、モデルは地理について何かを吸収していなければなりません。コードの断片を正しく続けるには、構文について何かを吸収していなければなりません。誰もこれらの事実を直接プログラムしません。それらは、膨大な量のテキストにわたって予測がとても上手になることの副産物です。心に留めておきましょう。モデルが「知っている」すべては、予測のために拾い上げた知識であって、真実として手渡された事実ではありません。
第一段階:事前学習
最初で最大の段階が事前学習です。モデルは膨大な量のテキストを見せられ、次の断片を予測するよう繰り返し求められ、間違えるたびに内部設定が少しずつ調整されます。数十億回に及ぶこれらの小さな修正を経て、言語がどう働くか、何の後に何が続きやすいかについての統計的な感覚を築きます。
この段階についていくつか理解しておく価値があります。
- 自己教師あり学習である。 誰もデータに手作業でラベルを付けません。各予測の「正解」は単に実際の次のテキストの断片であり、それはすでにそこにあります。だからこそスケールできます。教師信号がタダなのです。
- 広く、振る舞いのために整備されてはいない。 事前学習データはテキストの広い掃き寄せです。モデルはそのテキストのパターンを学びます——役立つものも役立たないものも一様に。まだ「アシスタント」であるという感覚はありません。
- 群を抜いて最も高コストな段階である。 モデルの訓練と聞いて人々が連想する重い計算コストは、ほとんどここにあります。
事前学習の後に得られるのは、流暢で博識だが、話し相手として特に有用ではないモデルです。それは、パターンが示唆するどんな方向にもあなたのテキストを喜んで続けます——質問応答ページのスタイルを真似るために、あなたの実際の質問を無視することすら含めて。マナーのない、剥き出しの能力です。
第二段階:指示に従うことを教える
次の段階は、「テキストを続けられる」と「頼まれたことをする」の間の溝を埋めます。これはしばしば指示チューニングまたは教師ありファインチューニングと呼ばれます。モデルはここにリクエスト、ここに良い応答という形の例を多数見せられ、その形で応答を生み出すことを学びます。
これは事前学習よりも小さく、より意図的な段階です。例は、望む振る舞いを示すために書かれるか整備されます。直接答える、フォーマットの要求に従う、断るべきものを断る、不確かさを認める。モデルは事前学習から基盤となる能力をすでに持っています。この段階は、その能力を、役立つアシスタントであるという仕事に向けて向けるのです。
ここでの重要な発想の転換は、指示に従うことは訓練されるものであって、生得的ではないということです。モデルは、あなたの質問のジャンルを真似るよりも質問に答えるよう、自然に傾いてはいません。そうするのは、これが期待される振る舞いだと繰り返し示されたからです。
第三段階:選好から学ぶ
実演にも限界があります。多くのリクエストには単一の正解がありません——より良いものと、より悪いものがあるのです。それを捉えるため、モデルは選好から学ぶ段階を経ます。人間(そしてますます、採点者として振る舞う他のモデル)が2つの応答を比較し、どちらが良いかを示します。そしてモデルは、好まれるものをより多く、好まれないものをより少なく生み出すよう調整されます。
この最もよく知られた形が**人間のフィードバックからの強化学習(RLHF)**ですが、いくつもの変種が存在します。仕組みは異なりますが、ゴールは同じです。単にもっともらしいのではなく、人々が実際に役立ち、誠実で、適切だと感じる応答へとモデルの傾向を形づくることです。
この段階が、モデルの「人格」の多くを説明します。言葉を濁すか言い切るか、繊細なリクエストをどう扱うか、既定でどれだけ冗長か——その多くは、剥き出しの知識ではなく選好訓練の残滓です。安全に関する振る舞いの多くが植え付けられるのもここです。
それでもモデルが間違える理由
段階を理解すると、失敗モードの謎が解けます。
モデルがハルシネーションを起こす——偽りを自信をもって述べる——のは、その核心の技能がもっともらしい続きを生み出すことであり、流暢な間違った回答が、誠実な「分かりません」よりももっともらしく聞こえうるからです。訓練はこれに抗いますが、目的そのものに焼き込まれた傾向を完全には取り除けません。
モデルに知識カットオフがあるのは、事前学習がある時点までに集めたデータを使ったからです。それ以降の出来事は、単に学習したテキストに含まれていなかったのです。
モデルが一貫しないことがあるのは、固定されたデータベースから読み出すのではなく、起こりうる続きの分布からサンプリングしているからです。同じことを2回尋ねれば、その分布をたどる経路が違いうるのです。
これらはどれも通常の意味でのバグではありません。それは、この物がどう作られているかから直接導かれます。
評価と反復はどこに収まるのか
訓練は、開始から完成品まで一直線ではありません。これらの段階の間や後で、モデルは評価されます——タスクでテストされ、安全でない振る舞いを探られ、退行がないか確認され——その結果がさらなるチューニングへとフィードバックされます。実際のモデルは、訓練し、測定し、調整し、繰り返すという何ラウンドもの出力です。上記のきれいな三段階の話は背骨です。実際にはその上に大量の反復が重なり、その多くはテスト中に見つかった特定の弱点を直すことに向けられます。
まとめ
言語モデルは1ステップで訓練されるのでも、単に「インターネットを圧縮したもの」でもありません。テキストを予測し広い知識を吸収するよう事前学習され、指示に従うようチューニングされ、役立ち安全であることへ向けて選好で形づくられます——そのすべてに評価と反復が織り込まれています。各段階は、完成品に見て取れる何かを説明します。事前学習は知識と流暢さを与え、指示チューニングはあなたに答える習慣を与え、選好訓練はマナーと判断力を与えます。モデルが驚かせるとき——自信たっぷりに間違える、妙に慎重、最近の出来事の前で止まっている——その振る舞いはたいてい、これらの段階の1つにたどれます。その心的モデルは、機械が「学んだ」単一の謎めいた瞬間を思い描くよりも、はるかにあなたの役に立つでしょう。
