事前学習・ファインチューニング・アライメントの違い

モデルがどう作られるかを説明するとき、三つの言葉が混同されがちです。これらは異なる役割を持つ別々の段階です。それぞれが何をするのかを解説します。

research2026-04-08 17:04 KST·編集長·7 分

現代の言語モデルがどう作られるかを説明するとき、三つの言葉がほぼ互換的に使われます。事前学習、ファインチューニング、そしてアライメントです。これらは同じものではありません。順番に行われる三つの異なる段階であり、それぞれが異なる目標、異なる種類のデータ、そして最終的なモデルへの異なる効果を持ちます。これらを混同すると、モデルに何ができるか、なぜそのように振る舞うかについて、混乱した期待を抱くことになります。

おおまかな形はこうです。事前学習はモデルに生の知識と流暢さを与え、ファインチューニングは特定のタスクを有用な形でこなすよう教え、アライメントは振る舞い方と何を拒むかを形づくります。知識、技能、振る舞い。三つの異なるものが、三回のパスで作られるのです。

事前学習：テキストから世界を学ぶ

事前学習は最初の、そして圧倒的に最大の段階です。モデルは膨大な量のテキストを見せられ、一見ごく単純な仕事を与えられます。次に来るものを予測することです。何度も何度も、想像を絶する量の素材にわたって、次のテキストの断片を当て、間違えれば自らを調整します。

これは些細に聞こえますが、人類が書いたあらゆるものにわたって次の語をうまく予測するには、モデルはその過程で驚くほど多くを吸収しなければなりません。文法、事実、文体、推論のパターン、論証の構造、対話のリズム。次語予測がタスクですが、広範な能力はその副産物です。ここでモデルは流暢さと、知っていることの大半を獲得します。

事前学習について肝心なのは、それが意図的に焦点を絞っていないということです。モデルは、役に立つこと、質問に答えること、指示に従うことを学んでいるわけではありません。あらゆる種類のテキストを続けることを学んでいるのです。事前学習を終えたばかりのモデルは、膨大な知識を持ちながらほとんど使い物になりません。質問をすると、さらに質問を続けるかもしれません。それが、見てきたテキストのもっともらしい続きだからです。知性の生の素材を持ちながら、作法はまったく持っていないのです。

ファインチューニング：知識を使える技能に変える

ファインチューニングは、広範に有能だが焦点の絞られていない事前学習済みモデルを取り、特定の有用なやり方で振る舞うよう教えます。差別化されていないテキストの大海ではなく、望ましい振る舞いを示す、より小さく厳選された一連の例を見せられます。良い答えと対になった質問、正しい応答と対になった指示、正しい出力形式と対になったタスクです。

モデルは事前学習からすでに多くを知っています。ファインチューニングは新しい事実を教えるというより、知っていることをどう活かすかを教えます。テキストが質問のように見えるなら期待される続きは答えであること、指示は繰り返すのではなく従うべきこと、要約の依頼には要約で応えるべきことを学びます。生の能力はすでにそこにありました。ファインチューニングはそれを使える形に導きます。

この段階は事前学習よりもはるかに小規模で安価です。モデルを一から作るのではなく、既存のモデルを操舵しているからです。また、ほとんどのタスク固有の適応が起きるのもここです。同じ事前学習済みの基盤を、有用なアシスタントへ、コーディングツールへ、狭い専門家へと、異なる方向にファインチューニングできます。高価な最初の段階をやり直すことなく、です。

アライメント：振る舞い、価値観、判断を形づくる

アライメントは、モデルが有能で有用になった後で、どう振る舞うかに関わります。ファインチューニングされたモデルは質問に答え、指示に従えますが、それだけでは不十分です。私たちはまた、知らないことについて正直であってほしい、有害な依頼を断ってほしい、事実を自信たっぷりに捏造するのを避けてほしい、単にもっともらしいだけでなく真に役立つトーンで応えてほしいと望みます。アライメントは、こうした性質に取り組む段階です。

アライメントを定義づける難しさは、望ましい振る舞いを例だけで指定するのが困難だという点にあります。数学の問題への正しい答えを書くのは簡単です。曖昧で、繊細で、あるいは敵対的な依頼を、モデルがどう扱うべきかを一例ずつ正確に書き出すのははるかに困難です。そこでアライメントはしばしば別のシグナルに頼ります。二つの応答のどちらが優れているかという人間の判断を使い、固定された解答集ではなく、好ましい振る舞いの一般的な感覚をモデルに教えるのです。

その結果として、技能だけでなく、その傾向、すなわち有用さ、慎重さ、不確実性についての正直さが形づくられたモデルが得られます。よく作られたアシスタントが危険なことへの協力を断り、自信がないときにそれを認め、脱線せずに本題にとどまるのは、アライメントのおかげです。それは、物事をこなせるモデルと、実際にそれを任せて信頼できるモデルとの違いです。

順序が重要な理由

これらの段階は互換的ではなく、この順序で起きなければなりません。まだ技能を持たないモデルをアライメントすることはできず、知識を持たないモデルに技能を与えることはできません。各段階はその下の層の上に築かれます。

事前学習は知識と流暢さの生の基盤を供給します。その上で働くファインチューニングは、それを有用なことをこなすツールへと形づくります。さらにその上で働くアライメントは、実際の利用が投げかける開かれた厄介な状況で、ツールがどう振る舞うかを規律します。基盤を飛ばせば後の段階には扱う材料がなく、後の段階を飛ばせば、作法も判断も持たない生の能力が残ります。

なぜそれほど多くの知識が最初の段階から来るのか

よくある誤解は、モデルがファインチューニングやアライメントの間に事実を学ぶというものです。ほとんどの場合、そうではありません。モデルが知っていることの圧倒的大部分は、データの大半を見る事前学習の間に刻み込まれます。後の段階は比較的ごく小さく、振る舞いと形式に関するもので、新しい情報を読み込むことではありません。

これには実務上の帰結があります。モデルに知識が欠けているなら、最近の出来事についてであれ、あなたの私的な文書についてであれ、ファインチューニングやアライメントはたいてい解決策になりません。知識が入るのはそこではないからです。より適切な手段は、尋ねる時点でモデルに情報を与えること、あるいは多大な費用をかけて、知識中心の最初の段階の一部をやり直すことです。どの段階が何をするかを理解すれば、どのレバーに手を伸ばすべきかが分かります。

これらの段階のどれもが保証しないこと

三つすべての限界について明確にしておく価値があります。どれもモデルを誤りなきものにはしません。事前学習は、データに存在する誤りやバイアスを吸収しうるのです。ファインチューニングは、正確にすることなくタスクに流暢にしうるのです。アライメントは、訓練された場合の振る舞いを形づくる一方で、訓練されなかった場合には隙間を残しうるのです。これらの段階は問題を減らしますが、なくしはしません。

特に、よくアライメントされ、よくファインチューニングされたモデルでも、自信たっぷりで流暢で間違った答えを生み出しうるのです。流暢さと真実は別物であり、直接訓練されるのは前者だけだからです。三段階のプロセスは、今日の最も有能でよく振る舞うモデルが作られる方法ですが、それは傾向を形づくるプロセスであって、保証を組み込むものではありません。その出力を構造的に信頼できるものとして扱うことが、プロセス自体が防げない誤りなのです。

まとめ

事前学習、ファインチューニング、アライメントは、三つの役割を持つ三つの段階です。知識、技能、振る舞い。 事前学習は、流暢で博識だが焦点の絞られていない状態になるまで、モデルをテキストで満たします。ファインチューニングは、その生の能力を有用なタスクの振る舞いへと形づくります。アライメントは、実際の利用が要求する開かれた状況で、モデルがどう振る舞うかを規律します。これらは順番に互いの上に築かれ、モデルが知っていることの大半は最初の段階で到来します。三つを区別しておけば、モデルに何ができて何ができないかについての多くの混乱が解けます。

#pretraining#fine-tuning#alignment#training

一次資料

Hugging Face — Transformers and training documentation Anthropic — documentation