なぜモデルには知識カットオフがあるのか
モデルの知識がある日付で止まるのは、知識が訓練時に凍結されるからです。なぜそうなるのか、ツールがどう回避するのかを解説します。
ごく最近のことについてモデルに尋ねると、知らないという丁寧な告白が返ってくるかもしれませんし、もっと悪い場合は、時代遅れの自信ある回答が返ってきます。これが知識カットオフです。それを超えるとモデルの内蔵知識が単純に止まる時点のことです。これは人々を驚かせます。私たちは更新されるソフトウェアや、今この瞬間の世界を反映する検索エンジンに慣れているからです。言語モデルは、その仕組みに根ざした形で異なっており、それは誰かが直し忘れた一時的な制限ではありません。なぜカットオフが存在するかを理解すれば、そのもどかしさと、標準的な回避策の両方が分かります。
知識は訓練時に焼き込まれる
鍵となる事実は、モデルの知識はリアルタイムで参照されるのではなく——訓練中に一度吸収され、そして凍結されるということです。モデルがどう作られるかを思い出してください。膨大な量のテキストを見せられ、そのテキストをうまく予測するよう内部の数値を調整します。その過程で、そのテキストに含まれるパターンと事実を吸収します。訓練されたデータの中で世界がどう見えていたか、それがモデルの「知っている」世界です。
重要なのは、そのデータがある時点までに集められ、それ以上ではないということです。訓練は、その時点で利用可能なテキストのスナップショットを取ります。訓練が終わると、モデルのパラメータは固定されます。世界が進んでいっても、新しい情報を吸収し続けることはありません。モデルは出来事のライブフィードにつながっていません。それは、ある日付まで集中的に学び、それからまったく読むのをやめた、とても博識な人物に近いのです——その日付以降のすべては、彼らにとって空白です。
ですからカットオフは、誰かが適用したフィルターではありません。スナップショットの自然な縁です。モデルが訓練データの終わり以降の出来事を知りえないのは、印刷された百科事典が印刷に回された後に起きたことを記述できないのと同じ理由です。
なぜ自分で更新できないのか
もっともな問いです。なぜモデルは、新しい情報が来るたびに単純に学ばないのか。答えは、モデルの実際の知識を更新するとはパラメータを変えることを意味し、それは訓練を意味するからです——会話中にその場で起こることではなく、重く意図的なプロセスです。
モデルと話すとき、あなたは固定された一組のパラメータを使っています。あなたが言うことは、モデルの知っていることを恒久的には変えません。次の人は同じ未更新のモデルを受け取ります。本当に新しい知識をモデルの重みに加えるには、訓練プロセスを走らせなければならず、それは高コストで、連続的にではなく明確なラウンドで行われます。だからこそ新しい知識は、徐々に自己更新するシステムとしてではなく、離散的な跳躍——より遅いカットオフを持つ、より新しいバージョンのモデル——として到来します。あなたが使っているモデルは固定された成果物であり、固定された成果物には終了日があるのです。
カットオフはきれいな線ではなく、ぼやけている
カットオフを鋭い壁——以前のすべては既知、以降のすべては未知——として思い描きたくなります。現実はもっとぼやけており、そのぼやけが独自の混乱を引き起こします。
カットオフに近づくにつれ、カバーは薄くなります。訓練データの縁近くの最近の出来事は、たいてい、より古くより徹底的に記録されたものよりも表現が乏しい——スナップショットが取られる前に、世界がそれについて書く時間が少なかったからです。だからモデルは、技術的には訓練期間に収まっていても、カットオフの少し前のことについて不確かでありうるのです。
トピックによって実効的な新しさも異なります。盛んに議論された主題は速く濃密に吸収され、ニッチなトピックはカットオフよりずっと前でもまばらかもしれません。結果として、「モデルが知っていること」は、ある日付まで一様でその後は空白、ではありません。縁の近くで、不均一に、薄れていきます。明示されたカットオフは、おおよその境界として扱い、そこまでの完全な知識の保証としては扱わないこと。
危険な失敗モード
モデルがカットオフ以降のすべてについて常に「分かりません」と言うなら、カットオフは無害でしょう。本当の危険は、時にそう言わないことです。モデルの核心の技能はもっともらしく聞こえるテキストを生み出すことなので、古い情報を使って最近の出来事について自信たっぷりに答えたり——あるいは単にもっともらしく聞こえる何かで隙間を埋めたりしうるのです。
これが警戒すべき失敗モードです。モデルは自分が知らないことを確実には知らないかもしれず、「今日」という内蔵の感覚を持ちません。最近の動きについて尋ねれば、完璧に最新であるかのように聞こえながら訓練データ時点の状況を教えるかもしれませんし、でっち上げるかもしれません。どちらにせよ危険は、回答が権威ありげに見えることです。カットオフが最も危険なのは、まさにモデルが、自分がそこに達したと告げないときなのです。
ツールはどう回避するのか
標準的な対処法は、時間に敏感なことについてモデルの凍結された記憶に頼るのをやめ、代わりに尋ねるその瞬間に新鮮な情報を与えることです。2つの関連したアプローチが支配的です。
第一は検索です。モデルが答える前に、システムが関連する最新の文書——検索インデックス、データベース、一連のファイルから——を取得し、そのテキストをあなたの質問とともにモデルの文脈に置きます。するとモデルは、内部の記憶ではなく目の前の材料に基づいて答えます。これが検索拡張生成の発想であり、モデルに現在の情報を反映させる最も一般的な方法です。
第二はツール使用です。モデルが、ライブ検索などの外部ツールを呼び出し、その結果を応答に取り込むことを許されます。ここでモデルは、記憶から当て推量するのではなく、必要なときに実質的に新鮮なデータへ手を伸ばします。
共通する糸は、どちらのアプローチもモデルが知っていることを変えないという点です。それらは、回答時にモデルが見られることを変えます。凍結された知識は凍結されたまま。回避策は、動く情報を外部から供給し、モデルが古いスナップショットに頼るのではなく現在のテキストの上で推論するようにすることです。
カットオフと付き合う
いくつかの実践的な習慣が導かれます。最近のことや変化の速いこと——時事、最新バージョン、価格、誰かの現在の状況——については、モデルの助けのない記憶を信頼しないこと。内蔵知識は古びているかもしれないと仮定し、検証するか新鮮な出典を供給します。回答が最近の情報に依存すべきときに気づくこと。そこがまさにカットオフが噛みつく場所だからです。現在の事柄での正確さが重要なときは、モデルに思い出させるよりも、ライブデータを検索するかツールを使う構成を好みます。そして、より遅いカットオフは良いが決して今ではないことを覚えておきましょう。新しく訓練されたモデルでさえ、データが集められた分だけ現在より遅れているのです。
まとめ
知識カットオフが存在するのは、モデルの知識が訓練中に一度吸収され、その後パラメータに凍結され、世界が進んでも更新されないからです。モデルは、学んだテキストの固定されたスナップショットであり、そのスナップショットはある日付で終わります——縁に近づくにつれカバーが薄れながら、ぼやけて。本当の危険は隙間そのものではなく、モデルが現在の本当の感覚を持たないまま、カットオフを越えて偽りの自信で答えうることです。信頼できる対応は、モデルの更新を待つことではなく、尋ねるときに新鮮な情報を、検索やツールを通じて与え、古い記憶ではなく現在のテキストの上で推論させることです。知識は凍結されている。現在へのアクセスは、外から加えなければならないのです。
