破滅的忘却と継続学習

ニューラルネットワークに新しいことを教えると、知っていたことを忘れがちです。この頑固な問題こそ、モデルが流れの中ではなく大きなバッチで学習する理由です。

research2026-06-06 13:46 KST·編集長·7 分

人間は連続的に学習します。月曜日に新しいスキルを身につけても日曜日に学んだことを消すことはなく、生涯にわたって絶え間ない流れの中で知識を蓄積します。ニューラルネットワークは、もどかしいことに、デフォルトではこのようには働きません。新しいタスクで訓練すると、以前知っていたことを上書きする強い傾向があり、時にはほぼ完全に上書きします。この現象には劇的で正確な名前があります。破滅的忘却です。それは機械学習で最も古く最も頑固な問題の一つであり、なぜモデルが今あるように作られているかについて多くを説明します。

それが立ちはだかる夢は継続学習です。古いものを失うことなく、新しいタスクと知識を吸収しながら、時間をかけて学び続けるモデル。私たちはそこに至っておらず、その理由を理解することは、これらのシステムがどう働くかについて本当に明らかにしてくれます。

忘却はどう見えるか

タスクAをうまくこなすよう訓練されたネットワークを思い描いてください。今やその同じネットワークを新しいタスクBで、Bのデータだけを見せて訓練します。それはBを学びます。そしてAでの性能が崩壊し、しばしば急激に。Aの知識はきれいに脇に置かれるのではなく、上書きされます。ネットワークはAとBの両方を学んだのではありません。それは事実上、かつてAのネットワークだったBのネットワークになったのです。

「破滅的」という言葉は伊達ではありません。低下は緩やかで優雅ではなく、崖になり得ます。最初のタスクで優秀だったモデルが、二つ目を学んだ後、それにほとんど役立たずになり得ます。最初のスキルを能動的に消そうとしたものは何もないのにです。忘却は学習の副作用であり、別個の出来事ではありません。

なぜそれが起きるのか

原因はニューラルネットワークが知識をどう保存するかに組み込まれており、それを見れば、この振る舞いは謎ではなく必然だと感じられます。

ネットワークは各スキルを自分の引き出しに収めはしません。知識はネットワークの重み、つまり結合の強さに保存され、それは分散され共有されています。同じ重みが多くのタスクに同時に関与します。タスクBの学習が手を触れずにおける「タスクA」を保持する清潔な区画は存在しません。

訓練は、今見ているデータの誤差を減らすように重みを調整します。そのデータがすべてタスクBなら、最適化は喜んで重みをBの誤差が望むどこへでも動かします。その重みの一部がタスクAのために慎重に配置されていたことに気づくことなく。Aを符号化していたまさにその重みがBのために転用されます。なぜならBの狭い視点からは、それらは調整すべきただの数だったからです。通常の訓練には、先に来たものへの記憶も忠誠もありません。忘却は、現在のために最適化し、過去が部屋にいないときに得られるものです。

なぜ私たちは普段それをかわせるのか

この問題がそれほど根本的なら、なぜ訓練済みモデルはそもそも機能するのでしょうか。標準のレシピが静かにそれを回避するからです。モデルは通常すべてを一度に、すべてのタスクとすべてのデータを訓練を通じて混ぜたシャッフル済みのバッチで訓練されます。各バッチがモデルが知るべきすべての代表的な混合を含むと、最適化はすべてのタスクを同時に絶えず思い出させられ、それらすべてに役立つ重みに落ち着きます。

言い換えれば、破滅的忘却への通常の答えは、そもそも物事を次々に学ばないことです。すべてを混ぜ合わせ、一つの大きなパスで訓練する。これは見事に機能し、だからこそデフォルトなのですが、それは解決策ではなく回避策でもあります。それはすべてのデータが前もって一緒に揃っていることを要します。訓練の後で、すべてをゼロから訓練し直すことなく何か新しいものを加えたい瞬間、問題は轟音とともに戻ってきます。

それが実務でどこに噛みつくか

破滅的忘却は博物館の展示品ではありません。現実の決定を形作ります。

ファインチューニングのドリフト。 広く有能なモデルを取り、狭いタスクで強くファインチューニングすると、一般的な能力の一部を失い得ます。新しいことが上手くなる一方、以前できていたことが静かに下手になるのです。これはミニチュア版の忘却であり、なぜ重度の専門化がコストを伴うかの理由です。
デプロイ済みモデルの更新。 新しい資料で少し訓練することで、ライブのモデルに新情報を教えられたら素晴らしいでしょう。しかし素朴な逐次的訓練は他のすべてを劣化させるリスクがあり、だからこそチームは重みをその場で更新することに慎重です。
再学習のコスト。 安全な道がしばしば完全な混合で訓練し直すことであるため、知識を加えることは、新しい部分を安く付け足すのではなく、高価な訓練をやり直すことを意味し得ます。

実践上の帰結は、「新しいものでもう少し訓練するだけ」が、聞こえるほど安全であることはめったにない、ということです。

継続学習へのアプローチ

モデルが忘却することなく逐次的に学べるようにすることに捧げられた研究領域が丸ごとあります。戦略はいくつかの直感的な系統に分かれます。

リハーサル。 古いデータを手元に残し、新しい訓練に混ぜ込み、現在を学びながら過去を思い出させます。最も信頼できる考えであり、「過去が部屋にいない」という原因を直接攻撃します。ただし古いデータの保存と再訪を要します。
重要な重みを保護する。 古いタスクにとって最も重要な重みを特定し、訓練がそれらをあまり変えないように抑制し、残りは新しいタスクのために自由に動かします。狙いは、安全な場所でネットワークを更新し、古い知識が住む場所では慎重に歩むことです。
新しい容量を加える。 共有された重みを上書きするのではなく、新しいタスクに自分の新鮮なパラメータを与え、古いものは無傷のままにします。これは干渉を回避しますが、モデルを成長させ、共有されるべき知識を断片化し得ます。

これらのどれも問題を完全には解決しません。それぞれが何か、つまりストレージ・柔軟性・サイズ・単純さを引き換えにして、いくらかの記憶を買い戻します。きれいな勝者が現れていないという事実そのものが、この問題がどれほど深いかのしるしです。

なぜこれが根本的に難しいのか

技法の下には、本物の緊張があり、時に安定性対可塑性として枠付けられます。学習システムは、新しいものを吸収できるほど可塑的で、古いものを保持できるほど安定している必要があります。可塑性へ押せば忘れます。安定性へ押せば何も新しく学べません。すべての継続学習の手法は、実際にはこのスペクトラム上の特定の妥協にすぎず、両方を一度に与えるただ飯はありません。生物の脳は、私たちがまだ人工のネットワークで再現する術を知らないバランスを取っているようで、それがこの問題が未解決のままである理由の一部です。

まとめ

破滅的忘却とは、ニューラルネットワークが新しいことを学ぶときに古い知識を上書きする傾向であり、それが起きるのは、知識が共有され分散された重みに住んでいて、通常の訓練がそれらがかつて符号化していたものへの記憶なしに喜んで転用するからです。この分野は、逐次的にではなくすべてを一度に訓練することでほぼそれを避けています。後から知識を加えたい瞬間に破綻する回避策です。継続学習はこれを越えようとする未解決の探求であり、すべてのアプローチは、覚えていられるほど安定し、学べるほど可塑的であることの間の深い緊張に対する妥協です。その緊張が解けるまで、「新しいことを教えるだけ」は機械学習で最も厄介な要求の一つであり続けます。

#continual-learning#forgetting#training#fine-tuning

一次資料

arXiv Hugging Face documentation