創発的能力：本物か、それとも蜃気楼か

大きなモデルは、小さなモデルにない技能を突如「会得する」かに見えます。それは本物の相転移か、測り方の手品か。正直な答えは「両方」です。

research2026-04-03 08:35 KST·編集長·7 分

大規模言語モデルについての最も印象的で、最も論争を呼ぶ主張の一つは、それらが創発的能力を示すというものです。すなわち、小さなモデルには欠けており、モデルが規模のある閾値を越えたとき、見たところ一斉に現れる技能です。そのイメージは劇的です――そこになかった能力が、突如としてスイッチオンになる。これは、スケーリングがどこへ向かうのかについての興奮と不安の双方を煽ってきました。同時に、激しく異議を唱えられてもきました。正直な姿は、誇大宣伝にも論破にも示唆されるよりも、もっと興味深いものです。

すべての中心にある問いはこうです。大きなモデルができることを小さなモデルができないとき、それはモデルにおける真の相転移なのか、それとも私たちが選んだ測り方の産物なのか。これを正しく捉えることは、スケーリングが何をもたらし、何をもたらさないかをどう考えるかにとって重要です。

「創発的」が意味するはずのもの

主張は具体的です。あるタスクでのモデルの性能が、幅広い小さなサイズの範囲では横ばいでほぼ役に立たないままで、モデルが一定の規模を越えると急激に上昇するとき、その能力は創発的と呼ばれます。サイズに対してプロットすると、その曲線は平らな線のあとに突然の上向きの崖が続くように見えます。能力は、それまでの滑らかな続きではなく、質的に新しいものに見えるのです。

これは「大きなモデルのほうが良い」より強い主張です。一般的に良いというのは予想されることで、スケーリング則の滑らかな曲線に従います。創発はそれに何かを付け加えます。すなわち、ある種の能力は徐々に獲得されるのではなく、閾値を越えると一気に存在し始め、しかも小さなモデルを観察しても予測できなかった形で、というのです。もし本当なら、それはスケーリングに驚きが潜むことを意味します――突如やって来るまで予見できない能力が。

なぜ人々はそれを信じたのか

その信念は何もないところから来たのではありません。多くのタスクにわたって、研究者は本当にこのパターンを観察しました。小・中規模のモデルは当てずっぽうの水準のスコアで、その後、より大きなモデルが良いスコアを出し、その跳躍が狭い規模の帯に集中して現れる、と。多段階の推論、ある種の算術、込み入った指示への追従――これらはしばしば、ある規模より上でだけ入るスイッチを持っているように見えました。

こうしたタスクでは、小さなモデルは単に劣っているのではなく、本当に能力がないように見えたのです。多段階の問題を毎回まるごと間違えるモデルは、それを正しく解くモデルとは、種類が違って見えます。「決してできない」から「しばしばできる」への飛躍は、程度ではなく種類の変化に感じられます。その直感――何か新しいものが現れたという直感――こそ、創発をこれほど説得力があり、広く語られる発想にしたのです。

興をそぐ反論

そこへ鋭い批判が現れ、それは測定に着地しました。創発が現れたタスクの多くは、全か無かの方式で採点されていました。完全に正しい答えにのみ満点を与え、それ以外には何も与えない、と。多段階の問題で、十のうち九のステップを正しくこなしても、その規則のもとではゼロ点です。

そのような尺度のもとでは、モデルは着実かつ目に見えず改善していても――より多くのステップを正しくこなすようになっていても――スコアはゼロに張り付いたままになりえます。まだすべてを正しくこなす一線を越えていないからです。そしてついにその線を越えたとき、スコアは跳ね上がります。根底にある能力は滑らかに伸びていた。突然の跳躍に見せたのは、厳しい採点規則だけだったのです。部分点を与えるより緩やかな尺度で測ると、創発的とされた曲線の多くは、スケーリング則が予測するのと同じ滑らかな改善へとまっすぐになります。この見方では、崖はモデルではなく、ものさしの中にあったのです。

なぜこれで話が終わらないのか

創発はまったく測定の幻だと結論づけられればきれいですが、それは行き過ぎです。批判は、ある程度の見かけの創発が尺度の産物であること、そして全か無かの採点が滑らかな進歩から崖を作り出しうることを、説得力をもって示します。しかし、あらゆる驚くべき能力の向上がそう説明されることを示すわけではありません。

根底の曲線が滑らかなときでさえ、ある点を越えて初めて能力が使えるようになる、という現実的で重要な意味があります。技術的には存在するが、千回に一度しかタスクを完了できない能力は、実用上は存在しないも同然です。同じ能力がほとんどの場合タスクを完了するなら、実用上は新しいのです。モデルを使う人の立場からすれば、内部の曲線が終始緩やかだったとしても、その移行は重要です。根底が滑らかでも、利用にとっては意味のある閾値でありうるのです。

三つの異なる主張をほどく

人々が創発で意味する三つのものを切り分けると、混乱は晴れます。第一は滑らかな能力の成長で、これはスケーリングが予想どおり働いているだけで、驚くべきことではありません。第二は厳しい尺度が引き起こす急な曲線で、これは大部分が産物であり、より良い測定で滑らかにできます。第三は有用性の真の閾値で、徐々に改善する能力が非実用的から実用的へと越え、実際のところモデルが何に役立つかを変えるものです。

激しい議論のほとんどは、これらを一つの主張であるかのように論じることから来ます。興をそぐ批判は主に第二を標的にします。興奮した報道はおおむね第三に気づきました。そして第一がそのすべての土台にあります。創発が「本物か」をめぐる意見の不一致は、たいてい、誰がこの三つのどれを念頭に置いているかの不一致だと判明します。

これが未来予測にとって意味すること

実践的に懸かっているのは予測です。能力が予測不可能な閾値を越えて本当に何もないところから現れるなら、スケーリングについて筋道立てて考えるのは本当に危ういことになります――次のモデルが突然何をできるようになるか、決して分からないからです。尺度への批判はここで部分的に安心材料になります。見かけの予測不可能性の多くは、注意深く測れば、滑らかで予測可能な傾向へと溶けていくのです。

ですがその安心は不完全です。根底の進歩が滑らかでも、モデルが何に役立つかには急な変化が起こりえ、そうした実用的な閾値は、その下にある滑らかな曲線よりも予測が難しいのです。ですから責任ある立場は、「いつ何が創発してもおかしくない」でも「本当に創発するものなど何もない」でもありません。能力は滑らかに伸びる傾向がある一方、有用性は突然移りうること、そして注意深い測定こそが、どちらなのかを見分けさせてくれるということです。

まとめ

創発的能力は、何を意味するかによって、本物であると同時に蜃気楼でもあります。 劇的でスイッチが入るような見かけの多くは、全か無かの採点の産物です。緩やかに測れば曲線は滑らかで、スケーリングは予測どおりに振る舞います。ですが、徐々に改善する能力はなお、無用から有用への真の閾値を越えうり、その実用上の跳躍は、モデルの内部で不連続なことが何も起きていなくても重要です。滑らかな成長、尺度の産物、有用性の閾値を切り分ければ、議論はイエスかノーの争いであることをやめ、最初からそうあるべきだったもの――注意深い測定の問題――になります。

#emergence#scaling#evaluation#research

一次資料

arXiv — machine learning research Stanford CRFM — HELM