Chain-of-thought:なぜ推論ステップが効くのか

モデルに「順を追って考えて」と頼むだけで、難問への正答率が目に見えて上がります。考えてみれば不思議な話です。なぜそれが効くのかを解説します。

research2026-06-05 12:11 KST·編集長·7 分

言語モデルからより良い答えを引き出すための最も有用なテクニックの一つは、ほとんど拍子抜けするほど単純です。最終的な答えを出す前に、問題を順を追って解かせるのです。これはchain-of-thought(思考の連鎖)と呼ばれ、難しい問題では驚くほどの差を生みます。不思議なのは、そもそもこれが効くという事実です。モデルは知っていることはすでに「知っている」はずなのに、なぜ推論を語らせることが結論の質を変えるのでしょうか。その答えは、こうしたモデルがどのように計算しているのかという、ある根本的な性質を明らかにしてくれます。

手短に言えば、モデルは出力を一片ずつ生成し、一片あたりの計算量は決まっていて限られています。chain-of-thoughtは、難しい答えに到達するためのその「片」を増やし、ひいては計算量を増やしてくれるのです。ステップは飾りではありません。それは作業スペースなのです。

一度に答えようとすることの問題

複数のステップが必要な計算問題や論理問題を誰かに尋ね、何も書き出す余地を与えずに即座に最終的な答えを求める場面を想像してください。簡単な問いならそれで構いません。しかし難しい問いでは過酷です。すべての途中の推論を、何も書き出す余地のないまま、目に見えない形で一度に行うよう強いることになるからです。

言語モデルも、これと同じ制約の一種に直面します。次の一片のテキストを生成するとき、モデルは決まった量の計算を行い、一つの出力に確定します。問題がいくつもの依存し合う推論ステップを必要とする場合、即座に答えを求めれば、それらすべてのステップがその一回の計算の中に圧縮されてしまいます。本当に難しい問題では、一ステップの中にその作業を行うだけの余地が単純に足りません。モデルは多段階の推論を一発で行うよう求められ、人間が同じ状況で躓くのと同じ理由で躓くのです。

ステップを書き出すことで状況がどう変わるか

chain-of-thoughtは、そのボトルネックを巧妙な形で取り除きます。モデルが推論を順を追って書き出すと、生成された各ステップは、次のステップを生成するために読み込むテキストの一部になります。途中の結果を、どこか隠れた固定サイズのメモ帳に保持しておく必要がなくなるのです。それらは書き出され、書き出された版が次の土台として利用できるようになります。

つまり、5ステップの問題を一回の計算に圧縮する代わりに、モデルはそれを5回(あるいはそれ以上)の計算に分散させ、各回が前の回の結果を読めるようにします。ステップ1がある事実を確立し、ステップ2がその事実を使ってさらに別の事実を加える、という具合に、最終的な答えがそれぞれ固有の計算量を割り当てられた途中結果の連鎖の上に成り立つのです。モデルは事実上、計算するためのテキストを自ら増やすことで、自らに計算量を与えているわけです。

生成された推論は、事後に作られた単なる説明ではありません。それは計算が実際に起きる媒体そのものです。それを取り除けば、作業の余地も取り除かれてしまいます。

なぜテキストが多いほど計算量が増えるのか

ここが肝心な点であり、丁寧に述べる価値があります。モデルは、生成する出力の一片あたり、おおむね一定量の計算を費やします。したがって、ある問題に投入できる計算の総量は、途中でどれだけのテキストを生成するかに結びついています。

一語の答えにはその計算の一単位分が、長く書き上げられた解答には多くの単位が割り当てられます。推論を書き出すことで、モデルは単に作業過程を見せているだけではなく、結論に到達するための計算の総量を自ら買い増しているのです。各途中ステップは問題に適用される処理のもう一塊であり、それまでのステップの書面記録によって、後のステップはやり直すのではなくその上に立てるようになります。これこそ、chain-of-thoughtが、まさにいくつもの依存し合うステップを必要とする問題で最も効き、即答ですでに片づく問題ではほとんど意味をなさない理由です。簡単な問いに追加の余地は要りません。難しい問いには要るのです。

なぜステップは考えるだけでなく書き出さねばならないのか

当然の疑問があります。モデルにはどのみち内部計算があるのなら、なぜステップをテキストとして外在化する必要があるのでしょうか。黙って推論し、答えだけ出せばよいのではないでしょうか。その理由は、一ステップあたりの上限という話に戻ります。一つの出力に対するモデルの隠れた内部処理には限りがあります。一ステップの中で、任意に長い推論の連鎖を内部で走らせることはできないのです。

ステップを書き出すことが、モデルがその一ステップあたりの上限を逃れる手段です。書き出された各ステップは予算をリセットします。次のステップは自前の新しい計算量の割り当てを得て、それまでに書かれたすべてを読めます。テキストこそが、短く限られた計算のバーストを、より長い何かへと連鎖させる仕組みなのです。外在化しなければ連鎖はなく、モデルは一ステップの限界内ですべてをこなすしかありません。いわばその「紙」こそが、拡張された推論を可能にしているのです。

chain-of-thoughtが保証しないこと

これを過度に美化しないことが大切です。モデルが書き出す推論は、答えにたどり着いた経緯への忠実な窓であることが保証されているわけではありません。モデルは、結論を実際に駆動した計算には対応しないもっともらしい連鎖を生成することもできますし、完璧に筋の通って聞こえる推論を通じて誤った答えに至ることもあります。目に見えるステップは、モデルが書く他のすべてと同じ、誤りうるプロセスによって生成されているのです。

つまりchain-of-thoughtは、出力をデフォルトで信頼できるものにすることなく性能を向上させます。自信に満ちた、よく構造化された推論の筋道にも、なお誤ったステップが含まれうるのであり、最終的な答えは厳密に聞こえながらその誤りを引き継ぎます。chain-of-thoughtはモデルに計算の余地を多く与え、解ける問題の上限を引き上げます。しかし正確さや誠実さを組み込むわけではありません。推論は作業スペースであって、証明ではないのです。

どんなときに使い、どんなときに使わないか

仕組みを知ることで、chain-of-thoughtがコストに見合うのはいつかが分かります。それは、いくつもの依存し合うステップを持つ問題で真価を発揮します。多段階の計算、論理パズル、丁寧な分析、答えが思い出すものではなく組み立てられるもの、こうしたものです。これらの問題では、途中結果を書き出す余地を与えることが、本当に成功率を高めます。

一方、単純な参照や一ステップの問いに対しては無駄です。追加のステップは長さとコストを足すだけで、答えを良くしません。そして書き出された推論は計算と出力を消費するため、無料ではありません。テキストが増えれば時間も費用も増えます。問われるのは、道具を問題に合わせる技術です。問題が本当に必要とするところに追加の作業の余地を費やし、即答で十分なところでは省くのです。

まとめ

chain-of-thoughtが効くのは、モデルが生成するテキストの一片あたり一定量の計算を得ており、推論を書き出すことで難しい答えに到達するための片を増やし、ひいては計算の総量を増やすからです。ステップは後から付け足された説明ではありません。それは計算が起きる作業スペースであり、それを外在化することこそが、短い処理のバーストを拡張された推論へと連鎖させるのです。これはモデルが解ける問題の上限を引き上げます。しかしステップが忠実であることや答えが正しいことを保証するものではありません。問題が本当に複数の依存し合うステップを持つところで使えば、これはモデルから多くを引き出すための、最もてこの効く手段の一つになります。

#chain-of-thought#reasoning#prompting#inference

一次資料

arXiv — machine learning research Anthropic — documentation