なぜ同じプロンプトを二度実行すると結果が異なるのか

同じプロンプトを二度送ると、しばしば二つの異なる答えが返ってきます。これはバグではなく設計です——その理由を知れば、いつそれを制御すべきかが分かります。

models2026-04-04 15:31 KST·編集長·7 分

モデルにまったく同じプロンプトを二度送ると、しばしば二つの異なる答えが返ってきます。同じ入力が確実に同じ出力を生む普通のソフトウェアに慣れた人には、これは故障のように感じられます。そうではありません。変動は、これらのモデルがテキストを生成する仕組みに設計された特徴であり、たいていの場合それは何か役立つことをしています。しかしそれは、テスト、信頼性、そして予測どおりに振る舞う必要のあるあらゆる機能にとって、現実的な帰結を持ちます——ですから目標はそれに動揺することではなく、それがどこから来るのか、そして必要なときにどれだけそれを抑えられるのかを理解することです。

本稿は、なぜ出力が変動するのか、どのつまみがそれを制御するのか、なぜそのつまみでさえ完全な再現性を買えないのか、そして変動と戦うのではなく、それを織り込んで設計する方法を説明します。

生成とは一連の選択である

モデルはテキストを一度に一トークンずつ生み出します。各ステップで、それはあらかじめ定められた次の一トークンを選ぶのではありません。代わりに分布——多くの可能な次トークンにわたる確率の集合——を計算します。あるトークンは非常に高い確率を持ち、ほかのいくつかはそこそこ、長い裾(すそ)はありそうにないかもしれません。次にモデルはこの分布からサンプリングします。より確率の高いトークンほど選ばれやすいが、確率の低いものにもなお機会がある、重み付きのランダムな抽選を行うのです。

そのサンプリングのステップが変動の根源です。各トークンが固定された選択ではなく抽選である以上、二回の実行は分岐しえます——そしてひとたび一つのトークンで分岐すると、それ以降のすべてが異なる履歴を前提とするので、出力は完全に枝分かれしていきます。文の早い段階で語が違えば違う文になり、それが違う段落につながります。早い段階の小さなランダム性が、後の大きな差へと累積するのです。

なぜランダム性は欠陥ではなく特徴なのか

各ステップで常に単一の最も確率の高いトークンを選び、毎回同じ出力を生むことも技術的には可能でしょう。モデルは通常これをデフォルトにしません。それには正当な理由があります。常に最も確率の高い経路を取るテキストは、平板で、反復的で、奇妙に生気を欠く傾向があります。わずかなランダム性こそが、モデルに言い回しを変えさせ、明白ではないがより良い続きを見つけさせ、反復のループにはまるのを避けさせるものです。

創造的で対話的な作業では、この変動こそまさに望むものです。三つのキャッチコピーを求めたのに同じものを三回受け取ったら、いらいらするでしょう。ランダム性は、モデルが最も高く採点した一つを機械的に返すのではなく、良い答えの空間を探索していることなのです。ですから変動はモデルが信頼できないことではありません。それはモデルが面白くあるための余地を与えられていることです。問いはただ、あなたの特定のタスクがその余地を望むかどうかだけです。

それを制御するつまみ

ランダム性の量は調整可能で、最も一般的には*temperature(温度)*としばしば呼ばれる設定を通じて調整します。直感はシンプルです。温度は、モデルが上位の選択肢をどれだけ優先するか、賭けをどれだけ分散させるかを制御します。低い温度は分布を最も確率の高いトークンへと鋭くし、出力をより集中させ、より予測可能で、より反復的にします。高い温度は分布を平らにし、確率の低いトークンにより多くの機会を与え、出力をより多様で、より意外性に富み、より脱線しやすくします。

温度を目一杯下げると、モデルは常に上位の選択肢を選ぶ方へ強く傾き、実行をまたいで出力がはるかに一貫します。上げれば、より多くの多様性を招きます。この一つのつまみが、タスクをあるべき場所に置かせてくれます。毎回同じ構造化された答えが必要なら低く、幅と創造性が欲しいなら高く。変動に対してあなたが持つ実践的な制御の大半は、ここに宿っています。

なぜ低い温度でも完全には再現できないのか

ここに人々をつまずかせる機微があります。ランダム性を最小にしても、実行間でときどき差がなお見られることがあります。サンプリングのランダム性を減らすことは、変動の最大の源を取り除きますが、必ずしもすべての源を取り除くわけではありません。

二つのことが、ひとかけらの予測不能性を生かし続けます。第一に、二つの候補トークンが確率で極めて接近しているとき、計算上のごくわずかな差が選択をどちらか一方へ傾けえて、その分岐点から出力が分かれます。第二に、大規模モデルを動かすシステムは複雑で、計算がどう順序づけられ組み合わされるかを通じて、それ自身のごく微小な非決定性を持ち込みえます。どちらも、あなたが外から制御できるものではないのが普通です。正直な捉え方は、ランダム性を下げることは出力をはるかに一貫させ、たいていは十分に一貫させる——しかし、どんなモデル呼び出しも保証されたビット単位で再現可能な関数だと扱うのは間違いだ、というものです。「完全に決定的」ではなく「高度に一貫」を見込んで計画しましょう。

これがテストと信頼性にとって意味すること

変動は、モデルをどう評価しなければならないかを変え、それを無視すると誤った結論に至ります。プロンプトを一度テストして機能したなら、あなたが学んだのはそれが機能しうることであって、毎回機能することではありません。一度の良い実行は、起こりうる実行の分布からの一つのサンプルです。挙動を実際に理解するには、同じ入力を数回実行し、出力のばらつきを見ましょう。あなたが見る変動は情報です。大きく異なる答えを生むプロンプトはもろく、実行をまたいで安定した答えを生むものは頑健です。

これはデバッグの捉え方も変えます。機能がときどき不調になるとき、原因は要求すれば再現できる固定的なバグではなく、サンプリングがときおり取る低確率の分岐かもしれません。それを決定的なものであるかのように追いかけるのは苛立たしく、それを分布の裾だと認識することが、本当の修正——より明快なプロンプト、より低い温度、あるいは悪い分岐が起きたときにそれを捕まえるガードレール——へとあなたを導きます。

変動と戦うのではなく、織り込んで設計する

成熟したアプローチは、設定と設計をタスクに合わせることです。一貫した構造化された結果が必要なもの——分類、データ抽出、固定された書式——には、ランダム性を低くし、盲目的に信頼するのではなく出力の形を検証しましょう。幅から恩恵を受けるもの——下書き、ブレインストーミング、対話——には、より多くの変動を許し、その多様性こそが要点なのだと受け入れましょう。

正確さが決定的な場面では、一度の呼び出しが正しいことに頼ってはいけません。その周りに検査を組み立てましょう。出力が要件を満たしているか検証し、満たさないときは再試行するかフォールバックします。そしてプロンプトが世に出すのに十分良いかを判断するときは、一度の幸運な結果ではなく、複数の実行で評価しましょう。変動はこの媒体の性質です。持ちこたえるシステムとは、それに驚かされるのではなく、それを念頭に置いて設計されたものです。

まとめ

同じプロンプトの二回の実行が異なるのは、生成が固定された答えを選ぶのではなく、各トークンを確率分布からサンプリングし、早い段階の小さな差が累積するからです。そのランダム性は意図的です——それは出力を平板でなくし、創造的な作業により役立たせます。温度はそれを上げ下げするつまみですが、最低にしても完全なビット単位の再現性は保証されません。ですから複数の実行でテストし、一貫性が必要なときはランダム性を下げ、決定的な出力は一度の呼び出しを信頼するのではなく検証し、変動に逆らうのではなく変動を織り込んで機能を設計しましょう。この挙動は根絶すべきバグではありません。管理すべき性質です。

#sampling#temperature#determinism#reliability

一次資料

OpenAI Platform Documentation Anthropic Documentation