temperature、top-p、サンプリング：モデルの出力を制御する

temperatureとtop-pは、モデルが次の単語をどう選ぶかを決めます。各々の実際の働きを知れば、出力を硬いものから創造的なものへ意図的に調節できます。

models2026-04-06 09:43 KST·編集長·7 分

同じ質問をモデルに二度して二つの異なる答えを得たことがあるなら、あなたはサンプリングに出会っています。言語モデルは「正しい」次の単語を決定論的に出力するわけではありません。各ステップで異なる尤度を持つ可能性の広がりを生み出し、そして何かがその中から選ばなければなりません。その選択を支配する設定、最も一般的にはtemperatureとtop-pは、あなたが直接制御できる数少ないつまみであり、出力が硬く感じられるか、釣り合って感じられるか、奔放に創造的に感じられるかに過大なほどの影響を与えます。これらを理解すれば、いらだたしい「なぜランダムなのか」が、意図的に設定できる慎重なダイヤルへと変わります。

ランダム性はどこから来るのか

テキストを生成する各ステップで、モデルは可能な次のトークンそれぞれの確率を計算します。次のトークンを高い確率で「青」、低い確率で「緑」、さらに低い確率で「紫」、というように語彙全体にわたって決めるかもしれません。この広がりが分布です。尤度の付された、順位づけられた候補の集合です。

モデルはそれ自体ではどれを使うか決めません。それはサンプリングのステップの仕事です。考えうる最も単純なルールは「常に最も尤度の高い単一のトークンを取る」でしょう。そのルールは**貪欲（greedy）**復号と呼ばれ、魅力的に聞こえます。常に最良の推測を選ぶのですから。しかし実際には、平板で反復的、ときに奇妙に行き詰まったテキストを生み出しがちです。良い言語は通常いくらかの変化を含み、硬直して常に最も尤度の高いテキストは、良い文章の読み心地ではありません。ですからモデルは常にトップの候補を取るのではなく、典型的には分布からサンプリングします。そしてtemperatureとtop-pがそのサンプリングの振る舞いを形作ります。

temperature：確率を平らにするか鋭くするか

temperatureは、モデルが高確率の候補を低確率の候補よりどれだけ優先するかを制御します。最もすっきりした描き方は、temperatureがトークンを引く前に分布を作り直す、というものです。

低いtemperatureは分布を鋭くします。すでに尤度の高いトークンがさらに支配的になり、尤度の低い選択肢の長い裾は無関係なほうへ押しつぶされます。出力はより焦点が絞られ、より予測可能で、より反復的になります。極端には、非常に低いtemperatureは貪欲な振る舞いに近づき、ほぼ常にトップの候補を取ります。
高いtemperatureは分布を平らにします。尤度の高いトークンと低いトークンの差が縮まり、確率の低い、より意外なトークンが選ばれる現実的な機会を得ます。出力はより多様で、より創造的になり、そしてある点を超えると、一貫性が薄れます。モデルがいまや、尤度が低いと見なしたトークンをも進んで選ぶからです。

役立つ直観。temperatureはモデルに新しいアイデアを与えません。最も安全な推測の先へ手を伸ばすことにモデルがどれだけ意欲的かを変えるだけです。低いtemperatureは常に明白な単語を選ぶ慎重な書き手であり、高いtemperatureは予想外のものへ手を伸ばす書き手で、時に見事に、時に意味をなしません。

top-p：選ぶ前に裾を刈り込む

top-pは核サンプリングとも呼ばれ、異なる働きをします。すべての確率を作り直すのではなく、そもそもどの候補が対象になるかを制限します。

考え方はこうです。候補トークンを尤度の高い順に並べ、それらの合計確率が閾値pに達するまでショートリストに加えていきます。そのショートリストの外にあるものはこのステップでは捨てられ、モデルは生き残ったものからのみサンプリングします。たとえば高い値のtop-pは幅広いショートリストを保ち、低い値は最も確率の高い少数のトークンだけを保ちます。

巧妙なのは、このショートリストが自動的に大きさを変えることです。モデルが確信しているとき、つまり一つか二つのトークンが確率の大半を担うとき、ショートリストは小さく、出力はレールに乗ったままです。モデルが本当に不確かで、確率が多くのもっともらしいトークンに広がっているとき、ショートリストは大きくなり、変化が妥当なところにちょうど変化を許します。top-pは実質的に、選択肢を固定数に強いることなく、もっともらしくない裾を切り落とす動的な方法です。

両者の関係

temperatureとtop-pはしばしば一緒に利用でき、二つの異なる問いに答えます。

temperatureが問うのは、確信した推測を不確かな推測よりどれだけ優先すべきか。
top-pが問うのは、尤度の低い裾をそもそもどれだけ考慮すべきか。

両者は組み合わせられますが、攻めて組み合わせると推論が難しくなりえます。両方が同じ出力を重なり合う仕方で緩めたり締めたりしているからです。よくある、まともなやり方は、一方を主要な創造性のダイヤルとして調整し、他方を中庸なデフォルトに置くことです。両方を同時に極端へ押すのではなく。正確な数値範囲はモデルのプロバイダーによって異なるので、調整しているものとして振る舞い、つまり鋭いか平らか、狭いか広いかを扱い、具体的な目盛りについては各プロバイダー自身の文書を確認しましょう。

設定をタスクに合わせる

正しい設定は、何をしているかに完全に依存します。

一貫性と正確さが欲しいとき、つまり構造化データの抽出、事実への回答、テキストの分類、動かなければならないコードの生成では、低いランダム性に寄せましょう。モデルの最も確信した、分布に乗った答えが欲しく、それが再現可能であってほしいのです。ここでの高いランダム性は、避けられたはずの誤りを招き、失敗のデバッグを難しくするだけです。

多様性と創造性が欲しいとき、つまりブレインストーミング、マーケティングコピーの草稿、複数の異なる選択肢の生成、フィクションでは、ランダム性を上げましょう。時折の風変わりな選択は機能です。あなたはモデルから幅を掘り出しているのであり、いくつもの異なる試みこそが狙いなのです。

アイデア生成の実践的なパターンは、一つの完璧な出力を期待するのではなく、同じプロンプトを高めのランダム性で意図的に何度か実行し、最良の結果を選ぶことです。安定してテスト可能であってほしいものには、逆をしましょう。ランダム性を最小化し、同じ入力が確実に同じ出力を与えるようにします。

再現性についての注記

毎回同じ出力が必要なら、つまりテスト、キャッシュ、監査可能性のためなら、高いランダム性は不利に働きます。temperatureを下限へ向けて下げると振る舞いは決定論的なほうへ押され、一部のインターフェースは再現性を狙った追加の制御を提供します。しかし現実的でいましょう。実行間で完全に同一の出力は常に保証されるわけではなく、仮定せず検証すべきです。一般原則は変わりません。ランダム性が低いほど、より再現可能で保守的な出力に、ランダム性が高いほど、より多様で予測しにくい出力になります。

まとめ

サンプリングは、モデルが内部の次のトークンの可能性の広がりを実際の選択へと変えるステップであり、temperatureとtop-pがそれを操る手段です。temperatureは分布全体を鋭くしたり平らにしたりします。モデルが最も安全な推測の先へどれだけ大胆に手を伸ばすかです。top-pは選ぶ前に尤度の低い裾を刈り込み、モデルが本当に不確かなときにだけ選択肢を広げます。どちらも知識を加えません。両者は表現を形作ります。正確さと一貫性が必要なときは低いランダム性へ、幅と意外性が欲しいときは高いランダム性へ手を伸ばし、何が変わったか実際にわかるよう一度に一つのダイヤルを調整しましょう。意図的に使えば、これらの設定は予測不能な出力を、あなたが制御する道具へと変えます。

#sampling#temperature#top-p#inference

一次資料

OpenAI — Platform Documentation Anthropic — Documentation