Temperatura, top-p y muestreo: controlar la salida del modelo

La temperatura y el top-p deciden cómo elige un modelo su siguiente palabra. Saber qué hace cada uno te permite ajustar la salida de rígida a creativa a propósito.

models2026-04-06 09:43 KST·Editor jefe·7 min

Si alguna vez le has hecho a un modelo la misma pregunta dos veces y has obtenido dos respuestas distintas, has conocido el muestreo. Un modelo de lenguaje no produce de forma determinista "la" siguiente palabra correcta; en cada paso genera un abanico de posibilidades con distintas probabilidades, y luego algo tiene que elegir entre ellas. Los ajustes que rigen esa elección —los más comunes, la temperatura y el top-p— están entre los pocos mandos que controlas directamente, y tienen un efecto desproporcionado en si la salida se siente rígida, equilibrada o desbordantemente creativa. Entenderlos convierte un frustrante "¿por qué está siendo aleatorio?" en un dial deliberado que puedes ajustar a propósito.

De dónde viene la aleatoriedad

En cada paso de la generación de texto, el modelo calcula una probabilidad para cada posible token siguiente. Podría decidir que el siguiente token es "azul" con alta probabilidad, "verde" con menor probabilidad, "morado" con una aún menor, y así a lo largo de todo su vocabulario. Este abanico es una distribución: un conjunto ordenado de candidatos con probabilidades asociadas.

El modelo no decide por sí solo cuál usar. Esa es la tarea del paso de muestreo. La regla más simple posible sería "toma siempre el token más probable". Esa regla se llama decodificación codiciosa (greedy), y suena atractiva —elige siempre la mejor conjetura—, pero en la práctica tiende a producir texto plano, repetitivo y a veces extrañamente atascado. El lenguaje que es bueno suele implicar algo de variación, y un texto rígidamente siempre-más-probable no es como se lee la buena escritura. Así que en lugar de tomar siempre el candidato principal, los modelos normalmente muestrean de la distribución, y la temperatura y el top-p dan forma a cómo se comporta ese muestreo.

Temperatura: aplanar o afilar las probabilidades

La temperatura controla cuánto favorece el modelo a sus candidatos de alta probabilidad frente a los de baja. La forma más limpia de imaginarlo: la temperatura reconfigura la distribución antes de extraer un token.

Temperatura baja afila la distribución. Los tokens ya probables se vuelven aún más dominantes, y la larga cola de opciones improbables queda comprimida hacia la irrelevancia. La salida se vuelve más enfocada, más predecible, más repetitiva. En el extremo, una temperatura muy baja se aproxima al comportamiento codicioso: casi siempre toma el candidato principal.
Temperatura alta aplana la distribución. La diferencia entre tokens probables e improbables se estrecha, así que tokens menos probables y más sorprendentes obtienen una posibilidad real de ser elegidos. La salida se vuelve más variada, más creativa y —pasado cierto punto— menos coherente, porque el modelo ahora está dispuesto a elegir tokens que consideraba improbables.

Una intuición útil: la temperatura no le da al modelo ideas nuevas. Solo cambia cuán dispuesto está el modelo a ir más allá de su conjetura más segura. La temperatura baja es un escritor cauteloso que siempre elige la palabra obvia; la temperatura alta es uno que busca lo inesperado, a veces de forma brillante y a veces sin sentido.

Top-p: recortar la cola antes de elegir

El top-p, también llamado muestreo de núcleo (nucleus sampling), funciona de otra manera. En lugar de reconfigurar todas las probabilidades, restringe qué candidatos son elegibles en primer lugar.

La idea: alinea los tokens candidatos de más a menos probable, y sigue añadiéndolos a una lista corta hasta que su probabilidad combinada alcance el umbral p. Todo lo que queda fuera de esa lista corta se descarta para este paso, y el modelo muestrea solo entre los supervivientes. Un top-p de, digamos, un valor alto mantiene una lista corta amplia; un valor más bajo mantiene solo los pocos tokens más probables.

La parte ingeniosa es que esta lista corta se redimensiona sola automáticamente. Cuando el modelo está seguro —uno o dos tokens cargan con casi toda la probabilidad—, la lista corta es diminuta y la salida se mantiene encarrilada. Cuando el modelo está genuinamente inseguro y la probabilidad se reparte entre muchos tokens plausibles, la lista corta crece, permitiendo variedad justo donde la variedad es razonable. El top-p es, en efecto, una forma dinámica de cortar la cola implausible sin forzar un número fijo de opciones.

Cómo se relacionan los dos

La temperatura y el top-p a menudo están disponibles juntos, y responden a dos preguntas distintas:

La temperatura pregunta: ¿cuánto debería favorecer mis conjeturas seguras frente a mis inseguras?
El top-p pregunta: ¿qué parte de la cola improbable debería siquiera considerar?

Pueden combinarse, pero combinarlos de forma agresiva puede ser difícil de razonar, porque ambos están aflojando o apretando la misma salida de maneras que se solapan. Un enfoque común y sensato es ajustar uno como tu dial principal de creatividad y dejar el otro en un valor por defecto moderado, en lugar de empujar los dos a los extremos a la vez. Los rangos numéricos exactos difieren entre proveedores de modelos, así que trata el comportamiento —más afilado frente a más plano, más estrecho frente a más amplio— como lo que estás ajustando, y consulta la documentación de cada proveedor para la escala concreta.

Ajustar la configuración a la tarea

El ajuste adecuado depende por completo de lo que estés haciendo.

Cuando quieres consistencia y corrección —extraer datos estructurados, responder preguntas factuales, clasificar texto, generar código que debe ejecutarse—, inclínate hacia baja aleatoriedad. Quieres la respuesta más segura del modelo, dentro de la distribución, y la quieres reproducible. Aquí la alta aleatoriedad solo invita a errores evitables y hace los fallos más difíciles de depurar.

Cuando quieres variedad y creatividad —lluvia de ideas, redactar textos de marketing, generar múltiples opciones distintas, ficción—, sube la aleatoriedad. La elección rara ocasional es una virtud; estás minando el modelo en busca de rango, y varios intentos distintos son justamente el objetivo.

Un patrón práctico para generar ideas es ejecutar deliberadamente el mismo prompt varias veces con mayor aleatoriedad y elegir el mejor resultado, en lugar de esperar una única salida perfecta. Para cualquier cosa que necesites que sea estable y comprobable, haz lo contrario: minimiza la aleatoriedad para que la misma entrada dé fiablemente la misma salida.

Una nota sobre la reproducibilidad

Si necesitas la misma salida cada vez —para pruebas, para caché, para auditabilidad—, la alta aleatoriedad juega en tu contra. Bajar la temperatura hacia su mínimo empuja el comportamiento hacia lo determinista, y algunas interfaces ofrecen controles adicionales orientados a la reproducibilidad. Pero sé realista: una salida perfectamente idéntica entre ejecuciones no siempre está garantizada, y deberías verificar en lugar de suponer. El principio general se mantiene en cualquier caso: menos aleatoriedad significa una salida más repetible y conservadora; más aleatoriedad significa una salida más variada y menos predecible.

En resumen

El muestreo es el paso en que un modelo convierte su abanico interno de posibles tokens siguientes en una elección real, y la temperatura y el top-p son cómo lo guías. La temperatura afila o aplana toda la distribución: cuán audazmente alcanza el modelo más allá de su conjetura más segura. El top-p recorta la cola improbable antes de elegir, ampliando las opciones solo cuando el modelo está genuinamente inseguro. Ninguno añade conocimiento; ambos dan forma a la expresión. Recurre a baja aleatoriedad cuando necesites corrección y consistencia, a mayor aleatoriedad cuando quieras rango y sorpresa, y ajusta un dial cada vez para que puedas ver de verdad qué cambió. Usados de forma deliberada, estos ajustes convierten una salida impredecible en una herramienta que controlas.

#sampling#temperature#top-p#inference

Fuentes primarias

OpenAI — Platform Documentation Anthropic — Documentation