Cómo se entrenan los grandes modelos de lenguaje, en lenguaje llano
Entrenar un modelo de lenguaje ocurre por etapas, no en un paso mágico. Qué hace cada etapa, en lenguaje llano, y por qué el orden importa.
Un gran modelo de lenguaje puede parecer un objeto único y terminado: tecleas algo, responde. Pero la cosa que te responde se construyó por etapas, y cada etapa hace un trabajo distinto. Si solo te imaginas "la IA aprendió de internet", te pierdes el porqué del comportamiento de los modelos: por qué a veces suenan seguros y equivocados, por qué siguen instrucciones siquiera, y por qué dos modelos entrenados con datos similares pueden sentirse tan distintos. Este artículo recorre las principales etapas en lenguaje llano, en el orden en que ocurren.
La idea central: predecir el siguiente fragmento de texto
Quita la jerga y un modelo de lenguaje hace una cosa: predice qué viene después. Dado un tramo de texto, estima cuán probable es cada posible fragmento siguiente, elige entre ellos y repite. Ese es todo el trabajo mecánico.
Lo que hace esto poderoso es que predecir bien el siguiente fragmento resulta requerir mucho conocimiento implícito. Para adivinar la palabra que completa "la capital de ese país es", el modelo tiene que haber absorbido algo de geografía. Para continuar correctamente un fragmento de código, tiene que haber absorbido algo de sintaxis. Nadie programa estos hechos directamente. Son un efecto secundario de volverse muy bueno en la predicción sobre una cantidad enorme de texto. Ten esto en mente: todo lo que un modelo "sabe" es conocimiento que recogió al servicio de la predicción, no hechos que le entregaron como verdades.
Etapa uno: preentrenamiento
La primera y mayor etapa es el preentrenamiento. Al modelo se le muestra una cantidad enorme de texto y se le pide repetidamente predecir el siguiente fragmento, con sus ajustes internos empujados un poco cada vez que adivina mal. A lo largo de miles de millones de estas diminutas correcciones, construye un sentido estadístico de cómo funciona el lenguaje y de qué tiende a seguir a qué.
Vale la pena entender unas cuantas cosas sobre esta etapa:
- Es autosupervisada. Nadie etiqueta los datos a mano. La "respuesta correcta" de cada predicción es simplemente el fragmento de texto que realmente sigue, que ya está ahí. Por eso puede escalar: la supervisión es gratis.
- Es amplia, no curada para el comportamiento. Los datos de preentrenamiento son un barrido amplio de texto. El modelo aprende los patrones de ese texto, los útiles y los inútiles por igual. Aún no tiene noción de ser un "asistente".
- Es con diferencia la etapa más cara. El pesado coste de cómputo que la gente asocia con entrenar modelos vive mayormente aquí.
Tras el preentrenamiento tienes un modelo fluido y con conocimiento, pero no especialmente útil para conversar. Continuará felizmente tu texto en cualquier dirección que sugieran los patrones, incluyendo ignorar tu pregunta real para imitar el estilo de una página de preguntas y respuestas. Es capacidad en bruto sin modales.
Etapa dos: enseñarle a seguir instrucciones
La siguiente etapa cierra la brecha entre "puede continuar texto" y "hace lo que pedí". A esto se le suele llamar ajuste por instrucciones o fine-tuning supervisado. Al modelo se le muestran muchos ejemplos de la forma aquí hay una petición, aquí hay una buena respuesta, y aprende a producir respuestas con esa forma.
Esta es una etapa más pequeña y deliberada que el preentrenamiento. Los ejemplos se escriben o se curan para demostrar el comportamiento que quieres: responder directamente, seguir peticiones de formato, declinar cosas que debería declinar, admitir incertidumbre. El modelo ya tiene la capacidad subyacente del preentrenamiento; esta etapa apunta esa capacidad al trabajo de ser un asistente útil.
El cambio mental importante aquí es que seguir instrucciones se entrena, no es innato. Un modelo no está naturalmente inclinado a responder tu pregunta en lugar de imitar el género de tu pregunta. Lo hace porque se le mostró, repetidamente, que ese es el comportamiento esperado.
Etapa tres: aprender de preferencias
Las demostraciones solo llegan hasta cierto punto. Para muchas peticiones no hay una única respuesta correcta: hay mejores y peores. Para capturar eso, los modelos pasan por una etapa que aprende de preferencias: humanos (y cada vez más otros modelos actuando como evaluadores) comparan dos respuestas e indican cuál es mejor. El modelo se ajusta entonces para producir más de lo que se prefiere y menos de lo que no.
La versión más conocida de esto es el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), aunque existen varias variaciones. La mecánica difiere, pero el objetivo es el mismo: moldear las tendencias del modelo hacia respuestas que la gente realmente encuentra útiles, honestas y apropiadas, en lugar de solo plausibles.
Esta etapa explica buena parte de la "personalidad" de un modelo. Si matiza o se compromete, cómo maneja peticiones sensibles, cuán verboso es por defecto: mucho de eso es el residuo del entrenamiento por preferencias, no conocimiento en bruto. También es donde se inculca buena parte del comportamiento de seguridad.
Por qué los modelos aún se equivocan
Entender las etapas hace menos misteriosos los modos de fallo.
Un modelo alucina —afirma algo falso con seguridad— en parte porque su habilidad central es producir continuaciones plausibles, y una respuesta errónea fluida puede sonar más plausible que un honesto "no lo sé". El entrenamiento empuja contra esto, pero no puede eliminar del todo una tendencia horneada en el propio objetivo.
Un modelo tiene un corte de conocimiento porque el preentrenamiento usó datos recopilados hasta cierto punto; los eventos posteriores simplemente no estaban en el texto del que aprendió.
Un modelo puede ser inconsistente porque está muestreando de una distribución de continuaciones probables, no leyendo de una base de datos fija. Pregunta lo mismo dos veces y el camino por esa distribución puede diferir.
Nada de esto son fallos en el sentido ordinario. Se siguen directamente de cómo está construida la cosa.
Dónde encajan la evaluación y la iteración
El entrenamiento no es una línea recta del inicio al producto terminado. Entre y después de estas etapas, los modelos se evalúan —se prueban en tareas, se sondean en busca de comportamiento inseguro, se revisan en busca de regresiones— y los resultados retroalimentan más ajuste. Un modelo real es la salida de muchas rondas de entrenar, medir, ajustar, repetir. La limpia historia de tres etapas de arriba es la columna vertebral; en la práctica hay muchísima iteración encima, gran parte dirigida a corregir debilidades específicas halladas durante las pruebas.
En resumen
Un modelo de lenguaje no se entrena en un paso y no es simplemente "internet comprimido". Se preentrena para predecir texto y absorber conocimiento amplio, se ajusta para seguir instrucciones, y se moldea con preferencias hacia ser útil y seguro, con evaluación e iteración entretejidas a lo largo de todo. Cada etapa explica algo que puedes ver en el producto terminado: el preentrenamiento le da conocimiento y fluidez, el ajuste por instrucciones le da el hábito de responderte, y el entrenamiento por preferencias le da sus modales y su criterio. Cuando un modelo te sorprende —seguro y equivocado, raramente cauteloso, atascado antes de eventos recientes—, normalmente puedes rastrear el comportamiento hasta una de estas etapas. Ese modelo mental te servirá mucho mejor que imaginar un único momento misterioso en el que la máquina "aprendió".
