Destilación: enseñar a modelos pequeños a partir de grandes
La destilación de conocimiento entrena a un modelo pequeño para imitar a uno grande. El truco no es copiar respuestas, sino copiar cómo el grande duda.
Los modelos más grandes y capaces son también los más caros de ejecutar. Son lentos, cuestan mucho por consulta y a menudo no caben en el hardware que realmente tienes. La destilación de conocimiento es la técnica que te permite conservar la mayor parte de esa capacidad mientras te deshaces de la mayor parte del coste. La idea, en una línea: entrenar a un modelo pequeño para imitar a uno grande. La parte interesante es lo que resulta significar "imitar".
La técnica se popularizó en la era del aprendizaje profundo como forma de comprimir un modelo poco manejable y preciso en uno compacto y desplegable. El montaje tiene un nombre memorable. El modelo grande es el maestro; el modelo pequeño es el estudiante. El estudiante se entrena no para redescubrir la tarea desde cero, sino para reproducir el comportamiento del maestro.
Por qué no entrenar el modelo pequeño directamente
La alternativa obvia es entrenar un modelo pequeño con los mismos datos etiquetados que vio el maestro y saltarse al maestro por completo. A veces eso funciona. A menudo no, y la razón es informativa.
Las etiquetas reales de entrenamiento suelen ser etiquetas duras: esta imagen es un gato, punto. Esa única respuesta tira mucho de lo que sabe un maestro bien entrenado. Un buen maestro no se limita a decir "gato": dice "casi con certeza gato, ligeramente posible perro, definitivamente no avión". Esa distribución de confianza entre todas las opciones es una señal de entrenamiento mucho más rica que una etiqueta de una palabra. Codifica qué errores son razonables y cuáles absurdos. Un modelo pequeño entrenado con etiquetas duras nunca ve eso; un estudiante entrenado con la salida completa del maestro sí.
Objetivos blandos: el corazón de la idea
A la distribución de probabilidad completa del maestro sobre las respuestas posibles se la suele llamar sus objetivos blandos (en contraste con el objetivo duro de una única etiqueta correcta). Estos objetivos blandos portan lo que los investigadores a veces llaman conocimiento oscuro: las relaciones que el maestro ha aprendido y que son invisibles en las etiquetas mismas.
Piensa en el reconocimiento de dígitos. Un 7 escrito a mano podría atraer un poco de probabilidad hacia el 1, porque los sietes y los unos pueden parecerse, y casi nada hacia el 8. Esa diminuta inclinación hacia el 1 es información real sobre la forma de la entrada y la estructura del problema. Entrenar al estudiante para igualar toda la distribución —no solo la respuesta superior— transfiere esa estructura. El estudiante aprende la visión del mundo del maestro, no solo sus conclusiones.
Para hacer estos objetivos blandos aún más informativos, la destilación a menudo suaviza más la distribución, esparciendo las probabilidades para que las pequeñas diferencias entre las opciones secundarias se vuelvan más pronunciadas y más fáciles de aprender. Se pide al estudiante que iguale de cerca esta imagen suavizada.
Qué se transfiere, y qué no
La destilación transfiere comportamiento, no comprensión. El estudiante aprende a producir salidas que se parecen a las del maestro en los tipos de entradas con que fue entrenado. Eso es poderoso y también acotado:
- Es solo tan buena como la cobertura. El estudiante imita al maestro en los ejemplos que ve. En entradas distintas a cualquier cosa de los datos de destilación, el estudiante no tiene maestro al que copiar y recurre a lo que haya logrado generalizar.
- Puede heredar los defectos del maestro. Si el maestro está sesgado, es exceso de confianza o se equivoca de forma sistemática, el estudiante también copia eso. La destilación es imitación fiel, incluida la imitación fiel de los errores.
- Rara vez supera al maestro en la tarea destilada. El estudiante persigue el comportamiento del maestro; el maestro es el techo para esa señal específica, aunque el estudiante sea más eficiente.
Nada de esto hace menos útil la destilación. Solo fija expectativas: estás comprando eficiencia, no nueva capacidad.
Destilación para modelos de lenguaje
La misma idea aplica a los grandes modelos de lenguaje, con algunos giros. Un modelo de lenguaje predice el siguiente token como una distribución de probabilidad sobre el vocabulario, así que sus objetivos blandos son exactamente el tipo de señal rica con que prospera la destilación. Un modelo estudiante puede entrenarse para igualar las distribuciones de siguiente token del maestro a lo largo de un gran cuerpo de texto.
Hay un segundo sabor, cada vez más común, que no requiere acceso alguno a las probabilidades internas del maestro. Aquí el maestro simplemente genera salidas —respuestas, explicaciones, soluciones desarrolladas— y el estudiante se entrena con ese texto generado como si fueran datos de entrenamiento ordinarios. A esto se le llama a veces destilación a nivel de secuencia o basada en generación, y se difumina con la práctica más amplia de entrenar con datos producidos por modelos. Es conveniente porque funciona con cualquier maestro que puedas consultar, incluso uno al que solo puedas llegar a través de una interfaz que devuelve texto.
Ambos sabores comparten la apuesta central: un modelo más pequeño puede portar una fracción sorprendente de la competencia de un modelo más grande si lo entrenas con el comportamiento del modelo más grande en lugar de solo con etiquetas crudas.
Por qué esto importa en la práctica
La destilación es una de las principales razones por las que la IA capaz puede ejecutarse de forma barata y cerca de donde se necesita. Un modelo destilado puede ser lo bastante pequeño para servir a alto volumen, lo bastante rápido para uso interactivo y lo bastante compacto para correr en hardware modesto. Para muchos despliegues reales, la pregunta no es "¿cuál es el modelo más capaz que existe?", sino "¿cuál es el modelo más capaz que puedo permitirme ejecutar un millón de veces al día?". La destilación mueve esa frontera.
También habilita una útil división del trabajo: invierte fuerte en un maestro grande y caro, y luego destílalo en una familia de estudiantes más pequeños afinados para distintos presupuestos de coste y latencia. Pagas el trabajo duro una vez y lo amortizas entre muchos modelos más baratos.
Las compensaciones honestas
La destilación no es gratis, y no es sin pérdidas.
- Cedes algo de calidad. El estudiante es más pequeño; en las entradas más difíciles se nota la brecha entre maestro y estudiante. El arte está en elegir un tamaño de estudiante donde la pérdida sea aceptable para tu caso de uso.
- Necesita los datos adecuados. El estudiante solo aprende donde el maestro demuestra. Elegir sobre qué destilar —cubriendo las entradas que de verdad te importan— importa tanto como el algoritmo.
- Puede amplificar fallos silenciosos. Como el estudiante copia al maestro sin criticarlo, un sesgo sutil del maestro puede quedar horneado en un modelo que luego despliegas a gran escala.
Conocer estos límites es lo que separa la destilación como herramienta de ingeniería fiable de la destilación como atajo esperanzado.
En resumen
La destilación de conocimiento entrena a un estudiante pequeño para imitar a un maestro grande, y la idea clave es que lo más valioso que copiar no es la respuesta final del maestro sino su distribución completa de confianza, los objetivos blandos que revelan cómo razona el maestro sobre la incertidumbre. Esa señal más rica permite que un modelo compacto porte gran parte de la competencia de un modelo grande a una fracción del coste. No superará a su maestro, y hereda los defectos de su maestro, pero como forma de convertir capacidad cara en capacidad desplegable, la destilación es una de las técnicas más silenciosamente importantes del aprendizaje automático moderno.
