Leyes de escalado: más grande, pero por qué

"Hazlo más grande" suena a eslogan, no a ciencia. Las leyes de escalado lo convirtieron en una. Esto es lo que de verdad dicen, y lo que no dicen.

research2026-04-17 16:38 KST·Editor jefe·7 min

"Simplemente hazlo más grande" es la caricatura de cómo ocurre el progreso de la IA moderna, y como la mayoría de las caricaturas, contiene un rostro real. La versión seria de esa idea se llama ley de escalado, y es uno de los hallazgos más trascendentales del campo. Las leyes de escalado son lo que convirtió "más grande es mejor" de una corazonada en algo lo bastante predecible como para planificar proyectos de miles de millones de dólares a su alrededor. Entenderlas despeja muchísima confusión sobre por qué los modelos siguen mejorando y qué cuestan esas mejoras.

El hallazgo central, dicho con sencillez: a medida que aumentas el tamaño de un modelo, la cantidad de datos con la que se entrena y el cómputo gastado en entrenarlo, el rendimiento del modelo mejora de forma suave y predecible. No en saltos afortunados: suavemente, y con la fiabilidad suficiente para pronosticarlo.

Qué afirma realmente una ley de escalado

Una ley de escalado es una relación observada entre los recursos que pones en entrenar un modelo y cuán bien rinde ese modelo al predecir texto. Los investigadores lo midieron entrenando muchos modelos de distintos tamaños, con distintas cantidades de datos, con distintas cantidades de cómputo, y graficando cómo cambiaba el rendimiento.

Lo que encontraron no fue ruido. Los puntos cayeron a lo largo de una curva notablemente limpia. El rendimiento mejoraba de forma constante a medida que crecían los recursos, y lo hacía con un patrón lo bastante regular como para poder extrapolar: dado cómo rendía un modelo pequeño, podías predecir con sorprendente precisión cómo rendiría uno mucho mayor. Esa predictibilidad es toda la razón por la que importan las leyes de escalado. Convirtieron la construcción de modelos de una adivinanza en algo más cercano a la ingeniería, donde puedes estimar lo que comprará una inversión dada antes de gastarla.

Tres ingredientes impulsan la curva: el número de parámetros del modelo, la cantidad de datos de entrenamiento y el cómputo total usado. Sube cualquiera de ellos, en equilibrio con los demás, y el rendimiento mejora a lo largo del camino esperado.

Por qué lo más grande sigue ayudando

Es razonable esperar que amontonar más tamaño chocaría pronto contra un muro. Un modelo, al fin y al cabo, solo predice el siguiente fragmento de texto. ¿Por qué hacerlo diez veces más grande seguiría rindiendo en lugar de saturarse?

La intuición es que el lenguaje y el mundo que hay tras él son extraordinariamente ricos. Hay un suministro casi inagotable de patrones que aprender: palabras más raras, estructuras gramaticales más sutiles, hechos menos comunes, cadenas de razonamiento más intrincadas, dominios más especializados. Un modelo pequeño solo puede capturar las regularidades más comunes y obvias. Uno más grande entrenado con más datos tiene la capacidad de absorber la cola larga: los patrones que aparecen rara vez pero que en conjunto componen una enorme fracción del lenguaje real.

Así que el escalado no funciona porque los modelos más grandes sean mágicamente más listos. Funciona porque hay tantísima estructura que aprender que los modelos no habían sido lo bastante grandes como para capturarla toda. Añadir capacidad y datos les permite llegar más lejos dentro de esa estructura. La curva sigue curvándose hacia abajo porque el suministro de patrones aprendibles no se ha agotado.

El equilibrio entre tamaño y datos

Uno de los refinamientos más útiles de las leyes de escalado es que los tres ingredientes tienen que crecer juntos. No basta con hacer enorme un modelo si lo privas de datos, ni con inundar un modelo diminuto con más texto del que puede absorber. Para una cantidad dada de cómputo, hay un reparto equilibrado: un modelo de cierto tamaño entrenado con cierta cantidad de datos.

En los inicios del campo, los modelos a menudo se hacían muy grandes en relación con los datos que veían. Trabajos posteriores mostraron que, para el mismo presupuesto de cómputo, un modelo algo más pequeño entrenado con bastantes más datos podía rendir mejor. La lección no fue "el tamaño importa menos", sino "el tamaño y los datos deben emparejarse". Gastar tu cómputo en las proporciones correctas importa tanto como cuánto cómputo tienes.

Este equilibrio es la razón por la que no puedes leer la calidad de un modelo solo a partir de su número de parámetros. Un modelo más pequeño entrenado con más datos, en mejor equilibrio, puede superar a uno más grande entrenado con muy pocos. El número de titular es solo parte de la historia.

Por qué la predictibilidad lo cambió todo

El poder práctico de las leyes de escalado es el pronóstico. Entrenar un modelo frontera es enormemente caro, y solo puedes hacerlo unas pocas veces. Sin leyes de escalado, cada intento sería una apuesta: construye lo más grande que puedas permitirte y espera que funcione.

Las leyes de escalado eliminan buena parte de esa apuesta. Como el rendimiento sigue una curva predecible, los equipos pueden entrenar una serie de modelos pequeños y baratos, ajustar la curva y extrapolar para estimar cómo rendirá un modelo mucho mayor antes de comprometerse a construirlo. También pueden usar las leyes para decidir cómo gastar un presupuesto fijo —cuán grande hacer el modelo, cuántos datos reunir— para obtener el mejor resultado. Por eso a las leyes de escalado a veces se las describe como la herramienta de planificación de la IA moderna. Convierten una apuesta de alto riesgo en una inversión calculada.

La trampa: qué miden las leyes de escalado

Aquí está la letra pequeña crucial. Las leyes de escalado predicen cuán bien rinde un modelo en su objetivo de entrenamiento: a grandes rasgos, cuán bien predice texto. No predicen directamente las cosas que de verdad le importan a la gente, como si el modelo puede razonar a través de un problema difícil, seguir instrucciones o evitar inventarse cosas.

La conexión entre ambas es real pero floja. Una mejor predicción de texto tiende a venir acompañada de mejores capacidades derivadas, pero la relación no es pulcra, y las mejoras en el objetivo de entrenamiento no se trasladan limpiamente a mejoras en ninguna tarea concreta. Un modelo puede volverse mediblemente mejor en su objetivo mientras una capacidad concreta que te importa apenas se mueve, o salta inesperadamente. Así que las leyes de escalado son una guía fiable de una magnitud y solo una guía indirecta de las capacidades que esa magnitud se supone que sustenta.

Lo que el escalado no promete

Resulta tentador leer las leyes de escalado como una garantía de que más recursos lo resolverán todo. Prometen menos que eso. Describen una tendencia observada en los rangos estudiados, y una curva suave vista hasta ahora no es un contrato de que continúe para siempre. Toda tendencia así acaba topando con algún límite: de datos disponibles, de cómputo útil, de patrones que quedan por aprender.

El escalado tampoco entrega, por sí solo, juicio, fiabilidad u honestidad. Esos vienen de cómo se moldea un modelo después de construida la capacidad bruta, no del tamaño solo. Y el escalado tiene costes que crecen tan rápido como sus beneficios: enormes requisitos de cómputo, energía y datos. Las leyes de escalado explican por qué lo más grande ha seguido ayudando, y ayudan a planificar cómo gastar los recursos, pero son una descripción de un patrón, no una ley de la naturaleza que prometa que el patrón nunca termina.

En resumen

Las leyes de escalado son el hallazgo de que el rendimiento de un modelo mejora de forma suave y predecible a medida que haces crecer juntos el tamaño del modelo, los datos y el cómputo. Esa predictibilidad es su verdadera importancia: convirtió "hazlo más grande" de un eslogan en una herramienta de planificación, permitiendo a los equipos pronosticar y presupuestar en lugar de apostar. Pero las leyes miden cuán bien predice texto un modelo, no las capacidades concretas que en última instancia queremos, y describen una tendencia más que garantizarla para siempre. Lo más grande ha seguido ayudando porque queda tantísima estructura por aprender, y leer las leyes por exactamente lo que afirman, y nada más, es como evitas sobreinterpretarlas.

#scaling-laws#compute#training#research

Fuentes primarias

arXiv — machine learning research Stanford CRFM — HELM