Cómo se evalúan los modelos: los benchmarks, y por qué mienten

Las puntuaciones de benchmark parecen mediciones, pero son argumentos. Cómo funciona de verdad la evaluación de modelos, y por qué un número alto puede engañarte.

research2026-05-06 16:14 KST·Editor jefe·7 min

Una puntuación de benchmark parece una medición. Tiene un número, una clasificación, un ganador. Pero un benchmark se parece más a un argumento que a una medición: afirma que el rendimiento en una tarea cuidadosamente elegida te dice algo sobre la capacidad en general. A veces esa afirmación se sostiene. A menudo no. Entender cómo se evalúan los modelos —y dónde se rompe el razonamiento— es lo que separa leer una clasificación de dejarse engañar por ella.

Esto no es un argumento de que los benchmarks sean inútiles. Son esenciales; sin pruebas compartidas, toda afirmación sobre la calidad de un modelo sería marketing. El punto es leerlos como una persona cuidadosa lee cualquier estadística: sabiendo qué mide, qué deja fuera y cómo puede engañar en silencio.

Qué es realmente un benchmark

Quita la clasificación y un benchmark son tres cosas: un conjunto fijo de tareas, una forma de ejecutar un modelo sobre ellas y una regla para puntuar las respuestas. Eso es todo. La puntuación resume cómo le fue al modelo en esas tareas específicas bajo esa regla de puntuación específica.

El salto —y es un salto— va de "le fue bien en estas tareas" a "es bueno en este tipo de cosas". Esa generalización es solo tan fuerte como representativo sea el benchmark del trabajo real que te importa. Un benchmark de programación hecho de acertijos autocontenidos puede decir poco sobre mantener una base de código grande y desordenada. Una prueba de lectura de pasajes cortos y limpios puede decir poco sobre documentos largos y contradictorios. El número es real; la generalización es una hipótesis.

Vale la pena detenerse en quién construye los benchmarks y por qué. Algunos son esfuerzos académicos para seguir el progreso en una pregunta de investigación. Algunos los construyen los mismos equipos cuyos modelos se clasifican. Ninguno es un acto neutral de la naturaleza: cada uno codifica una elección sobre qué cuenta como bueno, qué tareas merecen atención y qué se ignora. Cuando lees una puntuación, lees también los valores de quien decidió que la prueba valía la pena hacer. Eso no hace deshonestos a los benchmarks, pero sí significa que un benchmark mide lo que sus autores pensaron que importaba, que puede no ser lo que te importa a ti.

Por qué un solo número esconde más de lo que muestra

Las clasificaciones comprimen un modelo en una sola cifra para poder ordenarlo. La compresión es todo el punto y también todo el peligro. Dos modelos con la misma puntuación de cabecera pueden diferir enormemente en dónde aciertan y fallan: uno estable en todo, el otro brillante en lo fácil e indefenso en lo difícil, promediando al mismo lugar.

Un solo número también borra las preguntas que suelen importar más: ¿Cómo se comporta en los bordes? ¿Cómo falla, con elegancia o con tonterías seguras? ¿Es consistente entre reformulaciones de la misma tarea? Nada de eso sobrevive al colapso a un dígito. Por eso los esfuerzos de evaluación holística abogan por reportar muchas dimensiones —exactitud, robustez, calibración y más— en lugar de un único rango. Un modelo es una superficie, y una clasificación lo fotografía desde un solo ángulo.

Contaminación: cuando la prueba se filtra al entrenamiento

El problema más corrosivo en la evaluación de modelos es la contaminación: que las preguntas de la prueba, o primas cercanas de ellas, aparezcan en los datos de entrenamiento del modelo. Los modelos se entrenan con enormes franjas del internet público, y los benchmarks populares viven en ese mismo internet. Cuando un modelo ha visto efectivamente las respuestas, una puntuación alta mide memorización, no capacidad, como un estudiante que consiguió el examen por adelantado.

La contaminación es difícil de detectar y difícil de descartar, por lo que un resultado de benchmark llamativo merece una pregunta concreta: ¿podría el modelo haber visto esto antes? También explica por qué se valoran las pruebas frescas, reservadas o rotadas con frecuencia, y por qué un modelo que domina un benchmark público antiguo pero tropieza en un equivalente recién escrito debería hacerte sospechar en lugar de impresionarte.

Enseñar para el examen

Incluso sin respuestas filtradas, los benchmarks distorsionan lo que miden. Una vez que un benchmark se convierte en el marcador que todos vigilan, el esfuerzo fluye hacia subir esa puntuación, a veces mejorando genuinamente el modelo, a veces optimizando para las rarezas del benchmark. El resultado es un modelo afinado para parecer bueno en la prueba mientras la capacidad subyacente que se suponía debía rastrear se queda atrás.

Esta es una idea vieja: una vez que una medida se vuelve objetivo, deja de ser una buena medida. La IA está inusualmente expuesta a ella porque los benchmarks son públicos, la competencia es feroz, y la brecha entre "bueno en la prueba" y "bueno en la tarea" es fácil de ignorar cuando un número sube. Puntuaciones que suben pueden significar capacidad que sube, o destreza en la prueba que sube. La clasificación no puede decirte cuál.

Puedes ver el efecto con el tiempo. Un benchmark que hace un tiempo desafiaba genuinamente a los modelos se convierte en uno en el que todos puntúan cerca del tope, no necesariamente porque el problema subyacente se resolviera, sino porque la prueba se volvió una cantidad conocida hacia la que fluyó el esfuerzo. Cuando un benchmark se satura, la información interesante se ha ido: ya no puede separar lo bueno de lo excelente, y el campo pasa a una prueba más difícil. Ese ciclo es saludable, pero también es un recordatorio de que un benchmark al máximo no te dice casi nada, y que la prueba difícil de ayer es a menudo el "resuelto para lucirse" de hoy.

Lo que la puntuación deja fuera

Cómo se puntúan las respuestas moldea lo que un benchmark puede siquiera ver. Las tareas con una respuesta correcta clara —un ítem de opción múltiple, una coincidencia exacta— son fáciles de calificar y dominan los benchmarks por esa razón. Pero mucho trabajo del mundo real no tiene una única respuesta correcta: escribir bien, explicar con claridad, ser apropiadamente cauteloso, manejar una petición ambigua. Estos resisten la puntuación automática, así que se miden de menos, y las cualidades poco medidas se optimizan poco.

Cuando el calificador es a su vez un modelo, aparecen nuevas distorsiones: puede favorecer cierto estilo, longitud o seguridad sin importar la corrección. Así que antes de confiar en una puntuación, pregunta qué podría siquiera detectar la regla de puntuación. Un benchmark es ciego a todo lo que su calificador no puede ver, y ese punto ciego es a menudo justamente la parte del trabajo que más importa.

Cómo leer una clasificación con honestidad

Unos cuantos hábitos duraderos mantienen los benchmarks útiles en lugar de engañosos:

Pregunta cuáles son las tareas, no solo cuál es la puntuación. Un número no significa nada hasta que sabes qué resume.
Desconfía de las diferencias minúsculas. Las pequeñas diferencias cerca del tope suelen ser ruido, no un orden real.
Prefiere muchas dimensiones a un solo rango. La robustez y el comportamiento ante el fallo a menudo importan más que la exactitud máxima.
Sospecha de contaminación en cualquier benchmark público familiar, sobre todo cuando los resultados parecen demasiado limpios.
Confía más en tu propia tarea. La única evaluación que de verdad importa es sobre ejemplos que se parecen a tu trabajo real.

El último punto es el más importante y el más ignorado. Una clasificación pública es un filtro de partida, no un veredicto. Tu problema es el verdadero benchmark.

En resumen

Los benchmarks son argumentos disfrazados de mediciones. Son indispensables, pero una puntuación te dice cómo le fue a un modelo en tareas específicas bajo una regla de puntuación específica, y el salto a "bueno en general" es una hipótesis que tienes que comprobar. La contaminación, la enseñanza para el examen y la compresión a un número permiten que una puntuación alta supere la capacidad real. Lee los benchmarks como lees cualquier estadística: pregunta qué mide, qué oculta y si refleja el trabajo que de verdad necesitas hecho. Luego haz el tuyo propio.

#benchmarks#evaluation#leaderboards#measurement

Fuentes primarias

Stanford CRFM — HELM (Holistic Evaluation of Language Models)NIST — AI evaluation and measurement