Los tokenizadores y por qué importan para los idiomas

Un modelo de lenguaje nunca ve palabras. Ve tokens. Cómo se trocea el texto en tokens decide en silencio el coste, la velocidad y la equidad entre idiomas.

research2026-05-05 08:17 KST·Editor jefe·7 min

Un modelo de lenguaje no lee palabras, y no lee letras. Antes de que cualquier texto llegue al modelo, pasa por un tokenizador que lo trocea en una secuencia de unidades llamadas tokens —y el modelo solo ve esos tokens—. Este paso está tan aguas arriba que es fácil ignorarlo, pero da forma a casi todo lo que viene después: cuánto cuesta una petición, qué tan larga es efectivamente la memoria del modelo y, sorprendentemente, qué tan justamente trata el modelo a los distintos idiomas humanos.

El tokenizador es los sentidos del modelo. Si quieres entender por qué la misma idea puede costar el doble de expresar en un idioma que en otro, tienes que empezar aquí.

Qué es realmente un token

Un token es un trozo de texto, y normalmente no es una palabra entera. Los tokenizadores modernos tienden a romper el texto en piezas de subpalabra. Las palabras comunes pueden ser un solo token, mientras que las más raras se dividen en varias. Una cadena inventada o inusual podría descomponerse casi carácter a carácter. Los espacios y la puntuación también son tokens, y las mayúsculas pueden cambiar cómo se divide algo.

¿Por qué subpalabras en lugar de palabras enteras? Porque un vocabulario de palabras enteras sería enorme y aun así se perdería cada palabra, nombre o errata nuevos. ¿Y por qué no usar simplemente caracteres individuales? Porque eso hace las secuencias extremadamente largas y obliga al modelo a reensamblar el significado a partir de fragmentos diminutos. La tokenización por subpalabras es el compromiso: un vocabulario fijo y manejable que aun así puede representar cualquier entrada combinando piezas. Captura los patrones comunes de forma eficiente sin quedarse nunca completamente bloqueado ante algo que no ha visto.

Cómo se construye el vocabulario

El vocabulario de un tokenizador no se escribe a mano —se aprende de un gran corpus de texto antes de que el modelo se entrene siquiera—. El principio general detrás de los métodos populares es el mismo: empieza pequeño y fusiona lo que aparece junto a menudo.

Un enfoque típico empieza con los caracteres básicos, luego busca repetidamente el par adyacente más frecuente y lo fusiona en una nueva unidad, añadiendo esa unidad al vocabulario. Haz esto muchas veces y las secuencias frecuentes —prefijos comunes, sufijos, palabras enteras que aparecen constantemente— se convierten en tokens únicos, mientras que las secuencias raras siguen rotas en partes más pequeñas. El resultado es un vocabulario afinado a las estadísticas del texto de entrenamiento.

Esa última frase es el meollo de toda la historia. El tokenizador está afinado al texto del que se construyó. Aquello en lo que ese texto era rico obtiene tokens cortos y eficientes. Aquello en lo que era pobre se trocea en muchas piezas pequeñas.

Por qué esto no es justo entre idiomas

La mayoría de los tokenizadores grandes se entrenan con corpus dominados por un puñado de idiomas muy escritos. Esos idiomas —y especialmente el inglés— acaban con una tokenización eficiente: las palabras comunes se convierten en tokens únicos, y una frase se traduce en relativamente pocos tokens.

Los idiomas que estaban subrepresentados en ese corpus salen peor parados. El mismo significado, expresado en un idioma así, puede requerir notablemente más tokens, porque el tokenizador nunca aprendió unidades compactas para él y recurre a dividir las palabras en muchos fragmentos pequeños. Los sistemas de escritura con grandes conjuntos de caracteres, o las grafías que el tokenizador vio poco, pueden verse especialmente afectados, acercándose a veces a un token por carácter.

Esto no es una pequeña diferencia cosmética. Tiene consecuencias directas y acumulativas:

Coste. Los modelos suelen tarifarse y medirse por token. Si tu idioma necesita más tokens para decir lo mismo, la misma conversación simplemente cuesta más.
Memoria efectiva. La ventana de contexto de un modelo se mide en tokens. Más tokens por frase significa que caben menos frases, así que el modelo efectivamente recuerda menos de tu documento en un idioma poco eficiente en tokens.
Velocidad. Más tokens que leer y generar significa más cómputo por petición y respuestas más lentas.

Así que un hablante de un idioma subrepresentado puede pagar más, obtener una memoria efectiva más corta y esperar más tiempo —por un contenido idéntico—. La inequidad está horneada por debajo del modelo, en el tokenizador.

Los efectos posteriores sobre la calidad

La tokenización puede dar forma a la capacidad, no solo al coste. Cuando las palabras se hacen añicos en muchos fragmentos, el modelo tiene que trabajar más para reensamblar el significado, y los patrones que serían obvios a nivel de palabra quedan dispersos a lo largo de muchos tokens. Las tareas que dependen de la estructura exacta del texto —contar, deletrear, manipular caracteres, aritmética cuidadosa— pueden tropezar de formas sorprendentes precisamente porque el modelo ve tokens, no las letras y dígitos que ve un humano.

Esto explica una clase de comportamientos que de otro modo parecen desconcertantes. Cuando un modelo cuenta mal las letras de una palabra, no es que sea torpe; nunca tuvo las letras como unidades limpias y separadas en primer lugar. El tokenizador le entregó trozos, y los trozos ocultaban el detalle que la tarea requería.

Qué se hace al respecto

No hay un arreglo perfecto, pero hay palancas. Construir el vocabulario del tokenizador a partir de un corpus más equilibrado y multilingüe da a los idiomas subrepresentados una parte más justa de tokens eficientes. Hacer el vocabulario más grande deja espacio para que más idiomas obtengan unidades compactas, a costa de un componente del modelo mayor. Algunos sistemas se diseñan desde el principio para ser multilingües y ponderan el entrenamiento de su tokenizador en consecuencia.

Ninguno de estos borra del todo la brecha, porque cualquier vocabulario fijo refleja prioridades —no puedes dar a cada grafía la codificación más eficiente posible a la vez—. Pero ser deliberado con el tokenizador es una de las decisiones de equidad con mayor apalancamiento de toda la canalización, precisamente porque se sitúa aguas arriba de todo lo demás.

Cómo pensarlo como usuario

Rara vez controlas el tokenizador, pero puedes razonar sobre él. Si trabajas en un idioma que se tokeniza de forma ineficiente, espera recuentos de tokens más altos, planifícalo en presupuestos y límites de contexto, y ten en cuenta que las tareas muy sensibles a los caracteres pueden ser más inestables. Al comparar el coste de dos modelos, recuerda que los recuentos de tokens para el mismo texto pueden diferir entre ellos, porque cada uno trae su propio tokenizador. El titular de "precio por token" significa poco sin saber en cuántos tokens se convierte tu texto real.

En resumen

El tokenizador es la capa invisible que convierte el texto humano en las unidades que el modelo realmente consume, y se construye a partir del corpus con el que se entrenó. Ese único hecho se propaga hacia fuera: los idiomas bien representados en ese corpus reciben un trato barato, compacto y capaz, mientras que los subrepresentados pagan más, caben menos en el contexto y corren más lento por el mismísimo significado. La tokenización no es un tecnicismo que saltarse —es donde se decide en silencio gran parte de la estructura de costes de un modelo y gran parte de su equidad, mucho antes de que el modelo en sí piense nada.

#tokenization#languages#nlp#fairness

Fuentes primarias

Hugging Face documentation arXiv