Tokens y tokenización: por qué los modelos ven el texto de forma extraña

Los modelos no leen letras ni palabras: leen tokens. Entender ese hecho explica los fallos de ortografía, los costes raros y los límites de contexto.

models2026-05-14 16:37 KST·Editor jefe·7 min

Cuando escribes una frase a un modelo de lenguaje, tú ves palabras. El modelo no. Antes de que ocurra cualquier "pensamiento", tu texto se trocea en piezas llamadas tokens, y son esos tokens —no letras, no palabras— los que el modelo realmente procesa. Este único paso de traducción explica un número sorprendente de comportamientos por lo demás desconcertantes: por qué un modelo puede contar mal las letras de una palabra, por qué algunos idiomas cuestan más de procesar que otros, por qué tu entrada puede alcanzar un límite de longitud antes de lo que esperabas, y por qué pegar una cadena rara a veces produce una salida rara. Una vez que entiendes la tokenización, muchas rarezas de los modelos dejan de ser misterios.

Qué es realmente un token

Un token es un trozo de texto —normalmente una palabra común, un fragmento de palabra, un espacio más palabra, o un solo carácter—. Es la unidad que el modelo lee y escribe. Una palabra corta y común como "the" suele ser un token. Una palabra más larga o más rara puede dividirse en varias: algo como "tokenización" podría convertirse en "token" + "ización", y un nombre inusual podría hacerse añicos en muchas piezas pequeñas.

La idea clave es que los tokens no son lo mismo que las palabras ni lo mismo que los caracteres. Se sitúan en medio. La visión entera del lenguaje que tiene el modelo está construida a partir de estos trozos. Cuando genera una respuesta, está produciendo un token cada vez, cada uno elegido en función de los tokens que vinieron antes. No hay ningún punto en el que trabaje con letras o frases enteras como unidades primarias.

Por qué dividir el texto en absoluto

Parecería más simple alimentar al modelo con palabras enteras, o con caracteres individuales. Ambos extremos causan problemas, y la tokenización es el compromiso.

Si usaras palabras enteras, tu vocabulario sería enorme y aun así te encontrarías constantemente con palabras que nunca habías visto —erratas, jerga nueva, términos técnicos, nombres—. El modelo no tendría forma de manejarlas.

Si usaras caracteres individuales, el vocabulario sería diminuto y nada sería nunca desconocido, pero cada pieza de texto se convertiría en una secuencia muy larga, y el modelo tendría que aprender el significado desde cero a partir de letras en bruto. Eso es derrochador y lento.

La tokenización parte la diferencia. Las palabras comunes obtienen sus propios tokens por eficiencia. Las palabras raras se rompen en piezas reutilizables más pequeñas, de modo que el modelo puede manejar cualquier cosa ensamblando fragmentos familiares —incluso una palabra que nunca ha visto, porque ha visto los fragmentos—. Por eso los modelos lidian con elegancia con palabras nuevas: fueron construidos para reensamblar el significado a partir de partes de subpalabra.

Por qué los modelos "ven el texto de forma extraña"

Aquí está la consecuencia crucial: como el modelo opera sobre tokens, ciertas tareas que son triviales para un humano se vuelven extrañamente difíciles para el modelo.

Considera contar las letras de una palabra, o invertirla, o notar que dos palabras riman. Para ti, estas tareas tienen que ver con letras individuales. Pero el modelo puede haber recibido la palabra entera como un único token —un trozo opaco sin letras internas visibles—. Pedirle que cuente las erres de una palabra es como pedir a alguien que cuente las letras de un símbolo que solo reconoce como una forma completa. La información es técnicamente recuperable, pero va a contracorriente de cómo el modelo representa el texto. Esta es la verdadera razón detrás de muchas anécdotas del tipo "la IA no sabe deletrear". No es estupidez; es que la estructura a nivel de letra queda parcialmente oculta por las mismísimas unidades que el modelo lee.

El mismo efecto explica por qué los modelos pueden ser inestables con la manipulación precisa de caracteres, cierta aritmética escrita dígito a dígito, y las tareas que dependen de la composición interna exacta de una cadena en lugar de su significado.

Por qué el mismo texto cuesta cantidades distintas

Los tokens son también la unidad de medida y de facturación. El uso y el precio de los modelos suelen contarse en tokens, no en palabras o caracteres. Esto tiene consecuencias prácticas que vale la pena interiorizar.

Distintos idiomas se tokenizan con muy distinta eficiencia. El texto en un idioma bien representado en el entrenamiento del tokenizador tiende a empaquetarse en menos tokens por idea, mientras que otros idiomas —o grafías que el tokenizador maneja con menos eficiencia— pueden necesitar muchos más tokens para expresar el mismo contenido. El resultado es que el significado idéntico puede costar notablemente más de procesar en un idioma que en otro. Lo mismo ocurre con contenido como el código, los datos estructurados o el texto lleno de símbolos inusuales: puede fragmentarse en más tokens que la prosa llana de la misma longitud visible.

Una regla aproximada que se cita a menudo para la prosa típica en inglés es que un token corresponde de media a algo menos de una palabra —pero trata cualquier proporción así como una guía laxa, no una constante—. La única forma fiable de conocer un recuento de tokens es medirlo con el tokenizador del modelo específico, ya que cada familia de modelos puede tokenizar de forma distinta.

Los tokens y la ventana de contexto

Todo modelo tiene una ventana de contexto: el número máximo de tokens que puede admitir y producir en un solo intercambio, entrada y salida combinadas. Ese límite se mide en tokens, que es por lo que la misma ventana puede sentirse más grande o más pequeña según lo que pongas en ella.

Por eso también las tareas con documentos largos requieren cuidado. Un documento que parece moderado en pantalla podría consumir mucho más de la ventana de lo que supusiste, sobre todo si está en un idioma verboso de tokenizar o lleno de formato y símbolos. Cuando diseñas cualquier cosa que maneje entradas grandes, pensar en tokens en lugar de páginas o caracteres te evita que te sorprenda una entrada truncada o una petición que excede el límite en silencio.

Implicaciones prácticas

Unos cuantos hábitos surgen de forma natural una vez que los tokens forman parte de tu modelo mental:

No pidas a los modelos cirugía a nivel de letra a la ligera. Contar caracteres, invertir cadenas y tareas similares van en contra de la representación por tokens. Si necesitas que se hagan de forma fiable, apóyate en una herramienta en lugar de en la intuición del modelo.
Estima la longitud en tokens, no en palabras, cuando estés cerca de un límite de contexto o vigilando costes —y mide en lugar de adivinar para cualquier cosa importante.
Espera que el coste y la longitud varíen según el idioma y el tipo de contenido, y presupuesta en consecuencia en lugar de asumir paridad entre idiomas.
No confíes en exceso en la longitud visual. Un bloque corto de código o símbolos puede ser pesado en tokens; un largo tramo de prosa llana puede ser más ligero de lo que parece.

En resumen

Los tokens son la capa oculta entre tu texto y el modelo. Todo lo que el modelo lee y escribe está hecho de estos trozos —normalmente palabras y fragmentos de palabra— elegidos como un compromiso entre los vocabularios inmanejables de palabras enteras y el procesamiento ineficiente carácter a carácter. Ese compromiso es lo que permite a los modelos manejar cualquier texto con elegancia, pero también oculta el detalle a nivel de letra, que es por lo que la ortografía precisa y las tareas con caracteres los hacen tropezar. Convierte a los tokens en la unidad natural para medir longitud, coste y límites de contexto, y explica por qué la misma idea puede costar más en un idioma que en otro. Rara vez necesitarás inspeccionar los tokens directamente, pero tenerlos en mente convierte toda una clase de comportamientos extraños del modelo en algo predecible.

#tokens#tokenization#context-window#text-processing

Fuentes primarias

OpenAI — Platform Documentation Hugging Face — Documentation