Ventanas de contexto explicadas: tokens, atención y dónde se rompe el contexto largo
Una ventana de contexto más grande no es lo mismo que mejor memoria. Aquí está qué es de verdad, por qué se degrada con entradas largas y cómo diseñar.
La ventana de contexto es uno de los números más citados y menos entendidos de la IA moderna. Una más grande suena estrictamente mejor, igual que más RAM o más almacenamiento suena mejor. No es tan simple. Una ventana de contexto es un espacio de trabajo con límites reales y un modo de fallo silencioso, y tratarla como memoria infinita y perfecta es como los equipos publican sistemas que misteriosamente olvidan lo que les dijiste tres párrafos atrás.
Este texto explica qué es una ventana de contexto en términos concretos, por qué el mecanismo subyacente vuelve costosas e imperfectas las entradas largas, y cómo diseñar un sistema que respete esos límites en vez de fingir que no existen.
Qué es realmente una ventana de contexto
Un modelo de lenguaje no lee caracteres ni palabras directamente. Lee tokens: trozos de texto, a menudo una palabra, parte de una palabra o un signo de puntuación. Una regla general aproximada es que un token corresponde a unos pocos caracteres de inglés, así que una página de texto son algunos cientos de tokens. El mapeo exacto depende del tokenizador del modelo, pero el principio es estable: el texto se convierte en una secuencia de tokens antes de que el modelo vea nada.
La ventana de contexto es el número máximo de tokens que el modelo puede considerar de una vez: la entrada que proporcionas más la salida que genera, compartiendo el mismo presupuesto. Todo lo que el modelo "sabe" en una sola interacción vive dentro de esta ventana: tus instrucciones, los documentos que pegaste, la conversación hasta ahora y la respuesta que se está escribiendo. No hay una memoria a largo plazo aparte. Cuando la gente dice que un modelo "recuerda" algo anterior en un chat, lo que quiere decir es que ese texto anterior sigue dentro de la ventana. En el momento en que algo cae fuera de ella, el modelo no tiene acceso alguno a ello.
Esta es la primera idea duradera: la ventana de contexto es memoria de trabajo a corto plazo, no almacenamiento. No persiste, no crece por sí sola, y nada dentro de ella tiene garantizado su uso.
Atención: el motor y su costo
Para entender por qué el contexto largo es difícil, necesitas una intuición de la atención, el mecanismo que permite al modelo relacionar cada token con los demás. Por cada token que procesa, el modelo pondera cuánto debería influirle cada uno de los otros tokens de la ventana. Eso es lo que permite a un modelo conectar un pronombre con el sustantivo al que se refiere, o una pregunta con la frase relevante enterrada antes en un documento.
La propiedad crucial es cómo crece ese costo. Como cada token puede atender a cada otro token, el trabajo escala aproximadamente con el cuadrado del número de tokens. Duplica la entrada y no duplicas el trabajo: lo cuadruplicas más o menos. Por eso procesar entradas muy largas es desproporcionadamente caro en tiempo y dinero, y por eso la ventana de contexto tiene un techo duro en vez de ser arbitrariamente grande. El costo cuadrático es un impuesto fundamental sobre la longitud. Diversas técnicas lo reducen, y la investigación en métodos de contexto largo más eficientes es activa y continua, pero la presión básica nunca desaparece: una entrada más larga es superlinealmente más cara de atender.
Los tokens son la unidad del costo y los límites
Como todo se mide en tokens, los tokens son también la unidad de casi cada restricción práctica con la que te toparás:
- Te facturan por tokens en los modelos alojados, tanto de entrada como de salida. Un documento largo en el prompt cuesta dinero real cada vez que lo envías.
- La latencia sigue a los tokens. Más tokens en la ventana generalmente significa una respuesta más lenta, tanto porque hay más que leer como porque la generación compite por el mismo presupuesto.
- La ventana es compartida. Una entrada enorme deja menos espacio para la respuesta. Si llenas la ventana de contexto, puedes ahogar la salida.
De ahí surge un hábito práctico: trata los tokens como un presupuesto que gastas deliberadamente. Rellenar el prompt con material "por si acaso" no es un seguro gratuito: cuesta dinero, añade latencia y, como explica la siguiente sección, puede de hecho empeorar las respuestas.
Dónde se rompe el contexto largo: el medio perdido
Aquí está el modo de fallo que más sorprende a la gente. Incluso cuando el texto cabe cómodamente dentro de la ventana, el modelo no atiende a todo por igual. Un patrón ampliamente observado es que los modelos usan la información del principio y el final de una entrada larga de forma más fiable que la información enterrada en el medio. Pon el hecho crítico en el centro de un documento largo y el modelo puede comportarse como si nunca lo hubiera visto, aunque, técnicamente, esté ahí mismo en la ventana.
Esto significa que una ventana de contexto grande no garantiza que el modelo use todo lo que pongas en ella. Caber y usar son cosas distintas. El número de capacidad en una ficha técnica te dice qué cabe; no te dice casi nada sobre qué se usa de forma fiable.
El mismo efecto explica un resultado contraintuitivo que los equipos siguen redescubriendo: meter más documentos en el prompt puede bajar la calidad de la respuesta en vez de subirla. Más texto irrelevante diluye la atención y empuja la parte relevante más al fondo del medio, donde es más fácil pasarla por alto. Con el contexto, más no es automáticamente mejor, y a veces es peor.
Diseñar para los límites, no a su alrededor
No puedes abolir estas restricciones, pero puedes diseñar de modo que rara vez muerdan. El principio rector es simple: pon menos, y pon las cosas correctas donde se vean.
- Recupera, no vuelques. En vez de pegar una base de conocimiento entera, trae solo el puñado de pasajes relevantes a la pregunta actual e incluye solo esos. Esta es la idea central de los sistemas aumentados por recuperación, y existe precisamente porque volcarlo todo es a la vez caro y poco fiable.
- La posición importa. Coloca las instrucciones más importantes y la evidencia más relevante cerca del inicio o del final del prompt, no enterradas en el medio de un bloque largo.
- Resume el pasado. En una conversación larga, comprime periódicamente los turnos anteriores en un resumen breve en vez de arrastrar cada palabra hacia adelante. Esto mantiene los hechos salientes en la ventana sin gastar todo el presupuesto en transcripción.
- Deja espacio para la respuesta. Reserva suficiente de la ventana para la salida. Un prompt que llena la ventana hasta el borde puede truncar o degradar la respuesta.
- Prueba la recuperación sobre tus longitudes reales. Si tu caso de uso involucra entradas largas, construye una pequeña evaluación que esconda un hecho conocido en el medio de un documento realista y comprueba si el modelo lo recupera. Mide el modo de fallo directamente en vez de suponer que el número de capacidad te protege.
Un ejemplo trabajado
Imagina un asistente de soporte que responde desde un manual de producto. El diseño ingenuo pega el manual entero en cada prompt, confiando en que la ventana grande lo maneje. Será lento, caro y —porque el párrafo relevante suele estar en algún lugar del medio— poco fiable. El diseño disciplinado indexa el manual, recupera los dos o tres pasajes que coinciden con la pregunta del usuario, los coloca con claridad cerca del final del prompt y deja amplio espacio para la respuesta. El segundo sistema es más barato, más rápido y más preciso, a pesar de usar una fracción mucho menor del contexto disponible. Esa es toda la lección en un ejemplo: usar bien la ventana le gana a llenarla.
En resumen
Una ventana de contexto es la memoria de trabajo a corto plazo del modelo, medida en tokens, compartida entre tu entrada y su salida. La atención es lo que la vuelve útil y, porque su costo crece con el cuadrado de la longitud, lo que la vuelve limitada. El número de capacidad te dice qué cabe, no qué usará el modelo de forma fiable, y la bien documentada debilidad en el medio de las entradas largas significa que más texto no es lo mismo que mejores respuestas. Diseña en consecuencia: recupera en vez de volcar, posiciona las cosas importantes donde se vean, resume el pasado, deja espacio para responder y prueba la recuperación sobre tus longitudes reales. Los equipos que respetan los límites de la ventana le sacan más provecho que los que simplemente compran una más grande.
Nota sobre fuentes: el tamaño de las ventanas de contexto y las técnicas específicas para extenderlas cambian con rapidez, así que este texto se centra en la mecánica duradera. Para capacidades y métodos actuales, consulta directamente la documentación oficial de los modelos y la investigación primaria.
