Por qué los modelos tienen cortes de conocimiento
El conocimiento de un modelo se detiene en una fecha porque queda congelado en el entrenamiento. Por qué ocurre y cómo lo sortean las herramientas.
Pregúntale a un modelo sobre algo muy reciente y puede que recibas una admisión cortés de que no lo sabe, o peor, una respuesta segura que está desfasada. Esto es el corte de conocimiento: un punto en el tiempo más allá del cual el conocimiento incorporado del modelo simplemente se detiene. Sorprende a la gente, porque estamos acostumbrados a software que se actualiza y a buscadores que reflejan el mundo tal como es ahora mismo. Un modelo de lenguaje es distinto de una forma que es fundamental para cómo funciona, no una limitación temporal que alguien olvidó arreglar. Entender por qué existe el corte explica tanto sus frustraciones como las formas estándar de sortearlo.
El conocimiento se hornea en el momento del entrenamiento
El hecho clave es que el conocimiento de un modelo no se consulta en vivo: se absorbe una vez, durante el entrenamiento, y luego se congela. Recuerda cómo se construye un modelo: se le muestra una cantidad enorme de texto y ajusta sus números internos para predecir bien ese texto. En el proceso, absorbe los patrones y hechos contenidos en ese texto. Como fuera el mundo en los datos con que se entrenó es el mundo que el modelo "conoce".
De forma crucial, esos datos se recopilaron hasta cierto punto y no más allá. El entrenamiento toma la instantánea de texto disponible en ese momento. Una vez que el entrenamiento termina, los parámetros del modelo quedan fijados; no siguen absorbiendo nueva información a medida que el mundo avanza. El modelo no está conectado a un flujo en vivo de eventos. Es más bien como una persona muy leída que estudió intensamente hasta cierta fecha y luego dejó de leer por completo: todo lo posterior a esa fecha es, para ella, un vacío.
Así que el corte no es un filtro que alguien aplicó. Es el borde natural de la instantánea. El modelo no puede saber sobre eventos posteriores al fin de sus datos de entrenamiento por la misma razón por la que una enciclopedia impresa no puede describir cosas que ocurrieron después de irse a imprenta.
Por qué no puede simplemente actualizarse solo
Una pregunta razonable: ¿por qué el modelo no aprende sin más la nueva información a medida que llega? La respuesta es que actualizar el conocimiento real de un modelo significa cambiar sus parámetros, y eso significa entrenar: un proceso pesado y deliberado, no algo que ocurra sobre la marcha durante una conversación.
Cuando hablas con un modelo, estás usando un conjunto fijo de parámetros. Nada de lo que digas cambia permanentemente lo que el modelo sabe; la siguiente persona recibe el mismo modelo no actualizado. Para añadir genuinamente nuevo conocimiento a los pesos del modelo, tienes que ejecutar un proceso de entrenamiento, que es caro y se hace en rondas distintas en lugar de continuamente. Por eso el nuevo conocimiento llega en saltos discretos —una versión más nueva de un modelo con un corte posterior— en lugar de como un sistema que se autoactualiza gradualmente. El modelo que usas es un artefacto fijo, y los artefactos fijos tienen una fecha de fin.
Los cortes son difusos, no una línea limpia
Es tentador imaginar el corte como un muro nítido: todo lo anterior es conocido, todo lo posterior es desconocido. La realidad es más borrosa, y el desenfoque causa su propia confusión.
La cobertura se adelgaza a medida que te acercas al corte. Los eventos recientes cerca del borde de los datos de entrenamiento suelen estar peor representados que los más antiguos y más documentados: el mundo tuvo menos tiempo de escribir sobre ellos antes de tomar la instantánea. Así que un modelo puede ser inestable sobre cosas poco anteriores a su corte aunque técnicamente caigan dentro del periodo de entrenamiento.
Distintos temas también tienen distinta frescura efectiva. Los asuntos muy discutidos se absorben rápida y densamente; los temas de nicho pueden ser escasos incluso bastante antes del corte. El resultado es que "lo que el modelo sabe" no es uniforme hasta una fecha y vacío después. Se desvanece, de forma desigual, cerca del borde. Trata el corte declarado como una frontera aproximada, no como una garantía de conocimiento completo justo hasta él.
El modo de fallo peligroso
El corte sería inofensivo si los modelos siempre dijeran "no lo sé" sobre todo lo posterior a él. El peligro real es que a veces no lo hacen. Como la habilidad central de un modelo es producir texto de sonido plausible, puede responder con seguridad una pregunta sobre eventos recientes usando información obsoleta, o rellenando la laguna con algo que solo suena bien.
Este es el modo de fallo que vigilar. Un modelo puede no saber de forma fiable lo que no sabe, y no tiene un sentido innato de "hoy". Pregúntale por un acontecimiento reciente y podría contarte el estado de las cosas según sus datos de entrenamiento sonando perfectamente actual, o podría fabricar. En cualquier caso el peligro es que la respuesta parece autoritaria. El corte es más peligroso precisamente cuando el modelo no señala que ha llegado a uno.
Cómo lo sortean las herramientas
El arreglo estándar es dejar de depender de la memoria congelada del modelo para cualquier cosa sensible al tiempo y en su lugar darle información fresca en el momento en que preguntas. Dominan dos enfoques relacionados.
El primero es la recuperación: antes de que el modelo responda, un sistema obtiene documentos relevantes y actualizados —de un índice de búsqueda, una base de datos, un conjunto de archivos— y coloca ese texto en el contexto del modelo junto a tu pregunta. El modelo responde entonces basándose en el material que tiene delante en lugar de en su memoria interna. Esta es la idea tras la generación aumentada por recuperación, y es la forma más común de hacer que un modelo refleje información actual.
El segundo es el uso de herramientas: se permite al modelo llamar a herramientas externas, como una búsqueda en vivo, e incorporar los resultados en su respuesta. Aquí el modelo efectivamente sale a buscar datos frescos cuando los necesita en lugar de adivinar de memoria.
El hilo común es que ninguno de los dos enfoques cambia lo que el modelo sabe. Cambian lo que el modelo puede ver en el momento de responder. El conocimiento congelado sigue congelado; el rodeo es suministrar externamente la información cambiante, para que el modelo razone sobre texto actual en lugar de apoyarse en una instantánea obsoleta.
Convivir con los cortes
Se siguen unos cuantos hábitos prácticos. Para cualquier cosa reciente o que cambie rápido —actualidad, últimas versiones, precios, la situación presente de cualquiera— no confíes en la memoria sin ayuda de un modelo; asume que su conocimiento incorporado puede estar desfasado y verifica o suministra fuentes frescas. Date cuenta de cuándo una respuesta debería depender de información reciente, porque ahí es exactamente donde muerde el corte. Cuando la exactitud sobre asuntos actuales importa, prefiere una configuración que recupere datos en vivo o use herramientas en lugar de pedirle al modelo que recuerde. Y recuerda que un corte posterior es mejor pero nunca actual: incluso un modelo recién entrenado va por detrás del momento presente en el tiempo que pasó desde que se recopilaron sus datos.
En resumen
Un corte de conocimiento existe porque el conocimiento de un modelo se absorbe una vez durante el entrenamiento y luego se congela en sus parámetros, que no se actualizan a medida que el mundo avanza. El modelo es una instantánea fija del texto del que aprendió, y esa instantánea termina en una fecha —de forma difusa, con la cobertura adelgazándose al acercarse al borde—. El peligro genuino no es la laguna en sí, sino que un modelo puede responder más allá de su corte con falsa seguridad, sin un sentido real del presente. La respuesta fiable no es esperar a que el modelo se actualice, sino alimentarlo con información fresca cuando preguntas, mediante recuperación o herramientas, para que razone sobre texto actual en lugar de memoria obsoleta. El conocimiento está congelado; el acceso al presente hay que añadirlo desde fuera.
