La alucinación, explicada sin el pánico
Un modelo de lenguaje que se inventa cosas no está fallando: hace exactamente aquello para lo que se construyó. Por qué ocurre la alucinación y cómo gestionarla.
"Alucinación" es la palabra para cuando un modelo de lenguaje afirma algo falso con total seguridad: una cita plausible que no existe, un dato de aspecto limpio que es incorrecto, una frase que nadie dijo jamás. La palabra hace que suene como un fallo, algo que de vez en cuando se desbarata. No lo es. La alucinación es el resultado predecible de cómo funcionan estos modelos, y entenderlo marca la diferencia entre temerla y gestionarla.
Este explicativo busca quitar el pánico sin quitar la cautela. Un modelo que puede inventarse cosas es genuinamente arriesgado en el contexto equivocado. Pero el riesgo es comprensible y controlable una vez que ves de dónde viene el comportamiento.
Qué está haciendo realmente el modelo
Un modelo de lenguaje no almacena hechos como una base de datos almacena registros. Aprende patrones de cantidades enormes de texto y, dada cierta entrada, produce la continuación más consistente con esos patrones. Su competencia central es la plausibilidad: generar texto que se lee como el tipo de texto que suele seguir.
La mayor parte del tiempo, lo plausible y lo verdadero coinciden, porque las afirmaciones verdaderas son comunes en el texto de entrenamiento. Pero el modelo optimiza la plausibilidad, no la verdad, y esas dos se separan en los bordes. Cuando divergen, el modelo sigue la plausibilidad, porque es lo único para lo que fue construido. Una cita fabricada se ve exactamente como una real. Una fecha errónea encaja en la frase con la misma fluidez que la correcta. La fluidez no es prueba de corrección; es el producto en sí.
Por qué la fabricación segura es algo de fábrica, no añadido
Aquí está el núcleo incómodo: la misma maquinaria que produce respuestas correctas produce alucinaciones. No hay un módulo separado de "inventar cosas" que de vez en cuando se enciende. Cuando el modelo conoce bien el patrón, obtienes una respuesta correcta. Cuando no —porque la información era rara, ausente o nunca aprendida—, el modelo no se detiene. Genera de todos modos la continuación de aspecto más plausible, con la misma seguridad fluida, porque nada en su funcionamiento básico distingue "esto lo sé" de "así es como se vería una respuesta".
Por eso la alucinación no puede parchearse del todo. Es una propiedad de un sistema que siempre produce algo y no tiene un sentido innato del límite de su propio conocimiento. Puedes reducirla, contenerla y detectarla, pero no puedes suponer que un modelo futuro la haya eliminado, porque está tejida en la forma misma en que el modelo genera.
Ayuda contrastar esto con cómo una persona maneja el borde de su conocimiento. Si nos preguntan algo que recordamos a medias, sentimos la incertidumbre, y ese sentimiento nos lleva a matizar, calificar o consultar. El modelo no tiene una señal interna equivalente que marque de forma fiable "ahora estoy adivinando". Genera el siguiente token plausible tanto si pisa terreno firme como si improvisa, y la transición entre ambos es perfecta desde dentro. No hay una alarma interna que se dispare cuando el conocimiento se agota. Esa alarma ausente, más que cualquier error concreto, es la raíz del problema.
Por qué la seguridad es la parte peligrosa
Si las alucinaciones sonaran inseguras —cautelosas, vacilantes, visiblemente dubitativas—, serían mucho menos dañinas. El peligro es que una respuesta fabricada llega con la misma voz firme y autoritaria que una correcta. El tono del modelo no es una señal de su fiabilidad. Suena seguro tenga razón o no, porque la seguridad es una característica del texto fluido, no una lectura de la certeza interna.
Esto rompe un hábito del que los humanos dependemos constantemente. Usamos la vacilación de otra persona como pista para verificar dos veces. Los modelos eliminan esa pista. La consecuencia práctica: no puedes usar el tono del modelo para calibrar si confiar en él. Una respuesta fluida, específica y bien estructurada es exactamente igual de probable que sea inventada que una torpe, a veces más, porque la especificidad es parte de lo que hace convincente a la fabricación.
Cuándo empeora la alucinación
La alucinación no es uniforme. Se dispara bajo condiciones predecibles, y conocerlas te dice cuándo tener cuidado:
- Temas oscuros o raros. Cuanto más fina es la cobertura de entrenamiento, más está improvisando el modelo.
- Detalles específicos. Números exactos, fechas, nombres, citas y frases textuales son de alto riesgo, porque tienen muchas variantes plausibles-pero-erróneas y no hay margen para el "suficientemente cerca".
- Preguntas con una premisa falsa. Pregunta por algo que no existe y el modelo a menudo inventará una descripción segura en lugar de objetar.
- Presión por responder. Un prompt que exige una respuesta definitiva, sin permiso para decir "no lo sé", hace más probable la fabricación.
El hilo común es una brecha entre lo que la pregunta exige y lo que el modelo conoce de forma fiable. Cuanto más ancha es esa brecha, y cuanto más empuja el encuadre hacia una respuesta firme, más espacio hay para inventar algo.
Hay también un detonante más sutil: cuanto más larga y elaborada es una respuesta, más oportunidades hay de que se cuele un detalle inventado al azar. Una respuesta factual corta tiene poca superficie para el error. Una respuesta amplia de varios párrafos, llena de detalles, tiene muchísima, y cada detalle es una pequeña apuesta que puede salir bien o no. Por eso un modelo puede ser correcto en líneas generales sobre un tema mientras siembra la prosa circundante de pequeños errores seguros. La forma general es correcta; los adornos son poco fiables. Las respuestas largas, detalladas y de sonido autoritario merecen más escrutinio, no menos.
Cómo gestionarla
No eliminas la alucinación; haces ingeniería alrededor de ella. Las técnicas duraderas:
- Ancla el modelo en material suministrado. Dale los documentos relevantes e indícale que responda solo a partir de ellos. Esta es la palanca más efectiva, porque sustituye "recordar de memoria" por "leer de la evidencia" (la idea central tras la generación aumentada por recuperación).
- Permite el "no lo sé". Autoriza explícitamente, y recompensa, que el modelo se abstenga cuando el material no contiene la respuesta. Mucha fabricación viene de la exigencia implícita de producir siempre algo.
- Pide fuentes. Solicitar citas o el pasaje concreto usado hace verificables las respuestas, y expone el respaldo inventado.
- Verifica lo que importa. Para datos concretos de alto riesgo, trata la salida como un borrador que confirmar, no un hecho en el que confiar.
- Reduce lo que está en juego por diseño. Usa modelos donde una respuesta errónea sea barata de detectar y corregir, y añade revisión humana donde no lo sea.
Nada de esto hace al modelo veraz. Hace que sus errores sean detectables, que es el objetivo alcanzable.
Dónde sigue perteneciendo el juicio humano
La postura correcta no es ni el desdén ni la confianza ciega. Un modelo es un generador extraordinario de texto plausible, útil y mayormente correcto, y un árbitro poco fiable de qué partes son correctas. Así que mantienes una persona en el bucle precisamente donde equivocarse sale caro: lo médico, legal, financiero, crítico para la seguridad, o cualquier cosa que se publique o sobre la que se actúe sin una segunda mirada. Para trabajo de bajo riesgo, fácilmente verificable o exploratorio, un raro error seguro es un coste tolerable. Ajustar el nivel de confianza al coste de equivocarse es toda la disciplina.
En resumen
La alucinación no es un fallo que esperar a que pase; es la cara oscura de un sistema construido para producir texto plausible más que verdad verificada. La misma maquinaria que responde correctamente también fabrica, con la misma voz segura, y el modelo no tiene un sentido innato de dónde termina su conocimiento. Así que deja de leer la fluidez como fiabilidad. Ancla el modelo en material real, dale permiso para decir "no lo sé", pide fuentes y verifica lo que importa. Gestiona la alucinación como una propiedad conocida —con calma— y estos modelos se vuelven herramientas potentes en lugar de mentirosos seguros que no viste venir.
