Privacidad y LLMs: qué sale de tu máquina

Cuando escribes en un LLM, ¿adónde va realmente ese texto y qué le pasa después? Una guía en lenguaje claro sobre el rastro de datos.

policy2026-06-14 17:56 KST·Editor jefe·7 min

Cada vez que pegas un documento en un chatbot o conectas un LLM a una app, estás tomando una decisión de privacidad, normalmente sin darte cuenta. El texto que envías no se desvanece después de que llega la respuesta. Viaja a algún lugar, lo procesan los sistemas de alguien y puede ser almacenado, registrado o reutilizado según términos que probablemente no leíste. Este artículo explica, en lenguaje claro, qué sale realmente de tu máquina cuando usas un LLM y cómo razonar sobre ello.

El rastro de datos básico

Empieza por el caso más simple: un chatbot alojado. Cuando escribes un prompt y pulsas enviar, ese texto sale de tu dispositivo, cruza la red y llega a los servidores del proveedor, donde se ejecuta el modelo. La respuesta hace el viaje de vuelta. Así que lo primero que hay que interiorizar es que, con cualquier modelo en la nube, tu entrada sale de tu máquina por diseño: así es como funciona en absoluto. El modelo no está en tu portátil; tus palabras van hacia él.

Esto importa porque la gente trata una casilla de chat como una libreta privada. No lo es. Es más como enviar una carta a una empresa que la abre, la procesa y decide qué hacer con su contenido según sus propias políticas. La interfaz se siente personal y local; la realidad es un viaje de ida y vuelta a la infraestructura de otro.

Tres cosas que pueden pasarle a tu entrada

Una vez que tu texto llega al proveedor, son posibles tres grandes desenlaces, y no son mutuamente excluyentes:

Procesamiento. Como mínimo, la entrada se procesa para generar una respuesta. Esto es inevitable y normalmente transitorio.
Registro y retención. El proveedor puede almacenar tus entradas y salidas: para depuración, detección de abusos, soporte o cumplimiento legal. Los periodos de retención varían mucho y los fija la política, no tú.
Reutilización para mejorar. Algunos proveedores pueden usar el contenido enviado para mejorar sus sistemas, a menos que te excluyas o estés en términos que lo prohíban. Este es el desenlace que más preocupa a la gente, y el más controlable mediante ajustes y tipo de cuenta.

La lección duradera es que estas son decisiones de política, no leyes de la naturaleza. Dos proveedores que manejan un texto idéntico pueden hacer cosas completamente distintas con él. La única forma de saberlo es revisar los términos y ajustes del servicio y la cuenta específicos que estás usando.

Los términos de consumidor y de empresa son mundos distintos

Una de las distinciones más importantes es entre productos de consumidor y ofertas de empresa o de desarrollador. Las herramientas gratuitas de consumidor a menudo tienen los términos de datos más permisivos, porque el trato implícito es tus datos a cambio del servicio gratuito. Los niveles de pago para empresas y el acceso por API frecuentemente vienen con compromisos más estrictos: retención más corta, sin entrenamiento sobre tu contenido por defecto y términos contractuales de manejo de datos.

Así que la misma marca puede ofrecer posturas de privacidad muy distintas según por qué puerta entres. Si manejas algo sensible, la pregunta no es "¿confío en esta empresa?" sino "¿en qué producto y plan específico estoy, y qué promete ese nivel por escrito?". El trabajo sensible pertenece a términos que igualen su sensibilidad.

El peligro especial: datos que nunca deberías haber enviado

Los problemas de privacidad más espinosos con los LLMs no son exóticos: vienen de gente común pegando cosas que no debería. Registros de clientes, datos de empleados, finanzas no publicadas, secretos, código fuente, detalles de salud, información personal de otra persona. Una vez que ese texto sale de tu máquina, no puedes retirarlo, y quizá hayas violado un contrato, una regulación o la confianza de alguien sin importar lo que haga el proveedor después.

El principio al que aferrarse: trata cualquier cosa que pongas en un modelo alojado como algo que potencialmente sale de tu control. Antes de pegar, pregúntate si estarías cómodo entregando este texto exacto a un proveedor externo, porque funcionalmente eso es lo que estás haciendo. Para datos regulados o confidenciales, esa pregunta a menudo se responde sola.

Cuando el modelo se ejecuta localmente

Hay una configuración donde el rastro es genuinamente distinto: ejecutar un modelo en tu propio hardware. Con un modelo local, la inferencia ocurre en tu máquina, así que tu entrada no la abandona para ser procesada en otro sitio. Para trabajo sensible a la privacidad, esta es la garantía estructural más fuerte, porque no dependes de las promesas de un proveedor: los datos simplemente no van a ninguna parte.

Las contrapartidas son reales: los modelos locales suelen ser más pequeños y menos capaces que los más grandes alojados, y asumes el trabajo de ejecutarlos y asegurarlos. Pero la historia de privacidad es limpia. Si "qué sale de tu máquina" debe ser "nada", la inferencia local es la forma honesta de lograrlo. El autoalojamiento en tu propio entorno de nube se sitúa en un punto intermedio: tus datos permanecen dentro de una infraestructura que controlas, pero la seguridad de ella es tuya.

Los terceros detrás del proveedor

Incluso cuando confías en el proveedor en el que te registraste, tus datos pueden pasar por más manos de las que sugiere el nombre de la marca. Muchos servicios de IA se ejecutan sobre infraestructura en la nube que no poseen, enrutan las peticiones a través de intermediarios o dependen de subprocesadores para partes de la cadena. Tu texto no necesariamente se queda dentro de una empresa; puede moverse por una cadena de proveedores, cada uno operando bajo sus propios acuerdos.

Esto no es inherentemente siniestro —casi todo el software moderno funciona así— pero importa para razonar sobre la privacidad. La promesa de la que dependes es tan fuerte como el eslabón más débil de esa cadena, y los términos contractuales que ofrece un proveedor serio normalmente tienen en cuenta a sus subprocesadores. El principio para trabajo sensible es preferir proveedores que sean transparentes sobre quién más maneja tus datos y que se comprometan, por escrito, a trasladar sus obligaciones por la cadena. La opacidad sobre los subprocesadores es en sí misma una señal que vale la pena notar.

Entradas, salidas y metadatos

Cuando la gente imagina la privacidad de un LLM, piensa en el prompt. Pero la huella completa es más amplia. La salida también puede ser sensible: la respuesta de un modelo puede reformular o inferir cosas sobre las personas de tu entrada. Y alrededor de ambas se sitúan los metadatos: quién hizo la petición, cuándo, desde dónde, con qué frecuencia. Esos datos circundantes pueden ser reveladores incluso cuando el contenido en sí es mundano.

La conclusión es pensar en términos de la interacción completa, no solo de las palabras que escribiste. Un sistema que protege cuidadosamente los prompts pero registra metadatos detallados, o que almacena salidas ricas sin el mismo cuidado, solo ha resuelto la mitad del problema. La privacidad es una propiedad de todo el flujo de datos —entrada, salida y el rastro de metadatos que lo documenta— así que las protecciones que apliques deberían cubrir las tres cosas en lugar de solo la parte que se siente obviamente confidencial.

Construir la privacidad dentro de una app de LLM

Si estás poniendo un LLM dentro de un producto, la cuestión de privacidad se convierte en una responsabilidad de diseño, no solo en un hábito personal:

Minimiza lo que envías. Elimina o enmascara datos que el modelo no necesita. Los datos más seguros son los que nunca transmites.
Elige los términos deliberadamente. Usa planes y proveedores cuyos compromisos de datos igualen tus obligaciones, y conserva los acuerdos archivados.
Sé transparente con los usuarios. Diles cuándo su entrada va a un modelo de terceros y qué le pasa. La sorpresa es enemiga de la confianza.
Protege los registros. Tus propios registros de prompts y respuestas ahora también son datos sensibles. Asegúralos y retenlos con el mismo cuidado que cualquier dato de usuario.
Planifica la eliminación. Sabe cómo honrar una solicitud de eliminación tanto en el proveedor como en tus propios sistemas antes de que alguien lo pida.

En resumen

La privacidad de un LLM se reduce a una cadena simple: tu texto sale de tu máquina, un proveedor lo procesa y la política —no la interfaz de chat— decide qué pasa después. Los modelos alojados siempre implican ese viaje de ida y vuelta; lo que difiere es la retención, la reutilización y los términos del producto y plan específicos en los que estás. Los mayores riesgos vienen de enviar datos que nunca deberías haber enviado, porque no puedes recuperarlos. Razona sobre ello deliberadamente: minimiza lo que sale, iguala tus términos a tu sensibilidad, ejecuta localmente cuando los datos no deban viajar, y trata cada pegado como entregar texto a un tercero externo. La privacidad con los LLMs no es magia: es saber adónde van tus palabras.

#privacy#llms#data#security

Fuentes primarias

NIST — Privacy Framework Hugging Face — documentation