El stack moderno de una app de IA, de principio a fin

Un mapa claro de las capas que componen una aplicación de IA real: modelo, orquestación, recuperación, evaluación y el pegamento poco glamuroso que lo sostiene todo.

tools2026-05-29 09:14 KST·Editor jefe·7 min

Cuando la gente se imagina una aplicación de IA, se imagina el modelo. Pero el modelo es solo una capa de varias, y la mayor parte de lo que determina si una función de IA funciona de verdad vive en las capas poco glamurosas que la rodean. Entender el stack completo —qué hace cada pieza y por qué existe— convierte "la IA es magia impredecible" en un conjunto de componentes sobre los que puedes razonar, depurar y mejorar. Este es un mapa de principio a fin, desde la entrada del usuario hasta el modelo y de vuelta, con notas honestas sobre dónde cada capa se gana su sustento.

La capa del modelo: capacidad, no aplicación

En el centro se sienta el modelo mismo, alojado por un proveedor o ejecutado por ti. Esta es la capacidad en bruto: texto entra, texto sale, con algo de razonamiento en medio. Es esencial y es también la capa sobre la que tienes menos control, porque en su mayoría eliges entre opciones en lugar de construirla. El error es tratar esta elección como el proyecto entero. Un modelo capaz cableado a una aplicación pobre rinde peor que un modelo modesto dentro de una bien construida.

En la práctica, esta capa es una decisión con compromisos: alojado frente a propio, más grande frente a más pequeño, general frente a especializado. Cada uno tiene implicaciones de coste, latencia, privacidad y capacidad. La decisión correcta depende de tu tarea y, lo que es importante, es reemplazable. Diseñar de modo que puedas cambiar el modelo más adelante, a medida que las opciones mejoran o tus necesidades cambian, es una de las decisiones arquitectónicas de mayor apalancamiento que puedes tomar temprano.

La capa de orquestación: convertir llamadas en comportamiento

Una sola llamada a un modelo rara vez es una aplicación. Las funciones reales encadenan llamadas, se ramifican según resultados, reintentan ante fallos, llaman a herramientas y ensamblan prompts de múltiples fuentes. La capa de orquestación es el código que coordina todo esto: decidiendo qué enviar, en qué orden y qué hacer con cada respuesta. Aquí vive la lógica real de tu aplicación, y aquí va la mayor parte del esfuerzo de ingeniería.

La orquestación es también donde la complejidad se acumula en silencio. Cada paso añadido —una llamada de recuperación, una invocación de herramienta, una segunda pasada del modelo para comprobar la primera— añade latencia, coste y una nueva forma de fallar. La disciplina aquí es añadir pasos solo cuando se ganan su lugar, y mantener el flujo lo bastante simple como para que aún puedas razonar sobre qué pasó cuando algo sale mal. Un pipeline que no puedes trazar es un pipeline que no puedes arreglar.

La capa de contexto: prompts, recuperación y memoria

Los modelos solo saben lo que tienen delante. La capa de contexto es todo lo que ensambla lo que el modelo ve: el prompt que encuadra la tarea, los documentos recuperados que fundamentan la respuesta en tus datos y cualquier memoria de turnos previos de una conversación. Con frecuencia es la capa que decide la calidad, porque el mismo modelo produce resultados radicalmente distintos según el contexto que se le dé.

La recuperación pertenece aquí. Cuando una aplicación responde usando tus propios documentos, esta capa incrusta la consulta, encuentra los pasajes relevantes y los pliega en el prompt. La memoria pertenece aquí también: decidir qué de lo anterior en una conversación vale la pena llevar adelante y qué descartar. Bien hecha, esta capa hace que un modelo general parezca conocer tu mundo específico. Mal hecha, alimenta al modelo material irrelevante o contradictorio y culpas al modelo por el resultado.

La capa de herramientas: dejar que el modelo actúe

Un modelo que solo puede producir texto es limitado; muchas aplicaciones útiles necesitan que el modelo haga cosas: consultar datos en vivo, ejecutar un cálculo, interrogar una base de datos, llamar a un servicio externo. La capa de herramientas define las acciones disponibles para el modelo y las ejecuta de forma segura cuando el modelo lo pide. El modelo decide qué hacer; tu código decide si y cómo ocurre realmente.

La palabra crítica es segura. Las herramientas son donde una aplicación de IA toca el mundo real, lo que significa que son donde los errores tienen consecuencias más allá de una mala frase. Esta capa necesita guardrails: validar lo que el modelo solicita, limitar lo que puede alcanzar y confirmar las acciones irreversibles. Trata las peticiones de herramientas del modelo como entrada no confiable, porque en efecto lo son: el modelo está sugiriendo una acción, no autorizándola, y tu código tiene la autoridad.

La capa de evaluación: saber si funciona

El software tradicional o funciona o lanza un error. Las aplicaciones de IA fallan de forma más sutil: producen una salida plausible pero errónea, y se degradan en silencio a medida que cambias prompts o intercambias modelos. La capa de evaluación es cómo sabes si el sistema realmente hace su trabajo: un conjunto de casos de prueba representativos y una forma de medir la calidad contra ellos, ejecutados de forma continua en lugar de comprobados una vez mirando a ojo unas pocas salidas.

Esta capa es la que los equipos más a menudo se saltan y más a menudo lamentan saltarse. Sin ella, cada cambio es una apuesta: mejoras un caso y rompes en silencio otros tres sin forma de notarlo. Con un conjunto de evaluación incluso modesto, puedes cambiar el modelo, ajustar un prompt o añadir un paso de recuperación y medir si ayudaste o perjudicaste. La evaluación es lo que convierte el desarrollo de IA de adivinanza en ingeniería, y vale la pena construirla antes de que creas que la necesitas.

La capa de observabilidad y coste: operar a la luz

Una vez que una función de IA está en vivo, necesitas ver qué está haciendo. La capa de observabilidad registra los prompts, el contexto recuperado, las respuestas del modelo, las llamadas a herramientas, las latencias y los costes. Cuando un usuario reporta una mala respuesta, así es como reconstruyes qué pasó realmente en lugar de adivinar. Los sistemas de IA son no deterministas, lo que hace que un buen registro sea más importante que en el software ordinario, no menos.

El coste vive junto a la observabilidad porque en las aplicaciones de IA el coste es una propiedad de tiempo de ejecución, no una partida fija. Cada llamada consume tokens, cada recuperación añade contexto, cada paso de orquestación extra multiplica el uso. Sin visibilidad, los costes derivan al alza sin que nadie lo note hasta que una factura o un límite de tasa fuerza la conversación. Vigilar el coste como una señal de primera clase —por petición, por función, a lo largo del tiempo— evita que la economía rompa el producto en silencio.

Cómo encajan las capas

Traza una sola petición y el stack se vuelve concreto. Llega la entrada del usuario, la capa de orquestación toma el control, la capa de contexto ensambla un prompt con cualquier documento recuperado, el modelo produce una respuesta, la capa de herramientas ejecuta cualquier acción que el modelo solicitó y el resultado regresa, mientras la capa de observabilidad registra todo el viaje y la capa de evaluación, fuera de línea, sigue comprobando que viajes como ese siguen yendo bien. Cada capa es reemplazable, y la debilidad en cualquiera de ellas limita la calidad del conjunto.

La idea estratégica es que estas capas fallan y mejoran de forma independiente. Una aplicación decepcionante suele tener una capa débil, no un diseño fundamentalmente débil. Diagnosticar qué capa —mala recuperación, orquestación descuidada, una herramienta insegura, ninguna evaluación— es lo que separa a los equipos que mejoran sus funciones de IA de forma constante de los equipos que siguen intercambiando modelos con la esperanza de que el siguiente lo arregle todo.

En resumen

Una aplicación de IA moderna es un stack, no un modelo. El modelo aporta capacidad, pero la orquestación la coordina, la capa de contexto la alimenta, la capa de herramientas le permite actuar, la evaluación te dice si funciona y la observabilidad te deja operarla a plena luz. La mayor parte de la calidad y la mayor parte del coste viven en las capas que rodean al modelo, no en el modelo mismo. Construye con ese mapa en mente y el desarrollo de IA deja de sentirse como magia y empieza a sentirse como lo que es: ingeniería ordinaria con un componente inusualmente impredecible en el centro.

#ai-stack#architecture#llm-apps#infrastructure

Fuentes primarias

OpenAI API documentation Anthropic documentation Hugging Face documentation