Nuestras Reflexiones sobre la Arquitectura Agéntica: Construyendo un Harness de IA Listo para Producción

Existe un abismo creciente en la industria de la IA. Por un lado, tenemos increíbles Modelos de Lenguaje Extensos (LLMs) que pueden razonar, programar y analizar. Por otro lado, tenemos empresas que luchan por conseguir que estos modelos realicen tareas de negocio multietapa de forma fiable en producción. Este vacío es lo que llamamos el “Purgatorio de los Pilotos”.

El puente que cruza este abismo no es un mejor prompt; es un Harness (arnés) de Agentes de Grado de Producción.

En este análisis profundo, esbozamos nuestra filosofía arquitectónica para construir agentes que no solo “chateen”, sino que realmente trabajen.

La Filosofía Central: El Harness Delgado (Thin Harness)

Un error común es construir un harness “grueso” —un sistema que intenta microgestionar el razonamiento del LLM a través de una lógica compleja y codificada. Nuestro enfoque es diferente: Construir un harness personalizado y delgado que confíe en el modelo para el razonamiento pero imponga límites deterministas para la ejecución.

A medida que modelos como Anthropic Claude y OpenAI GPT-4 mejoran, internalizan más capacidades de planificación y razonamiento. Un harness delgado está diseñado para encogerse con el tiempo, permitiendo que el modelo haga más del “trabajo pesado” mientras el harness proporciona la infraestructura para la seguridad, la persistencia y la ejecución de herramientas.

Los Pilares de la Arquitectura de Producción

1. La Separación de Responsabilidades: LangGraph + Temporal

Una de las decisiones más críticas en la arquitectura agéntica es cómo manejar el estado. Dividimos el mundo en dos:

Turnos Interactivos (Orquestación): Para el razonamiento de “ida y vuelta” de una conversación, utilizamos LangGraph. Permite grafos cíclicos y una gestión profunda de la memoria, modelando el patrón de agente especialista de forma natural.
Flujos de Trabajo Duraderos (Ejecución): Para tareas de negocio de larga duración y múltiples pasos (por ejemplo, “procesar 500 registros e informar en una hora”), utilizamos Temporal. Esto proporciona ejecución duradera, reintentos y latidos (heartbeats), asegurando que una tarea finalice incluso si un servidor se reinicia.

2. Agentes Especializados frente al Agente “Dios”

Aunque es tentador construir un único “Asistente Global”, encontramos que el patrón de Enrutador + Agentes Especializados es superior. Al dividir una IA en personas especializadas (por ejemplo, un agente Analista de Datos, un agente Operador de Flujos de Trabajo, un agente de Configuración), se reduce la “contaminación del contexto”. Un agente con 8 herramientas enfocadas es significativamente más fiable y rápido que un agente con 50 herramientas. Una llamada ligera al enrutador clasifica la intención del usuario y la transfiere al especialista.

3. Arquitectura de Memoria por Capas

La memoria es lo que hace que un agente se sienta “inteligente” con el tiempo. Implementamos un sistema de tres capas:

Capa 1: Memoria de Sesión: Historial de conversación a corto plazo, gestionado a través de puntos de control (checkpoints) persistentes.
Capa 2: Memoria de Usuario: Preferencias y patrones a largo plazo (por ejemplo, “El usuario prefiere tablas en lugar de gráficos”) almacenados en una base de datos vectorial (como PostgreSQL con pgvector) y recuperados por turno mediante búsqueda semántica.
Capa 3: Memoria de Dominio: Reglas de negocio estáticas, catálogos de entidades y esquemas técnicos proporcionados como “ingeniería de contexto” en el prompt del sistema.

4. API-First: Los Agentes Consumen Endpoints, No SQL

Un agente de producción nunca debería escribir SQL puro. El acceso directo a la base de datos omite la validación, los permisos y la lógica de negocio. En su lugar, el agente es tratado como otro usuario de su capa de API existente. Sus “herramientas” son envoltorios delgados alrededor de sus endpoints REST o GraphQL. Esto preserva su modelo de seguridad y garantiza que el agente siga las mismas reglas que sus aplicaciones web o móviles.

Permisos y Seguridad: Defensa en Capas

En un entorno de producción, no se puede dejar la seguridad a la “discreción” del LLM. La seguridad debe aplicarse a nivel de infraestructura:

Separación de Lectura y Escritura: Todas las herramientas de solo lectura pueden autoejecutarse. Todas las herramientas de mutación/escritura (eliminaciones, aprobaciones, correos electrónicos) requieren una confirmación explícita del usuario a través de una puerta de interfaz de usuario estructurada.
Alcance Determinista: El aislamiento de inquilinos (tenants) y usuarios es inyectado por el código del harness, no por el LLM. El agente, literalmente, no tiene los parámetros en sus herramientas para “cruzar” datos entre diferentes usuarios u organizaciones.
Focalización de Contenido (Content Spotlighting): Utilizamos delimitadores aleatorios para envolver los datos generados por el usuario. Esto evita la “inyección de prompts indirecta” donde un fragmento de texto malicioso dentro de un registro de la base de datos intenta secuestrar las instrucciones del agente.

Conclusión: Del Asesoramiento a la Ejecución

El mercado se está moviendo rápidamente del “asesoramiento de IA” (chat) a la “ejecución de IA” (agentes). Para ganar en esta nueva era, las empresas deben ir más allá de la mentalidad de “envoltorio” e invertir en arquitecturas robustas y de grado de producción.

Al centrarse en harnesses delgados, memoria por capas y diseño de herramientas API-first, podemos construir agentes que ofrezcan un ROI medible y escalen junto con las capacidades en rápida evolución de los modelos fundacionales.

¿Está su equipo listo para construir un harness de agentes de grado de producción? Contacte con el equipo de Nugawi Intelligence para discutir su arquitectura.