· Nugawi Intelligence · Tecnologia · 5 min read
Les Nostres Reflexions sobre l'Arquitectura Agèntica: Construint un Harness d'IA Llest per a Producció

Les Nostres Reflexions sobre l’Arquitectura Agèntica: Construint un Harness d’IA Llest per a Producció
Existeix un abisme creixent en la indústria de l’IA. D’una banda, tenim increïbles Models de Llenguatge Extensos (LLMs) que poden raonar, programar i analitzar. De l’altra, tenim empreses que lluiten per aconseguir que aquests models realitzin tasques de negoci multietapa de forma fiable en producció. Aquest buit és el que anomenem el “Purgatori dels Pilots”.
El pont que creua aquest abisme no és un millor prompt; és un Harness (arnès) d’Agents de Grau de Producció.
En aquesta anàlisi profunda, esbossem la nostra filosofia arquitectònica per construir agents que no només “xategin”, sinó que realment treballin.
La Filosofia Central: L’Arnès Prim (Thin Harness)
Un error comú és construir un harness “gruixut” —un sistema que intenta microgestionar el raonament de l’LLM a través d’una lògica complexa i codificada. El nostre enfocament és diferent: Construir un harness personalitzat i prim que confiï en el model per al raonament però imposi límits deterministes per a l’execució.
A mesura que models com Anthropic Claude i OpenAI GPT-4 milloren, internalitzen més capacitats de planificació i raonament. Un harness prim està dissenyat per encongir-se amb el temps, permetent que el model faci més del “treball pesat” mentre el harness proporciona la infraestructura per a la seguretat, la persistència i l’execució d’eines.
Els Pilars de l’Arquitectura de Producció
1. La Separació de Responsabilitats: LangGraph + Temporal
Una de les decisions més crítiques en l’arquitectura agèntica és com gestionar l’estat. Dividim el món en dos:
- Torns Interactius (Orquestració): Per al raonament d‘“anada i tornada” d’una conversa, utilitzem LangGraph. Permet grafs cíclics i una gestió profunda de la memòria, modelant el patró d’agent especialista de forma natural.
- Fluxos de Treball Duradors (Execució): Per a tasques de negoci de llarga durada i múltiples passos (per exemple, “processar 500 registres i informar en una hores”), utilitzem Temporal. Això proporciona execució duradora, reintents i batecs (heartbeats), assegurant que una tasca finalitzi fins i tot si un servidor es reinicia.
2. Agents Especialitzats enfront de l’Agent “Déu”
Encara que és temptador construir un únic “Assistent Global”, trobem que el patró d’Enrutador + Agents Especialitzats és superior. En dividir una IA en persones especialitzades (per exemple, un agent Analista de Dades, un agent Operador de Fluxos de Treball, un agent de Configuració), es redueix la “contaminació del context”. Un agent amb 8 eines enfocades és significativament més fiable i ràpid que un agent amb 50 eines. Una trucada lleugera a l’enrutador classifica la intenció de l’usuari i la transfereix a l’especialista.
3. Arquitectura de Memòria per Capes
La memòria és el que fa que un agent se senti “intel·ligent” amb el temps. Implementem un sistema de tres capes:
- Capa 1: Memòria de Sessió: Historial de conversa a curt termini, gestionat a través de punts de control (checkpoints) persistents.
- Capa 2: Memòria d’Usuari: Preferències i patrons a llarg termini (per exemple, “L’usuari prefereix taules en lloc de gràfics”) emmagatzemats en una base de dades vectorial (com PostgreSQL amb pgvector) i recuperats per torn mitjançant cerca semàntica.
- Capa 3: Memòria de Domini: Regles de negoci estàtiques, catàlegs d’entitats i esquemes tècnics proporcionats com a “enginyeria de context” al prompt del sistema.
4. API-First: Els Agents Consumeixen Endpoints, No SQL
Un agent de producció mai hauria d’escriure SQL pur. L’accés directe a la base de dades omet la validació, els permisos i la lògica de negoci. En el seu lloc, l’agent és tractat com un altre usuari de la seva capa d’API existent. Les seves “eines” són embolcalls prims al voltant dels seus endpoints REST o GraphQL. Això preserva el seu model de seguretat i garanteix que l’agent segueixi les mateixes regles que les seves aplicacions web o mòbils.
Permisos i Seguretat: Defensa en Capes
En un entorn de producció, no es pot deixar la seguretat a la “discreció” de l’LLM. La seguretat s’ha d’aplicar a nivell d’infraestructura:
- Separació de Lectura i Escritura: Totes les eines de només lectura es poden autoexecutar. Totes les eines de mutació/escriptura (eliminacions, aprovacions, correus electrònics) requereixen una confirmació explícita de l’usuari a través d’una porta d’interfície d’usuari estructurada.
- Abast Determinista: L’aïllament de llogaters (tenants) i usuaris és injectat pel codi del harness, no per l’LLM. L’agent, literalment, no té els paràmetres en les seves eines per “creuar” dades entre diferents usuaris o organitzacions.
- Focalització de Contingut (Content Spotlighting): Utilitzem delimitadors aleatoris per envoltar les dades generades per l’usuari. Això evita la “injecció de prompts indirecta” on un fragment de text maliciós dins d’un registre de la base de dades intenta segrestar les instruccions de l’agent.
Conclusió: De l’Assessorament a l’Execució
El mercat s’està movent ràpidament de l‘“assessorament d’IA” (xat) a l‘“execució d’IA” (agents). Per guanyar en aquesta nova era, les empreses han d’anar més enllà de la mentalitat d‘“embolcall” i invertir en arquitectures robustes i de grau de producció.
En centrar-se en harnesses prims, memòria per capes i disseny d’eines API-first, podem construir agents que ofereixin un ROI mesurable i escalin juntament amb les capacitats en ràpida evolució dels models fundacionals.
Està el seu equip llest per construir un harness d’agents de grau de producció? Contacti amb l’equip de Nugawi Intelligence per discutir la seva arquitectura.