¿Qué es la observabilidad de IA? Monitorear y trazar LLM y agentes, para principiantes
En "Cómo construir un sistema multiagente" dijimos que hay que instrumentar cada traspaso antes de añadir agentes; la tecnología que sostiene esa instrumentación en producción es la observabilidad de IA. Hace visible lo que los LLM y agentes hacen realmente en producción (qué modelo con qué prompt, qué herramientas y búsquedas, qué se devolvió y cuánto tiempo y dinero costó) para que puedas rastrear hasta la causa. La diferencia decisiva frente al monitoreo habitual: la IA puede devolver 200 OK en 50ms y aun así alucinar con seguridad, así que la mayoría de los fallos de IA son fallos de calidad (alucinación, recuperación débil, respuestas inseguras, tareas incompletas, mal uso de herramientas, regresiones tras cambiar el prompt), no de infraestructura. La observabilidad se apoya en tres pilares: trazas (una petición como un árbol de spans que muestra llamadas a LLM, herramientas, recuperación y cadenas de razonamiento; la estrella de la observación de IA), métricas (latencia, coste, tokens, tasa de errores, throughput) y logs (detalle por evento). El estándar del sector OpenTelemetry y sus convenciones GenAI capturan prompts, respuestas, uso de tokens y llamadas a herramientas/agentes en un esquema neutral que se puede enviar a Datadog/Grafana. La distinción más confundida es observabilidad frente a evaluación (evals): la observabilidad muestra qué pasó (fácil de medir, pero no dice si la respuesta es correcta), mientras que las evals miden si la respuesta es buena (precisión, fundamentación, seguridad) y requieren evaluación explícita. Como el coste y la latencia son fáciles de medir pero la calidad de la respuesta no, las herramientas de 2026 combinan la visualización de trazas con la puntuación de salidas y alertas de degradación. Las métricas se dividen en operativas (coste, latencia, tokens, tasa de errores) y de calidad (alucinación, fundamentación/faithfulness, lo más crítico en RAG, seguridad, cumplimiento de la tarea), con detección de alucinaciones mediante LLM-as-a-judge, similitud semántica y puntuaciones de groundedness. Herramientas principales: LangSmith (LangChain), Langfuse (autoalojable de código abierto), Arize Phoenix (depuración de RAG), MLflow (ciclo de vida), AgentOps (agentes) y OpenTelemetry (el estándar). Empieza capturando trazas (compatibles con OpenTelemetry), visualiza las métricas operativas y luego conecta las evals antes de pasar a producción. En los sistemas multiagente la observación es esencial, ya que los fallos se esconden en cadenas de varios pasos visibles solo en una traza de la sesión completa. Observar más evaluar es lo que hace que la IA sea de calidad de producción. Las figuras y los rasgos se citan de materiales públicos, a modo orientativo.