Was ist AI Observability? LLMs und Agenten überwachen und tracen, für Einsteiger
In „So baust du ein Multi-Agenten-System" hieß es, jede Übergabe zu instrumentieren, bevor man Agenten hinzufügt; die Technologie, die diese Instrumentierung in der Produktion trägt, ist AI observability. Sie macht sichtbar, was LLMs und Agenten in der Produktion tatsächlich tun (welches Modell mit welchem Prompt, welche Tools und Suchen, was zurückkam und wie lange und wie viel es kostete), damit du bis zur Ursache zurückverfolgen kannst. Der entscheidende Unterschied zum gewöhnlichen App-Monitoring: KI kann 200 OK in 50ms zurückgeben und trotzdem selbstbewusst halluzinieren, sodass die meisten KI-Ausfälle Qualitäts-Ausfälle sind (Halluzination, schwaches Retrieval, unsichere Antworten, unvollständige Aufgaben, schlechte Tool-Nutzung, Regressionen nach Prompt-Änderung) und keine Infrastruktur-Ausfälle. Observability ruht auf drei Säulen: traces (eine Anfrage als Baum aus spans, der LLM-Aufrufe, Tools, Retrieval und Argumentationsketten zeigt; der Star der KI-Beobachtung), metrics (Latenz, Kosten, Tokens, Fehlerrate, Durchsatz) und logs (Detail pro Ereignis). Der Industriestandard OpenTelemetry GenAI-Konventionen erfasst Prompts, Antworten, Token-Verbrauch und Tool-/Agenten-Aufrufe in einem herstellerneutralen Schema, einspeisbar in Datadog/Grafana. Die am häufigsten verwechselte Unterscheidung ist Observability vs. Evaluation (evals): Observability zeigt, was passiert ist (leicht zu messen, kann aber nicht sagen, ob die Antwort korrekt ist), während evals messen, ob die Antwort gut ist (Genauigkeit, groundedness, Sicherheit) und explizite Bewertung erfordern. Da Kosten und Latenz leicht zu messen sind, die Antwortqualität aber nicht, kombinieren Tools von 2026 die trace-Anzeige mit Output-Bewertung und Verschlechterungs-Alarmen. Kennzahlen teilen sich in betriebliche (Kosten, Latenz, Tokens, Fehlerrate) und qualitative (Halluzination, groundedness/faithfulness, am wichtigsten für RAG, Sicherheit, Aufgabenerfüllung), mit Halluzinationserkennung via LLM-as-a-judge, semantischer Ähnlichkeit und groundedness-Scores. Wichtige Tools: LangSmith (LangChain), Langfuse (Open-Source-Self-Host), Arize Phoenix (RAG-Debugging), MLflow (Lebenszyklus), AgentOps (Agenten) und OpenTelemetry (der Standard). Beginne mit dem Erfassen von traces (OpenTelemetry-konform), visualisiere betriebliche Kennzahlen und binde dann evals an, bevor du ausrollst. Für Multi-Agenten-Systeme ist Beobachtung unverzichtbar, da sich Fehler in mehrstufigen Ketten verbergen, die nur in einem vollständigen Session-Trace sichtbar sind. Beobachten plus bewerten macht KI produktionsreif. Abbildungen und Merkmale sind aus öffentlichen Materialien zitiert, als Richtwert.