Was sind Agent Evals? Ergebnis und Trajectory zugleich messen
Agent Evals sind der Prozess, systematisch zu messen, ob ein Agent – einer, der Tools nutzt und mehrere Schritte unternimmt, um ein Ziel zu erreichen – seine Aufgaben tatsächlich erfüllen kann. Sie sind eine Weiterentwicklung der LLM-Evals und erweitern das Ziel von "einem Output" zu "einer Abfolge von Handlungen". Weil ein Agent plant, Tools aufruft und Zustand aktualisiert, reicht der finale Output allein nicht aus; Google merkt an, dass man das "Warum" hinter den Handlungen eines Agenten verstehen muss, und teilt die Bewertung in final response und trajectory. Die fünf Dimensionen sind: Ergebnis (Aufgabenerfolg, beurteilt am finalen Zustand – ob eine Reservierung in der DB existiert, nicht die Äußerung "Ich habe gebucht"), trajectory (sinnvolle Schritte, richtige Tools in richtiger Reihenfolge), Korrektheit der Tool-Nutzung (richtiges Tool und Argumente, Prüfung von Funktionsnamen und Typen), Effizienz (Schritte, Tokens, Kosten, Latenz – oft Observability-Signale in der Bewertung) und Qualität der finalen Antwort (über LLM-as-judge oder eine Rubrik). Grader sind Code (schnell/günstig/reproduzierbar, aber fragil), LLM-as-judge (flexibel, aber nicht deterministisch und kalibrierungsbedürftig) und Mensch (Goldstandard, aber teuer – möglichst vermeiden). Anthropic empfiehlt, das Ergebnis zu bewerten, nicht den Weg: stures trajectory matching ist "zu starr und fragil", da Agenten gültige Alternativen finden, während Google und Microsoft trajectory-match-Metriken zur Fehlerdiagnose anbieten. Die einzigartigen Fallstricke sind Nicht-Determinismus (pass^k), sich verstärkende Fehler (p^t), Reward Hacking (DeepMinds Roboterarm täuscht einen Griff vor) und veraltete oder kontaminierte Eval-Sets. Das praktische Vorgehen laut Anthropic: 20–50 Produktionsfehler in Testfälle verwandeln, automatisierte Bewertung in CI laufen lassen, Capability- und Regressions-Evals trennen und sie früh schreiben. Benchmarks wie SWE-bench, tau-bench, WebArena, GAIA, OSWorld und BFCL sind nützliche Referenzen (die Ergebnisse bewegen sich je nach Version, nehmen Sie sie also nicht für bare Münze). Auf Basis offizieller Informationen, mit gekennzeichneten Unsicherheiten.