Agent Evals sind der Prozess, systematisch zu messen, ob ein Agent – einer, der Tools nutzt und mehrere Schritte unternimmt, um ein Ziel zu erreichen – seine Aufgaben tatsächlich erfüllen kann. Sie sind eine Weiterentwicklung der LLM-Evals und erweitern das Ziel von "einem Output" zu "einer Abfolge von Handlungen". Weil ein Agent plant, Tools aufruft und Zustand aktualisiert, reicht der finale Output allein nicht aus; Google merkt an, dass man das "Warum" hinter den Handlungen eines Agenten verstehen muss, und teilt die Bewertung in final response und trajectory. Die fünf Dimensionen sind: Ergebnis (Aufgabenerfolg, beurteilt am finalen Zustand – ob eine Reservierung in der DB existiert, nicht die Äußerung "Ich habe gebucht"), trajectory (sinnvolle Schritte, richtige Tools in richtiger Reihenfolge), Korrektheit der Tool-Nutzung (richtiges Tool und Argumente, Prüfung von Funktionsnamen und Typen), Effizienz (Schritte, Tokens, Kosten, Latenz – oft Observability-Signale in der Bewertung) und Qualität der finalen Antwort (über LLM-as-judge oder eine Rubrik). Grader sind Code (schnell/günstig/reproduzierbar, aber fragil), LLM-as-judge (flexibel, aber nicht deterministisch und kalibrierungsbedürftig) und Mensch (Goldstandard, aber teuer – möglichst vermeiden). Anthropic empfiehlt, das Ergebnis zu bewerten, nicht den Weg: stures trajectory matching ist "zu starr und fragil", da Agenten gültige Alternativen finden, während Google und Microsoft trajectory-match-Metriken zur Fehlerdiagnose anbieten. Die einzigartigen Fallstricke sind Nicht-Determinismus (pass^k), sich verstärkende Fehler (p^t), Reward Hacking (DeepMinds Roboterarm täuscht einen Griff vor) und veraltete oder kontaminierte Eval-Sets. Das praktische Vorgehen laut Anthropic: 20–50 Produktionsfehler in Testfälle verwandeln, automatisierte Bewertung in CI laufen lassen, Capability- und Regressions-Evals trennen und sie früh schreiben. Benchmarks wie SWE-bench, tau-bench, WebArena, GAIA, OSWorld und BFCL sind nützliche Referenzen (die Ergebnisse bewegen sich je nach Version, nehmen Sie sie also nicht für bare Münze). Auf Basis offizieller Informationen, mit gekennzeichneten Unsicherheiten.

2026/06/20

Neueste Artikel

Alle anzeigen

Claude KI-Entwicklung & Programmierung Einsteiger

Was sind Agent Evals? Ergebnis und Trajectory zugleich messen

2026/06/20

Claude KI-Entwicklung & Programmierung Einsteiger

Was sind Claude Code Hooks? Shell-Befehle deterministisch ausführen

Claude Code Hooks sind benutzerdefinierte Shell-Befehle, die an bestimmten Punkten im Lebenszyklus von Claude Code automatisch laufen und machen "das muss immer passieren" real und deterministisch, ohne sich auf das Ermessen des LLM zu verlassen. Die klassischen Events sind neun – SessionStart, UserPromptSubmit, PreToolUse, PostToolUse, Notification, Stop, SubagentStop, SessionEnd, PreCompact –, von denen PreToolUse und andere blockieren können (Bearbeitungen geschützter Dateien oder gefährliche Befehle stoppen). Konfiguriert werden sie in settings.json unter dem Schlüssel "hooks" als Event-Name -> matcher -> type + command. Der E/A-Kontrakt: Ein Hook empfängt JSON über stdin (session_id, tool_input usw.) und gibt über Exit-Code 0 (Erfolg) / 2 (blockieren, mit stderr zurück an Claude) oder strukturiertes JSON (continue, decision:block, permissionDecision: deny/allow/ask) zurück. Das zentrale Prinzip lautet "Hooks können Beschränkungen verschärfen, aber nicht lockern" (deny gewinnt immer, blockiert sogar unter bypassPermissions). Klassische Anwendungsfälle: Auto-Format nach Bearbeitungen (PostToolUse + Edit|Write), kritische Dateien schützen, gefährliche Befehle stoppen, Kontext erneut einspeisen (SessionStart), Benachrichtigungen/Audit-Logging und Testen vor dem Stoppen (Stop). Zur Sicherheit: Hooks führen beliebige Shell-Befehle mit deinen Rechten aus, konfiguriere also nur vertrauenswürdige und validiere/quote Eingaben; die Hook-Konfiguration wird beim Session-Start erfasst (ein Sicherheitsmerkmal), sodass Änderungen mitten in der Session nicht greifen. Auf Basis der offiziellen Dokumentation, gestützt auf die neun klassischen Events und den E/A-Kontrakt.

2026/06/20

Claude KI-Entwicklung & Programmierung Einsteiger

Was sind Claude Code Checkpointing und /rewind? Änderungen zurückrollen

Checkpointing und /rewind sind ein Sicherheitsnetz: Claude Code verfolgt Claudes Dateibearbeitungen automatisch, während Sie arbeiten, sodass Sie mit ein paar Tastendrücken zu "bevor es schiefging" zurückrollen. Vor jeder Bearbeitung wird ein Snapshot erstellt, jeder gesendete Prompt wird zu einem Wiederherstellungspunkt, und Checkpoints bleiben über Sitzungen hinweg erhalten. Zum Nutzen: tippen Sie /rewind oder drücken Sie zweimal Esc bei leerem Eingabefeld, um das Menü zu öffnen, wählen Sie dann einen Punkt und Code und Konversation wiederherstellen / Konversation wiederherstellen / Code wiederherstellen (Hinweis: enthält das Eingabefeld Text, löscht zweimaliges Esc stattdessen die Eingabe). Der wichtigste Vorbehalt: nur Änderungen durch Claudes Bearbeitungstools (Write/Edit/NotebookEdit) werden wiederhergestellt – Dateiänderungen durch bash-Befehle (rm/mv/cp), Änderungen außerhalb der Sitzung oder aus anderen Sitzungen, Verzeichnisoperationen, Remote-Dateien und der Datenbankzustand werden durch Rewind NICHT rückgängig gemacht. Die Dokumentation rahmt es als "Checkpoints = lokales Rückgängig, Git = dauerhafte Historie" und sagt, dass es die Versionskontrolle ergänzt, aber nicht ersetzt, weshalb das Committen an Meilensteinen in Git die Regel ist. /rewind ist auch die Wiederherstellung beim 400-Fehler rund um die Nebenläufigkeit der Tool-Nutzung und Thinking-Blöcke (das Produkt selbst fordert Sie dazu auf), wobei Versionen vor v2.1.156 ihn möglicherweise nicht beheben, sodass claude update zuerst kommt. Es ist in der interaktiven CLI standardmäßig aktiviert, im Agent SDK ein Opt-in, und wird mit den Sitzungen 30 Tage aufbewahrt (konfigurierbar). Auf Basis der offiziellen Dokumentation, mit gekennzeichneten Unsicherheiten.

2026/06/20

Claude KI-Entwicklung & Programmierung Einsteiger

Was sind Claude Managed Agents? Anthropics verwaltete Cloud

Claude Managed Agents startete am 8. April 2026 als öffentliche Beta – eine Suite zusammensetzbarer APIs zum Erstellen und Bereitstellen cloud-gehosteter Agenten im großen Maßstab. Statt eine eigene Agent-Schleife, Tool-Ausführung und Laufzeitumgebung zu bauen, erhalten Sie eine vollständig verwaltete Umgebung, in der Claude sicher Dateien lesen, Befehle ausführen, im Web surfen und Code ausführen kann, mit eingebautem Prompt-Caching, Kontext-Kompaktierung, Sandboxing und Zustandspersistenz. Es ist um vier Konzepte herum organisiert (Agent, Environment, Session, Events), und das Environment kann eine von Anthropic verwaltete Cloud-Sandbox oder eine selbst gehostete sein. Der Unterschied zum selbst gehosteten Agent SDK (wo Sie Schleife, Tools und Infrastruktur betreiben) ist „Sie betreiben es vs. Anthropic betreibt es" – keine Konkurrenten, sondern eine Wahl darüber, wie viel des Betriebs Sie behalten. Ein charakteristisches Merkmal ist workspace-bezogener persistenter Speicher (ein memory store), in der Sandbox unter /mnt/memory eingehängt, den der Agent mit normalen Dateioperationen liest und schreibt und der über Sitzungen hinweg erhalten bleibt (unveränderliche Versionen, 30 Tage Aufbewahrung, Limits wie 100 kB pro Speicher). Dreaming ist ein asynchroner Job, der den vorhandenen Speicher und vergangene Transkripte liest, um einen reorganisierten memory store zu erzeugen – Duplikate zusammenführen, veraltete Werte aktualisieren und neue Erkenntnisse hervorheben (eine Research Preview, die Zugang erfordert; manche nennen es „geplant", aber die Dokumentation beschreibt einen bei Bedarf erstellten asynchronen Job). Es verfügt außerdem über outcomes-basierte Bewertung (ein separater Grader bewertet anhand Ihrer Rubrik; berichtet wird eine Verbesserung von bis zu 10 Punkten) und Multi-Agent-Orchestrierung. Die Preise sind Tokens + $0.08 pro Sitzungsstunde (auf die Millisekunde abgerechnet, nur während des Betriebs; etwa $0.705 für eine 1-stündige Opus 4.8-Sitzung). Standardmäßig für alle API-Konten aktiviert, aber zustandsbehaftet und daher nicht für ZDR oder ein HIPAA BAA geeignet. Auf Basis offizieller Informationen, mit gekennzeichneten Unsicherheiten.

2026/06/20

Claude KI-Entwicklung & Programmierung Einsteiger

Was sind Claude Code Plugins und der Plugin-Marketplace?

Ein Claude Code plugin bündelt deine Skills, Slash-Befehle, Subagenten, Hooks und MCP-Server in einem versionierbaren, teilbaren Verzeichnis, und ein marketplace ist der Verteilungskatalog. Dieser Artikel erklärt den Aufbau, die Verwendung von /plugin, offizielle und Community-marketplaces, das Erstellen und Veröffentlichen eigener plugins per git sowie Verteilungsbereiche und Sicherheit (plugins können beliebigen Code ausführen).

2026/06/20

Claude KI-Entwicklung & Programmierung Einsteiger

Claude Code: Subagents vs. Agent Teams

Subagents und Agent Teams in Claude Code teilen beide Arbeit auf mehrere KIs auf, koordinieren sich aber grundverschieden. Subagents sind eingebaut, hierarchisch und liefern nur eine Zusammenfassung; Agent Teams sind experimentell, standardmäßig deaktiviert (benötigen CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1) und koordinieren sich als gleichberechtigte Partner. Dieser Artikel klärt den entscheidenden Unterschied, welches Sie wann verwenden und wie.

2026/06/20