Zum Inhalt springen
Themen

Einsteiger

Neu bei KI? Starten Sie hier. Einsteigerfreundliche Anleitungen zu KI-Konzepten und ersten Schritten.

115 Artikel

Sortieren Sie Artikel, um das Gewünschte zu finden

Was sind Agent Evals? Ergebnis und Trajectory zugleich messen

Was sind Agent Evals? Ergebnis und Trajectory zugleich messen

Agent Evals sind der Prozess, systematisch zu messen, ob ein Agent – einer, der Tools nutzt und mehrere Schritte unternimmt, um ein Ziel zu erreichen – seine Aufgaben tatsächlich erfüllen kann. Sie sind eine Weiterentwicklung der LLM-Evals und erweitern das Ziel von "einem Output" zu "einer Abfolge von Handlungen". Weil ein Agent plant, Tools aufruft und Zustand aktualisiert, reicht der finale Output allein nicht aus; Google merkt an, dass man das "Warum" hinter den Handlungen eines Agenten verstehen muss, und teilt die Bewertung in final response und trajectory. Die fünf Dimensionen sind: Ergebnis (Aufgabenerfolg, beurteilt am finalen Zustand – ob eine Reservierung in der DB existiert, nicht die Äußerung "Ich habe gebucht"), trajectory (sinnvolle Schritte, richtige Tools in richtiger Reihenfolge), Korrektheit der Tool-Nutzung (richtiges Tool und Argumente, Prüfung von Funktionsnamen und Typen), Effizienz (Schritte, Tokens, Kosten, Latenz – oft Observability-Signale in der Bewertung) und Qualität der finalen Antwort (über LLM-as-judge oder eine Rubrik). Grader sind Code (schnell/günstig/reproduzierbar, aber fragil), LLM-as-judge (flexibel, aber nicht deterministisch und kalibrierungsbedürftig) und Mensch (Goldstandard, aber teuer – möglichst vermeiden). Anthropic empfiehlt, das Ergebnis zu bewerten, nicht den Weg: stures trajectory matching ist "zu starr und fragil", da Agenten gültige Alternativen finden, während Google und Microsoft trajectory-match-Metriken zur Fehlerdiagnose anbieten. Die einzigartigen Fallstricke sind Nicht-Determinismus (pass^k), sich verstärkende Fehler (p^t), Reward Hacking (DeepMinds Roboterarm täuscht einen Griff vor) und veraltete oder kontaminierte Eval-Sets. Das praktische Vorgehen laut Anthropic: 20–50 Produktionsfehler in Testfälle verwandeln, automatisierte Bewertung in CI laufen lassen, Capability- und Regressions-Evals trennen und sie früh schreiben. Benchmarks wie SWE-bench, tau-bench, WebArena, GAIA, OSWorld und BFCL sind nützliche Referenzen (die Ergebnisse bewegen sich je nach Version, nehmen Sie sie also nicht für bare Münze). Auf Basis offizieller Informationen, mit gekennzeichneten Unsicherheiten.

Was sind Claude Code Hooks? Shell-Befehle deterministisch ausführen

Was sind Claude Code Hooks? Shell-Befehle deterministisch ausführen

Claude Code Hooks sind benutzerdefinierte Shell-Befehle, die an bestimmten Punkten im Lebenszyklus von Claude Code automatisch laufen und machen "das muss immer passieren" real und deterministisch, ohne sich auf das Ermessen des LLM zu verlassen. Die klassischen Events sind neun – SessionStart, UserPromptSubmit, PreToolUse, PostToolUse, Notification, Stop, SubagentStop, SessionEnd, PreCompact –, von denen PreToolUse und andere blockieren können (Bearbeitungen geschützter Dateien oder gefährliche Befehle stoppen). Konfiguriert werden sie in settings.json unter dem Schlüssel "hooks" als Event-Name -> matcher -> type + command. Der E/A-Kontrakt: Ein Hook empfängt JSON über stdin (session_id, tool_input usw.) und gibt über Exit-Code 0 (Erfolg) / 2 (blockieren, mit stderr zurück an Claude) oder strukturiertes JSON (continue, decision:block, permissionDecision: deny/allow/ask) zurück. Das zentrale Prinzip lautet "Hooks können Beschränkungen verschärfen, aber nicht lockern" (deny gewinnt immer, blockiert sogar unter bypassPermissions). Klassische Anwendungsfälle: Auto-Format nach Bearbeitungen (PostToolUse + Edit|Write), kritische Dateien schützen, gefährliche Befehle stoppen, Kontext erneut einspeisen (SessionStart), Benachrichtigungen/Audit-Logging und Testen vor dem Stoppen (Stop). Zur Sicherheit: Hooks führen beliebige Shell-Befehle mit deinen Rechten aus, konfiguriere also nur vertrauenswürdige und validiere/quote Eingaben; die Hook-Konfiguration wird beim Session-Start erfasst (ein Sicherheitsmerkmal), sodass Änderungen mitten in der Session nicht greifen. Auf Basis der offiziellen Dokumentation, gestützt auf die neun klassischen Events und den E/A-Kontrakt.

Was sind Claude Code Checkpointing und /rewind? Änderungen zurückrollen

Was sind Claude Code Checkpointing und /rewind? Änderungen zurückrollen

Checkpointing und /rewind sind ein Sicherheitsnetz: Claude Code verfolgt Claudes Dateibearbeitungen automatisch, während Sie arbeiten, sodass Sie mit ein paar Tastendrücken zu "bevor es schiefging" zurückrollen. Vor jeder Bearbeitung wird ein Snapshot erstellt, jeder gesendete Prompt wird zu einem Wiederherstellungspunkt, und Checkpoints bleiben über Sitzungen hinweg erhalten. Zum Nutzen: tippen Sie /rewind oder drücken Sie zweimal Esc bei leerem Eingabefeld, um das Menü zu öffnen, wählen Sie dann einen Punkt und Code und Konversation wiederherstellen / Konversation wiederherstellen / Code wiederherstellen (Hinweis: enthält das Eingabefeld Text, löscht zweimaliges Esc stattdessen die Eingabe). Der wichtigste Vorbehalt: nur Änderungen durch Claudes Bearbeitungstools (Write/Edit/NotebookEdit) werden wiederhergestellt – Dateiänderungen durch bash-Befehle (rm/mv/cp), Änderungen außerhalb der Sitzung oder aus anderen Sitzungen, Verzeichnisoperationen, Remote-Dateien und der Datenbankzustand werden durch Rewind NICHT rückgängig gemacht. Die Dokumentation rahmt es als "Checkpoints = lokales Rückgängig, Git = dauerhafte Historie" und sagt, dass es die Versionskontrolle ergänzt, aber nicht ersetzt, weshalb das Committen an Meilensteinen in Git die Regel ist. /rewind ist auch die Wiederherstellung beim 400-Fehler rund um die Nebenläufigkeit der Tool-Nutzung und Thinking-Blöcke (das Produkt selbst fordert Sie dazu auf), wobei Versionen vor v2.1.156 ihn möglicherweise nicht beheben, sodass claude update zuerst kommt. Es ist in der interaktiven CLI standardmäßig aktiviert, im Agent SDK ein Opt-in, und wird mit den Sitzungen 30 Tage aufbewahrt (konfigurierbar). Auf Basis der offiziellen Dokumentation, mit gekennzeichneten Unsicherheiten.

Was sind Claude Managed Agents? Anthropics verwaltete Cloud

Was sind Claude Managed Agents? Anthropics verwaltete Cloud

Claude Managed Agents startete am 8. April 2026 als öffentliche Beta – eine Suite zusammensetzbarer APIs zum Erstellen und Bereitstellen cloud-gehosteter Agenten im großen Maßstab. Statt eine eigene Agent-Schleife, Tool-Ausführung und Laufzeitumgebung zu bauen, erhalten Sie eine vollständig verwaltete Umgebung, in der Claude sicher Dateien lesen, Befehle ausführen, im Web surfen und Code ausführen kann, mit eingebautem Prompt-Caching, Kontext-Kompaktierung, Sandboxing und Zustandspersistenz. Es ist um vier Konzepte herum organisiert (Agent, Environment, Session, Events), und das Environment kann eine von Anthropic verwaltete Cloud-Sandbox oder eine selbst gehostete sein. Der Unterschied zum selbst gehosteten Agent SDK (wo Sie Schleife, Tools und Infrastruktur betreiben) ist „Sie betreiben es vs. Anthropic betreibt es" – keine Konkurrenten, sondern eine Wahl darüber, wie viel des Betriebs Sie behalten. Ein charakteristisches Merkmal ist workspace-bezogener persistenter Speicher (ein memory store), in der Sandbox unter /mnt/memory eingehängt, den der Agent mit normalen Dateioperationen liest und schreibt und der über Sitzungen hinweg erhalten bleibt (unveränderliche Versionen, 30 Tage Aufbewahrung, Limits wie 100 kB pro Speicher). Dreaming ist ein asynchroner Job, der den vorhandenen Speicher und vergangene Transkripte liest, um einen reorganisierten memory store zu erzeugen – Duplikate zusammenführen, veraltete Werte aktualisieren und neue Erkenntnisse hervorheben (eine Research Preview, die Zugang erfordert; manche nennen es „geplant", aber die Dokumentation beschreibt einen bei Bedarf erstellten asynchronen Job). Es verfügt außerdem über outcomes-basierte Bewertung (ein separater Grader bewertet anhand Ihrer Rubrik; berichtet wird eine Verbesserung von bis zu 10 Punkten) und Multi-Agent-Orchestrierung. Die Preise sind Tokens + $0.08 pro Sitzungsstunde (auf die Millisekunde abgerechnet, nur während des Betriebs; etwa $0.705 für eine 1-stündige Opus 4.8-Sitzung). Standardmäßig für alle API-Konten aktiviert, aber zustandsbehaftet und daher nicht für ZDR oder ein HIPAA BAA geeignet. Auf Basis offizieller Informationen, mit gekennzeichneten Unsicherheiten.

Was sind Claude Code Plugins und der Plugin-Marketplace?

Was sind Claude Code Plugins und der Plugin-Marketplace?

Ein Claude Code plugin bündelt deine Skills, Slash-Befehle, Subagenten, Hooks und MCP-Server in einem versionierbaren, teilbaren Verzeichnis, und ein marketplace ist der Verteilungskatalog. Dieser Artikel erklärt den Aufbau, die Verwendung von /plugin, offizielle und Community-marketplaces, das Erstellen und Veröffentlichen eigener plugins per git sowie Verteilungsbereiche und Sicherheit (plugins können beliebigen Code ausführen).

Claude Code: Subagents vs. Agent Teams

Claude Code: Subagents vs. Agent Teams

Subagents und Agent Teams in Claude Code teilen beide Arbeit auf mehrere KIs auf, koordinieren sich aber grundverschieden. Subagents sind eingebaut, hierarchisch und liefern nur eine Zusammenfassung; Agent Teams sind experimentell, standardmäßig deaktiviert (benötigen CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1) und koordinieren sich als gleichberechtigte Partner. Dieser Artikel klärt den entscheidenden Unterschied, welches Sie wann verwenden und wie.

Was ist Claude Design und /design-sync?

Was ist Claude Design und /design-sync?

Claude Design ist ein Design-Werkzeug aus den Anthropic Labs, mit dem du UI, Prototypen und Folien im Gespräch erstellst. Das Generalupdate vom Juni 2026 brachte den Import von Designsystemen und eine bidirektionale Synchronisation mit Claude Code via /design-sync. Dieser Artikel erklärt, was Claude Design ist, die beiden Richtungen von /design-sync, die Verfügbarkeit (Beta für Pro / Max / Team / Enterprise) und warum es das Hin und Her zwischen Designern und Entwicklern verkürzt.

Was ist Claude Code Artifacts? Eine Sitzung als geteilte Seite

Was ist Claude Code Artifacts? Eine Sitzung als geteilte Seite

Am 18. Juni 2026 veröffentlichte Anthropic Claude Code Artifacts (Beta) — eine Funktion, die eine Coding-Sitzung im Terminal in eine lebende, organisationsintern geteilte Webseite unter einer privaten claude.ai-URL verwandelt. Es gibt keinen /artifact-Befehl: Sie fragen in natürlicher Sprache. Dieser Artikel erklärt, was es ist, wie es sich von den claude.ai Artifacts von 2024 unterscheidet, wie man es verwendet sowie seine Grenzen (kein Backend, keine externen Anfragen, ≤ 16 MiB) und die Verfügbarkeit (Team-/Enterprise-Beta, /login erforderlich).

Claude Code: „Not logged in" / „Invalid API key" — Auth-Fehler beheben

Claude Code: „Not logged in" / „Invalid API key" — Auth-Fehler beheben

Die Auth-Fehler von Claude Code (Not logged in, Invalid API key, organization disabled, OAuth token expired) sind meist 401/403 und damit ein Problem mit den Anmeldedaten. Die häufigste wahre Ursache: die Umgebungsvariable ANTHROPIC_API_KEY überschreibt stillschweigend dein Abo. Dieser Artikel zeigt den Diagnose-Workflow — zuerst /status, dann den verirrten Key mit unset entfernen und sauber neu anmelden.

Claude Code "command not found: claude": Install- und PATH-Fehler beheben

Claude Code "command not found: claude": Install- und PATH-Fehler beheben

Du hast Claude Code installiert, doch die Eingabe von claude liefert "zsh: command not found: claude", "bash: claude: command not found" oder unter Windows "is not recognized as an internal or external command". In den meisten Fällen ist das Installationsverzeichnis schlicht nicht im PATH, und die Installation selbst war erfolgreich. Dieser Artikel erklärt, wie die Shell die PATH-Ordner durchsucht, die Installationsmethoden und -orte (der native Installer wird empfohlen und landet in ~/.local/bin, unter Windows %USERPROFILE%\.local\bin; npm benötigt Node 18+ und installiert dieselbe native Binary; Homebrew/WinGet; nur die VS Code-Erweiterung zu installieren fügt claude nicht zum PATH hinzu), die Hauptursachen und Lösungen (~/.local/bin zum PATH hinzufügen und das Terminal neu starten, ein npm-EACCES-Berechtigungsfehler sollte zu nativ wechseln statt sudo, Node zu alt, Konflikte mehrerer Installationen geprüft mit which -a / where.exe und auf eine native reduziert, sowie der Fall der nicht gefundenen nativen Binary beim Überspringen optionaler Abhängigkeiten), Windows-spezifische Fallstricke (die Shell-Verwechslung wie irm in CMD, das Terminal neu starten, der alte Claude Desktop WindowsApps Claude.exe-Konflikt und CLAUDE_CODE_GIT_BASH_PATH für Git Bash), Auto-Update und Aktualisieren (claude update, claude install, claude doctor für das Update-Ergebnis, DISABLE_AUTOUPDATER / DISABLE_UPDATES) sowie den Diagnose-Workflow (claude doctor zu which -a zu PATH zum Entfernen überflüssiger Versionen zur nativen Neuinstallation) – alles auf Basis offizieller Informationen.

Claude Code Verbindungsfehler: Proxy, TLS und Firewall beheben

Claude Code Verbindungsfehler: Proxy, TLS und Firewall beheben

Wenn Claude Code auf einem Firmenrechner oder über VPN nicht verbindet (Unable to connect to API, fetch failed, SSL certificate verification failed), hat die Anfrage den Server nie erreicht – ein TCP/TLS/DNS-Fehler, kein Auth-, Server- oder Rate-Limit-Problem. Dieser Artikel erklärt Proxy-Konfiguration mit HTTPS_PROXY, das sichere Vertrauen der Firmen-CA über NODE_EXTRA_CA_CERTS (niemals NODE_TLS_REJECT_UNAUTHORIZED=0), die freizugebenden Firewall-Domains und den Diagnose-Workflow ab curl -I https://api.anthropic.com.

Claude Code: 529 Overloaded und 500 Server Error — Ursachen und Lösung

Claude Code: 529 Overloaded und 500 Server Error — Ursachen und Lösung

„API Error: 529 Overloaded" und „500 Internal server error" in Claude Code sind serverseitige Ereignisse — kein Fehler in deiner Anfrage und kein aufgebrauchtes Kontingent. Claude Code wiederholt automatisch bis zu 10 Mal mit exponentiellem Backoff. Dieser Artikel erklärt die Ursachen, die Abgrenzung zu 429/usage limit und die einfache Lösung: warten, mit /model wechseln, Status prüfen.