Les agent evals sont le processus consistant à mesurer systématiquement si un agent — qui utilise des outils et enchaîne plusieurs étapes pour atteindre un objectif — parvient réellement à accomplir ses tâches. Elles sont une évolution des évaluations de LLM, élargissant la cible de « une sortie » à « une séquence d'actions ». Comme un agent planifie, appelle des outils et met à jour son état, la seule sortie finale ne suffit pas ; Google note qu'il faut comprendre le « pourquoi » derrière les actions d'un agent et scinde l'évaluation en réponse finale et trajectory. Les cinq dimensions sont : résultat (réussite de la tâche, jugée par l'état final — qu'une réservation existe dans la DB, et non l'énoncé « j'ai réservé »), trajectory (étapes raisonnables, bons outils dans le bon ordre), justesse de l'usage des outils (bon outil et bons arguments, vérification des noms de fonctions et des types), efficacité (étapes, tokens, coût, latence — souvent des signaux d'observabilité ramenés dans l'évaluation) et qualité de la réponse finale (via LLM-as-judge ou une grille). Les correcteurs sont le code (rapide/peu coûteux/reproductible mais fragile), le LLM-as-judge (souple mais non déterministe et nécessitant une calibration) et l'humain (référence absolue mais coûteux — à éviter si possible). Anthropic recommande de noter le résultat, pas le chemin : la correspondance mécanique de trajectory est « trop rigide et fragile » car les agents trouvent des alternatives valides, tandis que Google et Microsoft proposent des métriques de correspondance de trajectory pour diagnostiquer les échecs. Les pièges propres à ce domaine sont le non-déterminisme (pass^k), les erreurs cumulatives (p^t), le reward hacking (le bras robotisé de DeepMind feignant une prise) et les jeux d'évaluation périmés ou contaminés. La démarche pratique, selon Anthropic : transformer 20-50 échecs de production en cas de test, exécuter une notation automatisée dans le CI, séparer évaluations de capacité et de régression, et les écrire tôt. Des benchmarks comme SWE-bench, tau-bench, WebArena, GAIA, OSWorld et BFCL sont des références utiles (les scores bougent selon la version, ne les prenez pas au pied de la lettre). Basé sur des informations officielles, incertitudes signalées.

2026/06/20

Derniers articles

Voir tout

Claude Développement IA Débutants

Que sont les agent evals ? Mesurer à la fois le résultat et la trajectory

2026/06/20

Claude Développement IA Débutants

Que sont les hooks de Claude Code ? Exécuter des commandes shell de façon déterministe

Les hooks de Claude Code sont des commandes shell définies par l'utilisateur qui s'exécutent automatiquement à des points précis du cycle de vie de Claude Code, rendant « cela doit toujours se produire » réel et déterministe sans dépendre du jugement du LLM. Les événements classiques sont au nombre de neuf — SessionStart, UserPromptSubmit, PreToolUse, PostToolUse, Notification, Stop, SubagentStop, SessionEnd, PreCompact — dont PreToolUse et d'autres peuvent bloquer (en empêchant les éditions de fichiers protégés ou les commandes dangereuses). Vous les configurez dans settings.json sous la clé "hooks" sous la forme nom d'événement -> matcher -> type + command. Le contrat d'E/S : un hook reçoit du JSON sur stdin (session_id, tool_input, etc.) et renvoie via un code de sortie 0 (succès) / 2 (bloquer, avec stderr transmis à Claude) ou du JSON structuré (continue, decision:block, permissionDecision : deny/allow/ask). Le principe clé est « les hooks peuvent resserrer mais pas assouplir les restrictions » (le refus l'emporte toujours, bloque même sous bypassPermissions). Cas d'usage classiques : formatage automatique après les éditions (PostToolUse + Edit|Write), protection des fichiers critiques, blocage des commandes dangereuses, réinjection de contexte (SessionStart), notifications/journal d'audit, et tester avant de s'arrêter (Stop). Côté sécurité, les hooks exécutent des commandes shell arbitraires avec vos privilèges, donc ne configurez que ceux de confiance et validez/mettez les entrées entre guillemets ; la configuration des hooks est capturée au démarrage de la session (une fonction de sécurité) de sorte que les modifications en cours de session ne s'appliquent pas. Sur la base de la documentation officielle, ancré sur les neuf événements classiques et le contrat d'E/S.

2026/06/20

Claude Développement IA Débutants

Checkpointing et /rewind de Claude Code : revenir en arrière

Le checkpointing et /rewind sont un filet de sécurité : Claude Code suit automatiquement les modifications de fichiers de Claude au fil du travail, vous permettant de revenir à « avant que ça ne déraille » en quelques touches. Un instantané est pris avant chaque modification, chaque prompt envoyé devient un point de restauration, et les checkpoints persistent d'une session à l'autre. Pour l'utiliser, tapez /rewind ou appuyez deux fois sur Esc quand la saisie est vide pour ouvrir le menu, puis choisissez un point et sélectionnez Restore code and conversation / Restore conversation / Restore code (note : si la saisie contient du texte, deux fois Esc l'efface à la place). La mise en garde la plus importante : seules les modifications faites par les outils d'édition de Claude (Write/Edit/NotebookEdit) sont restaurées — les changements de fichiers par commandes bash (rm/mv/cp), les changements en dehors de la session ou d'autres sessions, les opérations sur les répertoires, les fichiers distants et l'état de la base de données ne sont PAS annulés par le rewind. La documentation le présente comme « checkpoints = annulation locale, Git = historique permanent », indiquant qu'il complète mais ne remplace pas le contrôle de version, donc committer dans Git aux étapes clés est la règle. /rewind est aussi la récupération pour l'erreur 400 liée à la concurrence de l'utilisation des outils et aux blocs de réflexion (le produit lui-même vous invite à l'exécuter), bien que les versions antérieures à v2.1.156 puissent ne pas la résoudre, donc claude update passe en premier. Activé par défaut dans le CLI interactif, opt-in dans l'Agent SDK, et conservé avec les sessions pendant 30 jours (configurable). Basé sur la documentation officielle, avec les incertitudes signalées.

2026/06/20

Claude Développement IA Débutants

Qu'est-ce que Claude Managed Agents ? Le cloud entièrement managé d'Anthropic

Claude Managed Agents a été lancé en bêta publique le 8 avril 2026 comme une suite d'API composables pour construire et déployer des agents hébergés dans le cloud à grande échelle. Au lieu de construire votre propre boucle d'agent, exécution d'outils et runtime, vous obtenez un environnement entièrement managé où Claude peut lire des fichiers, exécuter des commandes, naviguer sur le web et exécuter du code en toute sécurité, avec mise en cache des prompts, compaction du contexte, sandboxing et persistance de l'état intégrés. Il s'organise autour de quatre concepts (Agent, Environment, Session, Events), et l'Environment peut être un sandbox cloud managé par Anthropic ou auto-hébergé. La différence avec l'Agent SDK auto-hébergé (où vous gérez la boucle, les outils et l'infrastructure) est « vous l'exécutez vs Anthropic l'exécute » — pas des concurrents mais un choix sur la part de l'exploitation que vous gardez. Une fonctionnalité emblématique est la mémoire persistante limitée à l'espace de travail (un memory store) montée dans le sandbox sous /mnt/memory, que l'agent lit et écrit avec des opérations de fichiers normales et qui persiste d'une session à l'autre (versions immuables, conservation 30 jours, limites comme 100 kB par mémoire). Le dreaming est un job asynchrone qui lit la mémoire existante et les transcriptions passées pour produire un memory store réorganisé — fusion des doublons, mise à jour des valeurs obsolètes et émergence de nouvelles informations (une préversion de recherche nécessitant un accès ; certains le qualifient de « planifié » mais la documentation décrit un job asynchrone à la demande). Il dispose aussi d'une notation fondée sur les résultats (un évaluateur distinct juge par rapport à votre barème ; jusqu'à 10 points d'amélioration rapportés) et d'une orchestration multi-agent. La tarification est tokens + $0.08 par heure de session (facturée à la milliseconde, uniquement pendant l'exécution ; environ $0.705 pour une session Opus 4.8 d'une heure). Activé par défaut pour tous les comptes API, mais stateful donc non éligible au ZDR ni à un HIPAA BAA. Sur la base d'informations officielles, avec les incertitudes signalées.

2026/06/20

Claude Développement IA Débutants

Plugins Claude Code et la marketplace : le guide

Un plugin Claude Code regroupe en un seul répertoire vos skills, slash commands, subagents, hooks et serveurs MCP, pour les versionner, les partager et les réutiliser. Ils se distribuent via des marketplaces, la marketplace officielle (claude.com/plugins) étant disponible d'emblée. Créer le vôtre est simple : un plugin.json, un SKILL.md, un test avec claude --plugin-dir, puis une publication via git. Attention : les plugins peuvent exécuter du code arbitraire.

2026/06/20

Claude Développement IA Débutants

Subagents vs Agent Teams dans Claude Code

Claude Code propose deux mécanismes proches mais distincts pour répartir le travail entre IA. Les subagents sont intégrés : l'agent principal délègue une tâche ciblée à un assistant à contexte neuf et n'en récupère qu'un résumé (hiérarchique, éphémère, imbrication jusqu'à 5 niveaux). Les Agent Teams sont expérimentales et désactivées par défaut (flag CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1) : des sessions indépendantes se coordonnent en pairs via une liste de tâches partagée. Cet article explique la différence décisive et comment choisir.

2026/06/20