Aller au contenu
Thèmes

Développement IA

Développez mieux avec l'IA. Guides de génération de code, création d'apps, débogage et automatisation.

63 articles

Triez les articles pour trouver ce que vous cherchez

Que sont les agent evals ? Mesurer à la fois le résultat et la trajectory

Que sont les agent evals ? Mesurer à la fois le résultat et la trajectory

Les agent evals sont le processus consistant à mesurer systématiquement si un agent — qui utilise des outils et enchaîne plusieurs étapes pour atteindre un objectif — parvient réellement à accomplir ses tâches. Elles sont une évolution des évaluations de LLM, élargissant la cible de « une sortie » à « une séquence d'actions ». Comme un agent planifie, appelle des outils et met à jour son état, la seule sortie finale ne suffit pas ; Google note qu'il faut comprendre le « pourquoi » derrière les actions d'un agent et scinde l'évaluation en réponse finale et trajectory. Les cinq dimensions sont : résultat (réussite de la tâche, jugée par l'état final — qu'une réservation existe dans la DB, et non l'énoncé « j'ai réservé »), trajectory (étapes raisonnables, bons outils dans le bon ordre), justesse de l'usage des outils (bon outil et bons arguments, vérification des noms de fonctions et des types), efficacité (étapes, tokens, coût, latence — souvent des signaux d'observabilité ramenés dans l'évaluation) et qualité de la réponse finale (via LLM-as-judge ou une grille). Les correcteurs sont le code (rapide/peu coûteux/reproductible mais fragile), le LLM-as-judge (souple mais non déterministe et nécessitant une calibration) et l'humain (référence absolue mais coûteux — à éviter si possible). Anthropic recommande de noter le résultat, pas le chemin : la correspondance mécanique de trajectory est « trop rigide et fragile » car les agents trouvent des alternatives valides, tandis que Google et Microsoft proposent des métriques de correspondance de trajectory pour diagnostiquer les échecs. Les pièges propres à ce domaine sont le non-déterminisme (pass^k), les erreurs cumulatives (p^t), le reward hacking (le bras robotisé de DeepMind feignant une prise) et les jeux d'évaluation périmés ou contaminés. La démarche pratique, selon Anthropic : transformer 20-50 échecs de production en cas de test, exécuter une notation automatisée dans le CI, séparer évaluations de capacité et de régression, et les écrire tôt. Des benchmarks comme SWE-bench, tau-bench, WebArena, GAIA, OSWorld et BFCL sont des références utiles (les scores bougent selon la version, ne les prenez pas au pied de la lettre). Basé sur des informations officielles, incertitudes signalées.

Que sont les hooks de Claude Code ? Exécuter des commandes shell de façon déterministe

Que sont les hooks de Claude Code ? Exécuter des commandes shell de façon déterministe

Les hooks de Claude Code sont des commandes shell définies par l'utilisateur qui s'exécutent automatiquement à des points précis du cycle de vie de Claude Code, rendant « cela doit toujours se produire » réel et déterministe sans dépendre du jugement du LLM. Les événements classiques sont au nombre de neuf — SessionStart, UserPromptSubmit, PreToolUse, PostToolUse, Notification, Stop, SubagentStop, SessionEnd, PreCompact — dont PreToolUse et d'autres peuvent bloquer (en empêchant les éditions de fichiers protégés ou les commandes dangereuses). Vous les configurez dans settings.json sous la clé "hooks" sous la forme nom d'événement -> matcher -> type + command. Le contrat d'E/S : un hook reçoit du JSON sur stdin (session_id, tool_input, etc.) et renvoie via un code de sortie 0 (succès) / 2 (bloquer, avec stderr transmis à Claude) ou du JSON structuré (continue, decision:block, permissionDecision : deny/allow/ask). Le principe clé est « les hooks peuvent resserrer mais pas assouplir les restrictions » (le refus l'emporte toujours, bloque même sous bypassPermissions). Cas d'usage classiques : formatage automatique après les éditions (PostToolUse + Edit|Write), protection des fichiers critiques, blocage des commandes dangereuses, réinjection de contexte (SessionStart), notifications/journal d'audit, et tester avant de s'arrêter (Stop). Côté sécurité, les hooks exécutent des commandes shell arbitraires avec vos privilèges, donc ne configurez que ceux de confiance et validez/mettez les entrées entre guillemets ; la configuration des hooks est capturée au démarrage de la session (une fonction de sécurité) de sorte que les modifications en cours de session ne s'appliquent pas. Sur la base de la documentation officielle, ancré sur les neuf événements classiques et le contrat d'E/S.

Checkpointing et /rewind de Claude Code : revenir en arrière

Checkpointing et /rewind de Claude Code : revenir en arrière

Le checkpointing et /rewind sont un filet de sécurité : Claude Code suit automatiquement les modifications de fichiers de Claude au fil du travail, vous permettant de revenir à « avant que ça ne déraille » en quelques touches. Un instantané est pris avant chaque modification, chaque prompt envoyé devient un point de restauration, et les checkpoints persistent d'une session à l'autre. Pour l'utiliser, tapez /rewind ou appuyez deux fois sur Esc quand la saisie est vide pour ouvrir le menu, puis choisissez un point et sélectionnez Restore code and conversation / Restore conversation / Restore code (note : si la saisie contient du texte, deux fois Esc l'efface à la place). La mise en garde la plus importante : seules les modifications faites par les outils d'édition de Claude (Write/Edit/NotebookEdit) sont restaurées — les changements de fichiers par commandes bash (rm/mv/cp), les changements en dehors de la session ou d'autres sessions, les opérations sur les répertoires, les fichiers distants et l'état de la base de données ne sont PAS annulés par le rewind. La documentation le présente comme « checkpoints = annulation locale, Git = historique permanent », indiquant qu'il complète mais ne remplace pas le contrôle de version, donc committer dans Git aux étapes clés est la règle. /rewind est aussi la récupération pour l'erreur 400 liée à la concurrence de l'utilisation des outils et aux blocs de réflexion (le produit lui-même vous invite à l'exécuter), bien que les versions antérieures à v2.1.156 puissent ne pas la résoudre, donc claude update passe en premier. Activé par défaut dans le CLI interactif, opt-in dans l'Agent SDK, et conservé avec les sessions pendant 30 jours (configurable). Basé sur la documentation officielle, avec les incertitudes signalées.

Qu'est-ce que Claude Managed Agents ? Le cloud entièrement managé d'Anthropic

Qu'est-ce que Claude Managed Agents ? Le cloud entièrement managé d'Anthropic

Claude Managed Agents a été lancé en bêta publique le 8 avril 2026 comme une suite d'API composables pour construire et déployer des agents hébergés dans le cloud à grande échelle. Au lieu de construire votre propre boucle d'agent, exécution d'outils et runtime, vous obtenez un environnement entièrement managé où Claude peut lire des fichiers, exécuter des commandes, naviguer sur le web et exécuter du code en toute sécurité, avec mise en cache des prompts, compaction du contexte, sandboxing et persistance de l'état intégrés. Il s'organise autour de quatre concepts (Agent, Environment, Session, Events), et l'Environment peut être un sandbox cloud managé par Anthropic ou auto-hébergé. La différence avec l'Agent SDK auto-hébergé (où vous gérez la boucle, les outils et l'infrastructure) est « vous l'exécutez vs Anthropic l'exécute » — pas des concurrents mais un choix sur la part de l'exploitation que vous gardez. Une fonctionnalité emblématique est la mémoire persistante limitée à l'espace de travail (un memory store) montée dans le sandbox sous /mnt/memory, que l'agent lit et écrit avec des opérations de fichiers normales et qui persiste d'une session à l'autre (versions immuables, conservation 30 jours, limites comme 100 kB par mémoire). Le dreaming est un job asynchrone qui lit la mémoire existante et les transcriptions passées pour produire un memory store réorganisé — fusion des doublons, mise à jour des valeurs obsolètes et émergence de nouvelles informations (une préversion de recherche nécessitant un accès ; certains le qualifient de « planifié » mais la documentation décrit un job asynchrone à la demande). Il dispose aussi d'une notation fondée sur les résultats (un évaluateur distinct juge par rapport à votre barème ; jusqu'à 10 points d'amélioration rapportés) et d'une orchestration multi-agent. La tarification est tokens + $0.08 par heure de session (facturée à la milliseconde, uniquement pendant l'exécution ; environ $0.705 pour une session Opus 4.8 d'une heure). Activé par défaut pour tous les comptes API, mais stateful donc non éligible au ZDR ni à un HIPAA BAA. Sur la base d'informations officielles, avec les incertitudes signalées.

Plugins Claude Code et la marketplace : le guide

Plugins Claude Code et la marketplace : le guide

Un plugin Claude Code regroupe en un seul répertoire vos skills, slash commands, subagents, hooks et serveurs MCP, pour les versionner, les partager et les réutiliser. Ils se distribuent via des marketplaces, la marketplace officielle (claude.com/plugins) étant disponible d'emblée. Créer le vôtre est simple : un plugin.json, un SKILL.md, un test avec claude --plugin-dir, puis une publication via git. Attention : les plugins peuvent exécuter du code arbitraire.

Subagents vs Agent Teams dans Claude Code

Subagents vs Agent Teams dans Claude Code

Claude Code propose deux mécanismes proches mais distincts pour répartir le travail entre IA. Les subagents sont intégrés : l'agent principal délègue une tâche ciblée à un assistant à contexte neuf et n'en récupère qu'un résumé (hiérarchique, éphémère, imbrication jusqu'à 5 niveaux). Les Agent Teams sont expérimentales et désactivées par défaut (flag CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1) : des sessions indépendantes se coordonnent en pairs via une liste de tâches partagée. Cet article explique la différence décisive et comment choisir.

Claude Design et /design-sync : le pont design-code

Claude Design et /design-sync : le pont design-code

Claude Design est un outil d'Anthropic Labs qui crée des designs d'interface, prototypes et slides par la conversation. La refonte du 17 juin 2026 ajoute l'import de design systems pour construire avec de vrais composants, et /design-sync, la synchronisation bidirectionnelle avec Claude Code. Bêta Pro / Max / Team / Enterprise (désactivée par défaut sur Enterprise) : le canvas est sur web/desktop, /design-sync vit dans le CLI. L'objectif : réduire les allers-retours entre designers et développeurs.

Claude Code : « Invalid API key » / « Not logged in » — corriger l'erreur d'authentification

Claude Code : « Invalid API key » / « Not logged in » — corriger l'erreur d'authentification

Les erreurs d'authentification de Claude Code (« Not logged in », « Invalid API key », « organization has been disabled », « OAuth token expired ») sont surtout des 401/403, des problèmes d'identité. La vraie cause la plus fréquente : une variable d'environnement ANTHROPIC_API_KEY qui écrase silencieusement votre abonnement et provoque facturation à l'usage, org désactivée et clé invalide. Cet article explique le diagnostic : /status, env | grep ANTHROPIC, unset, puis /logout → /login.

Claude Code « command not found » : corriger l'erreur d'installation et de PATH

Claude Code « command not found » : corriger l'erreur d'installation et de PATH

L'erreur « command not found: claude » de Claude Code signifie presque toujours que le dossier d'installation (~/.local/bin) n'est pas dans le PATH : le binaire existe, le shell ne le trouve pas. Cet article couvre les méthodes d'installation, la correction du PATH, les conflits entre plusieurs installations, les pièges Windows et la mise à jour. Règle d'or : n'utilisez jamais sudo pour une erreur EACCES npm, passez à l'installeur natif.

Erreurs réseau/proxy de Claude Code : Unable to connect to API et certificats TLS

Erreurs réseau/proxy de Claude Code : Unable to connect to API et certificats TLS

Les erreurs « Unable to connect to API », fetch failed et SSL certificate verification failed de Claude Code signifient que la requête n'a jamais atteint le serveur d'Anthropic. Causes : proxy d'entreprise, inspection TLS et pare-feu. Apprenez à configurer HTTPS_PROXY, NODE_EXTRA_CA_CERTS et les domaines à autoriser, avec un flux de diagnostic qui commence par curl.

Claude Code : erreur 529 Overloaded / 500 — que faire

Claude Code : erreur 529 Overloaded / 500 — que faire

Les erreurs 529 Overloaded et 500 de Claude Code sont des événements côté serveur d'Anthropic, sans rapport avec votre requête ou votre quota. Claude Code réessaie déjà automatiquement jusqu'à 10 fois avec un backoff exponentiel. Cet article explique comment patienter, basculer avec /model, vérifier la page de statut, distinguer 529 du 429, et concevoir côté API/SDK.