Aller au contenu
Thèmes

Agents IA et automatisation

Comprenez les agents IA, le RAG et les workflows d'automatisation. Des concepts aux applications concrètes.

34 articles

Triez les articles pour trouver ce que vous cherchez

Qu'est-ce que l'observabilité de l'IA ? Monitoring et tracing des LLM et des agents, pour débutants

Qu'est-ce que l'observabilité de l'IA ? Monitoring et tracing des LLM et des agents, pour débutants

L'observabilité de l'IA rend visible ce que font réellement les LLM et les agents en production : quels outils, quelles recherches, ce qui est renvoyé, en combien de temps et à quel coût. Contrairement au monitoring classique, l'IA peut renvoyer 200 OK en 50ms et halluciner avec aplomb : la plupart des défaillances sont des problèmes de qualité, pas d'infrastructure. Trois piliers : traces, metrics, logs. On distingue observabilité (ce qui s'est passé) et évaluation (la réponse est-elle bonne), à utiliser en duo. Outils : LangSmith, Langfuse, Arize Phoenix, MLflow, AgentOps et le standard OpenTelemetry.

Comment construire un système multi-agents : guide pratique du pattern supervisor

Comment construire un système multi-agents : guide pratique du pattern supervisor

Après avoir saisi le concept dans « Qu'est-ce qu'un système multi-agents ? », voici la suite pratique. En s'appuyant sur le standard de fait de 2026, le pattern supervisor, l'article guide les débutants à travers une construction en 5 étapes. Le principe clé : construire d'abord en mono-agent et n'ajouter des agents que de façon minimale, une fois une limite atteinte (~80% des cas d'usage se contentent d'un seul ; utiliser le multi pour un travail simple et linéaire gonfle le coût de 3-10x et, selon la recherche de Google, fait baisser la précision de -39-70% sur les tâches séquentielles). Trois signes pour passer au multi : séparation des spécialités, parallélisme, séparation des décisions. Le pattern supervisor (le supervisor reçoit la tâche globale, la décompose, la délègue à des workers spécialisés et agrège les résultats) est le point de convergence des sous-agents de Claude Code, de LangGraph Supervisor et des handoffs de l'OpenAI Agents SDK, car il offre le support framework le plus large, un mode de défaillance connu (sur-délégation, bornée par un plafond d'itérations) et est facile à auditer. Les 5 étapes : 1) décomposer clairement la tâche en amont ; 2) définir les workers avec un rôle + outils + format de sortie (3-5 max) ; 3) concevoir le supervisor en énumérant explicitement les noms de workers appelables (plafond strict) et en y consacrant le plus de temps ; 4) décider du handoff et du partage de contexte, ne transmettre que le nécessaire (le standard est A2A) ; 5) instrumenter chaque handoff avant d'ajouter des agents, plafonner itérations/tokens/coût, et mettre en place evals et garde-fous. Un pseudo-code indépendant de tout framework montre les définitions de workers, un supervisor plafonné et une boucle bornée par les itérations. Pièges et solutions : sur-délégation, explosion des tokens, instabilité, baisse de précision et point d'échec inconnu. La leçon : les prompts, la conception des outils et le harnais d'evals décident du succès plus que le framework. Construire petit, mesurer, n'ajouter que lorsque ça rapporte.

Qu'est-ce qu'un système multi-agents ? Coordonner plusieurs agents IA, expliqué aux débutants

Qu'est-ce qu'un système multi-agents ? Coordonner plusieurs agents IA, expliqué aux débutants

« Répartir entre plusieurs agents une tâche complexe qu'un seul agent IA ne peut pas gérer » : voilà l'idée des systèmes multi-agents. Ce guide pour débutants expose le fonctionnement, les principaux modèles et les grands frameworks, et surtout la véritable règle de décision pour savoir quand utiliser plusieurs agents et quand un seul suffit, sans battage. Un système multi-agents fait travailler ensemble plusieurs IA spécialisées par rôle sur une grande tâche ; face à un agent unique qui fait tout (suffisant pour ~80 % des cas, peu coûteux et facile à déboguer), il divise le travail par spécialité pour le parallélisme et la vérification croisée, au prix d'un coût de coordination et d'une consommation de tokens plus élevés. Les quatre modèles d'orchestration dominants : orchestrator-worker (un chef décompose, répartit en parallèle et synthétise ; le plus utilisé, avec une piste d'audit), passation séquentielle, conversation de groupe (débat avec sélecteur) et machine à états en graphe. En 2026, les frameworks se sont consolidés autour de LangGraph, CrewAI, AutoGen/AG2 et OpenAI Swarm. Mais ce n'est pas une panacée : jusqu'à +23 % sur le complexe, mais −39 à 70 % sur le séquentiel simple selon une recherche de Google, ~15x de tokens et 7 déploiements sur 10 sans ROI. La voie recommandée : un seul d'abord, identifier un plafond concret, puis ajouter une équipe minimale de 2-3 agents en modèle à chef, et mesurer. A2A et MCP sont les technologies fondamentales qui soutiennent le multi-agents. Un seul pour 80 %, le multi uniquement pour les parties difficiles.

Qu'est-ce que l'A2A (Agent2Agent) ? Différences avec MCP, Agent Cards et fonctionnement

Qu'est-ce que l'A2A (Agent2Agent) ? Différences avec MCP, Agent Cards et fonctionnement

Maintenant que les agents IA sont courants, le prochain défi est de faire collaborer les agents entre eux. Si MCP relie un agent à ses outils, A2A (Agent2Agent) relie un agent à un autre agent — une norme ouverte permettant à des IA construites sur des éditeurs et des frameworks différents de se découvrir, de communiquer et de coopérer grâce à une convention commune. Google l'a publiée en avril 2025, l'a confiée à la Linux Foundation en juin de la même année, et elle a atteint la v1.0 en 2026. Ce guide pour débutants explique ce qu'est A2A (l'analogie de l'étiquette d'un partenariat commercial), pourquoi c'est nécessaire (des agents spécialisés se relaient le travail — un agent de planification vers un agent de réservation d'hôtel vers un agent de paiement), en quoi cela diffère de MCP (MCP est vertical, agent ↔ outils ; A2A est horizontal, agent ↔ agent ; empiler les deux est la configuration standard à deux couches), comment ça marche (une Agent Card — un JSON « carte de visite » à /.well-known/agent-card.json — sert à découvrir les capacités, puis une Task porte la demande à travers des états comme working, input-required et completed, et un Artifact renvoie le résultat, le tout via HTTP, Server-Sent Events et JSON-RPC 2.0, les agents gardant leurs rouages internes cachés), ainsi que son état actuel et sa mise en œuvre (à la date d'avril 2026, 150+ organisations en production, 22 000+ étoiles sur GitHub, des SDK dans cinq langages — Python, JavaScript, Java, Go, .NET — avec Microsoft, Salesforce, SAP et ServiceNow impliqués). Le moyen mnémotechnique : se connecter aux outils = MCP, se connecter aux pairs = A2A.

Qu'est-ce que le reranking ? La récupération en deux étapes qui booste la précision du RAG — guide pour débutants

Qu'est-ce que le reranking ? La récupération en deux étapes qui booste la précision du RAG — guide pour débutants

Vous avez construit un RAG, mais la qualité de la recherche est médiocre — c'est exactement là que le reranking aide. Le reranking re-score, selon leur pertinence par rapport à la requête, les candidats grossièrement rassemblés par la recherche par embedding (vectorielle) et les réordonne en ne gardant que les meilleurs ; cette seule étape peut transformer radicalement la qualité des réponses d'un système RAG. Ce guide pour débutants explique ce qu'est le reranking (avec l'analogie de la présélection et de l'entretien final), pourquoi il est nécessaire (la recherche par embedding vectorise la requête et les documents séparément, donc elle ne juge la pertinence que grossièrement, et un mauvais ordre fait directement baisser la qualité des réponses — la recherche rapporte un gain de précision RAG d'environ 40 % grâce au reranking, et le superposer à la recherche hybride est le standard 2026), comment fonctionne la récupération en deux étapes (« rassembler large » avec une recherche par embedding rapide pour le rappel, puis « affiner intelligemment » avec le reranker pour la précision, avant de transmettre le haut du panier au LLM), pourquoi un reranker est plus précis (un bi-encoder vectorise la requête et le document individuellement, rapide mais approximatif ; un cross-encoder les fournit ensemble et produit un score de pertinence 0–1, précis mais lourd — on rassemble donc avec le bi-encoder rapide et on affine avec le cross-encoder précis), ainsi que les modèles et l'implémentation (type API comme Cohere Rerank, Voyage et Jina ; open source comme BGE reranker, mixedbread et FlashRank ; et scoring par LLM comme RankLLM — il suffit de récupérer 50–100 et d'affiner au top 5). Le principe : rassembler large, affiner intelligemment, et ajuster les nombres avec des évaluations d'IA.

Que sont les garde-fous IA ? Défense contre l'injection de prompt et protection entrée/sortie — guide pour débutants

Que sont les garde-fous IA ? Défense contre l'injection de prompt et protection entrée/sortie — guide pour débutants

Une fois que l'on sait construire des applications IA, l'étape suivante consiste à les faire fonctionner en toute sécurité. Les LLM peuvent être trompés par des entrées malveillantes, divulguer des données confidentielles ou affirmer n'importe quoi avec aplomb ; le mécanisme de sécurité qui empêche cela, ce sont les garde-fous IA, désormais essentiels en production en 2026 alors que les incidents liés aux agents IA se produisent réellement. Les garde-fous sont des règles et des filtres qui retiennent les entrées dangereuses et les sorties indésirables, vérifiant l'entrée de l'utilisateur avant qu'elle n'atteigne le LLM et la réponse avant qu'elle ne revienne — une couche de sécurité indépendante, distincte du modèle lui-même. Les principales menaces sont l'injection de prompt (la plus grande), les jailbreaks, la fuite de données (données confidentielles, PII, prompt système) et l'hallucination ou les sorties nuisibles. La protection opère sur deux couches : les garde-fous en entrée (détecter les injections et les jailbreaks, détecter/masquer les PII, restreindre les sujets, assainir) et les garde-fous en sortie (filtrer les contenus nuisibles, empêcher les fuites, vérifier les hallucinations, valider le format). L'injection de prompt — classée la plus critique de l'OWASP LLM Top 10 — se présente sous forme directe (un utilisateur tape « ignore toutes les instructions précédentes ») et indirecte (commandes cachées dans une page web ou un document RAG), et l'injection indirecte n'est pas bloquée par le RAG seul, si bien que les documents récupérés nécessitent leur propre contrôle. Ce guide pour débutants couvre aussi les outils (LLM Guard, Guardrails AI, NeMo Guardrails, Llama Guard et les fonctions de sécurité cloud d'Azure, AWS et OpenAI) ainsi que les principes pratiques de défense en profondeur, moindre privilège, approbation humaine et surveillance continue.

Qu'est-ce qu'un embedding (vecteur) ? Quand le sens devient des nombres, usages et choix du modèle

Qu'est-ce qu'un embedding (vecteur) ? Quand le sens devient des nombres, usages et choix du modèle

RAG, recherche sémantique et recommandations reposent tous sur un travailleur de l'ombre : l'embedding (vecteur). Un embedding, c'est le sens d'un texte (ou d'une image) converti en une suite de nombres — un vecteur. Le mot « chien » devient une liste de centaines à milliers de nombres qui jouent le rôle de « coordonnées du sens » : ainsi les mots proches par le sens se retrouvent voisins (« chien » et « chiot » sont proches ; « chien » et « voiture » sont éloignés), et la proximité se quantifie par des mesures comme la similarité cosinus. Exemple célèbre : « roi − homme + femme ≈ reine ». Grâce à cela, une machine peut juger si le sens est proche même quand les caractères ne correspondent pas. Ce guide pour débutants couvre ce qu'est un embedding (une « carte du sens »), pourquoi la proximité mesure le sens (dimensions et similarité cosinus), à quoi il sert (RAG, recherche sémantique, classification et déduplication, recommandations, multimodal), comment choisir un modèle d'embedding (type API comme OpenAI text-embedding-3, Cohere, Gemini, Voyage ; open source comme BGE-M3, Nomic, Qwen3 ; sans oublier Matryoshka, qui peut ramener 3 072 dimensions à 1 024 en conservant environ 95 % de la qualité pour environ un tiers du coût), et les bases vectorielles (Pinecone, Weaviate, Qdrant, Chroma, pgvector) avec un démarrage en trois étapes (choisir un modèle, vectoriser et stocker les documents, vectoriser la question et rechercher). Les embeddings sont le socle de la mise en œuvre du RAG.

Que sont les AI evals (et le LLM-as-judge) ? Fonctionnement, biais et outils — guide du débutant

Que sont les AI evals (et le LLM-as-judge) ? Fonctionnement, biais et outils — guide du débutant

Vous avez peaufiné vos prompts, ajouté des connaissances avec le RAG, peut-être fait du fine-tuning — alors comment confirmer que cela s'est vraiment amélioré ? Les AI evals entrent en scène, et d'ici 2026 l'évaluation est si essentielle qu'on la qualifie d'« infrastructure ». Les AI evals consistent à mesurer systématiquement la qualité des sorties d'un LLM (exactitude, hallucinations, respect du format, ton) selon un étalon fixe plutôt qu'à l'instinct ; sans elles, l'amélioration n'est qu'une intuition. Il existe deux méthodes : l'évaluation par code pour les éléments mesurables mécaniquement (correspondance exacte, format, mots requis/interdits — rapide, peu coûteux, stable) et le LLM-as-judge pour les subjectifs (utiliser un LLM puissant comme arbitre pour noter les sorties, via comparaison pairwise ou notation d'une seule sortie). Le principe : mesurez avec du code tout ce que le code peut mesurer. Le LLM-as-judge présente des biais de verbosité, de position et de préférence pour soi ; les correctifs sont d'utiliser une famille de modèle différente comme correcteur, d'inverser l'ordre et de noter deux fois, d'inscrire la concision dans la grille, et de calibrer par rapport au jugement humain. Les échelles grossières (pass/fail ou 1–3) battent la notation fine de 1–10. En pratique, faites tourner trois niveaux — vérifications par code instantanées à chaque changement, tests de régression nocturnes par LLM-as-judge, et surveillance continue en production — avec des outils comme DeepEval, Promptfoo et RAGAS pour la CI, plus Braintrust, LangSmith et Arize pour la surveillance. Commencez par rassembler 10 bonnes et 10 mauvaises sorties et notez-les.

Qu'est-ce que le Spec-Driven Development (SDD) ? Les quatre étapes, les outils et ce qui le distingue du vibe coding

Qu'est-ce que le Spec-Driven Development (SDD) ? Les quatre étapes, les outils et ce qui le distingue du vibe coding

À l'ère où c'est l'IA qui écrit le code, la compétence à plus forte valeur se déplace de « écrire du code » vers « écrire la spécification » — et la pratique qui incarne ce changement est le développement piloté par la spécification (Spec-Driven Development, SDD). Le SDD place la spécification au centre du projet comme source de vérité, et un agent IA en déduit la conception, le découpage et l'implémentation au lieu de coder immédiatement. L'essentiel est que chaque étape laisse un document (souvent en Markdown) que l'étape suivante lit. Ce guide pour débutants explique ce qu'est le SDD (la spécification fait foi ; le code en est un dérivé), pourquoi il s'impose maintenant (il prévient le « mur des trois mois » de dette technique et de dérive des besoins du vibe coding dès l'étape de conception — GitHub rapporte environ un ordre de grandeur de moins de cycles « tout régénérer de zéro »), les quatre étapes de base (Specify → Plan → Tasks → Implement), les principaux outils (GitHub Spec Kit avec plus de 90 000 étoiles et plus de 30 agents pris en charge, AWS Kiro avec son flux Requirements → Design → Tasks et son routeur Auto, ainsi que BMAD, OpenSpec, Tessl, Google Antigravity et Cursor), quand l'utiliser plutôt que le vibe coding (un hybride : le vibe pour explorer, le piloté par la spécification pour livrer, avec une revue humaine obligatoire), et comment l'essayer dès aujourd'hui. À l'ère de l'IA, ceux qui montent sont ceux qui savent définir précisément quoi construire, pas ceux qui écrivent le code le plus vite.

Qu'est-ce que le context engineering ? La compétence après les prompts, et comment vaincre le « context rot »

Qu'est-ce que le context engineering ? La compétence après les prompts, et comment vaincre le « context rot »

Le centre de gravité du travail avec l'IA se déplace du prompt engineering vers le context engineering. En reprenant la définition d'Anthropic, le context engineering est « l'ensemble des stratégies permettant de sélectionner et de maintenir le jeu optimal de tokens (informations) transmis au modèle pendant l'inférence » — couvrant non seulement le prompt mais tout ce qui entre dans la fenêtre de contexte : le system prompt, les outils, l'historique de conversation et les données externes. Il compte à cause du « context rot » : plus on ajoute de tokens, plus la précision baisse en réalité. L'étude 2025 de Chroma a testé 18 modèles de premier plan (GPT, Claude, Gemini et d'autres) et tous se sont dégradés à mesure que l'entrée s'allongeait, l'information placée au milieu d'un long contexte étant particulièrement facile à oublier (« lost in the middle »). Ce guide pour débutants explique ce qu'est le context engineering et son lien avec le prompt engineering, pourquoi survient le context rot (l'attention est un budget limité), ce que contient réellement le contexte, six techniques essentielles (instructions au bon niveau de détail, sélection des outils, récupération just-in-time, compaction/compression par résumé, notes en mémoire externe et isolation par sous-agent), son lien avec le RAG et les Claude Skills, ainsi que des habitudes utilisables dès aujourd'hui comme démarrer une nouvelle session quand le sujet change et ne coller que les points clés. L'idée centrale : ne garder que les tokens les plus utiles, en quantité minimale.

Que sont les Claude Skills (Agent Skills) ? Fonctionnement, création et différences avec le MCP

Que sont les Claude Skills (Agent Skills) ? Fonctionnement, création et différences avec le MCP

Un guide accessible aux débutants sur les Claude Skills (Agent Skills), le mécanisme qui met fin à la corvée de réexpliquer sans cesse la même procédure à Claude. Une Skill empaquette instructions, scripts et références dans un seul dossier, centré sur un fichier SKILL.md qui contient un name, une description et les étapes. La plupart du temps, Claude ne lit que la courte description de chaque skill et ne déploie le corps que lorsque votre requête y correspond — une conception appelée divulgation progressive qui maintient votre contexte léger même avec des dizaines de skills installées. Cet article explique ce que sont les Skills, pourquoi elles comptent (fini de recoller des prompts), comment rédiger un SKILL.md et une structure de dossier minimale, comment en créer une (la skill-creator officielle ou à la main, déposée dans .claude/skills, avec le rechargement instantané de janvier 2026), en quoi les Skills diffèrent du MCP (connectivité) et des sous-agents (isolation du contexte), le standard ouvert désormais adopté par Codex CLI, Cursor, Gemini CLI et GitHub Copilot au-delà des applications Claude, de Claude Code, de l'API et de l'Agent SDK, ainsi que des usages concrets comme la génération de documents et l'application de règles internes. Annoncées par Anthropic le 16 octobre 2025 et qualifiées de « peut-être plus importantes encore que le MCP » par Simon Willison.

Jusqu'où l'IA peut-elle automatiser le navigateur ? La réalité des formulaires, réservations et recherches

Jusqu'où l'IA peut-elle automatiser le navigateur ? La réalité des formulaires, réservations et recherches

« J'ai demandé à une IA et elle a ouvert le navigateur, fait des recherches, et même rempli un formulaire. » En 2026, ce n'est plus une démo mise en scène : les navigateurs agentiques (ChatGPT Atlas, Claude for Chrome, Gemini/Chrome, Perplexity Comet) sont arrivés d'un seul coup. Alors jusqu'où peuvent-ils réellement automatiser ? La réalité se découpe nettement en trois paliers. (1) Recherche = prête pour la production : sur WebVoyager (vrais sites), les meilleurs agents atteignent 89-98 %, proche de la saturation, et comme une mauvaise action coûte peu, c'est par là qu'il faut commencer à déléguer. (2) Remplissage de formulaires = faisable mais à vérifier : la saisie elle-même est prise en charge, mais les agents peuvent mal étiqueter des champs ou cliquer sur le mauvais bouton, si bien que « l'IA rédige, un humain envoie » est sûr, et beaucoup de produits comme Atlas demandent confirmation avant les actions importantes. (3) Réservation/paiement = à faire encore soi-même : les agents trébuchent sur les CAPTCHA, les paiements JavaScript complexes, l'authentification à deux facteurs et la gestion de session, et sur WebArena (tâches complexes multi-étapes) même les meilleurs tournent à ~47-68 % contre une barre humaine d'environ 78 % ; la raison même pour laquelle OpenAI a fermé l'Operator autonome (2025/8/31) était le manque de fiabilité du paiement. L'article cadre d'abord les deux approches (navigateur/extension grand public vs API/OSS développeur), puis cartographie les acteurs 2026 (Atlas, navigateur dédié qui ne peut ni exécuter de code ni lire de mots de passe par conception ; Claude for Chrome, panneau latéral en extension ; le Project Mariner de Google a pris fin le 2026/5/4 et a été intégré à Gemini/Chrome ; Operator a migré dans ChatGPT Agent et l'Agents SDK ; l'OSS browser-use à plus de 78k étoiles). Il explique les quatre obstacles qui font échouer la réservation (protections anti-bot, paiement complexe, 2FA, coût de l'annulation), puis creuse le plus grand piège : l'injection de prompt indirecte (Perplexity Comet s'est montré vulnérable au vol d'identifiants zéro clic et l'a corrigé en février 2026 ; la réussite des attaques de 23,6 % avant défenses tombe à ~11 % avec des défenses de base et ~1 % avec les plus fortes, toujours non nul). Il se clôt sur cinq principes de sécurité (commencer en lecture seule, un humain valide envois/paiements, ne jamais confier de mots de passe, ne pas lancer sur des sites non fiables, moindre privilège dans un profil dédié). Un excellent partenaire de recherche ; faites vous-même les actions qui font bouger l'argent. Les chiffres sont cités de sources publiques et d'annonces à titre indicatif.