Table des matières
- 1. Qu'est-ce qu'un système multi-agent ?
- 2. Pourquoi orchestrer plusieurs IA ?
- 3. Les cinq patterns d'architecture fondamentaux
- 4. Les principaux frameworks comparés
- 5. Ce qui tourne réellement en production
- 6. Coûts et compromis — la réalité du x15 en tokens
- 7. Quand l'utiliser, quand l'éviter
- 8. Bonnes pratiques de conception
- Résumé
- FAQ
En 2026, la conversation autour des agents IA est passée de « un super-agent qui fait tout » à « une équipe d'agents aux rôles différents ». La fonction Research d'Anthropic, les sous-agents de Claude Code, l'équipe d'ingénierie de Devin, les workers parallèles de Cursor — tous reposent sur une architecture qui coordonne plusieurs IA.
Cet article part de la définition de ce qu'est réellement un système multi-agent, puis parcourt les principaux patterns d'architecture, une comparaison des frameworks de production, des exemples concrets, la structure des coûts, et finalement quand vous devriez en utiliser un et quand vous ne devriez pas — le tout fondé sur les sources les plus récentes. Abandonnez le fantasme du « passons en multi et ce sera plus intelligent » et repartez avec une vraie base pour vos décisions de conception.
Multi-agent = une équipe de spécialistes en parallèle
— au lieu de demander à une seule IA de tout faire, une petite équipe d'experts se partage le travail
Chacun s'exécute avec sa propre fenêtre de contexte, en parallèle.
L'orchestrateur agrège les résultats et renvoie la réponse — c'est la forme la plus largement adoptée aujourd'hui.
1. Qu'est-ce qu'un système multi-agent ?
Un système multi-agent (MAS) est une architecture dans laquelle plusieurs agents IA coopèrent pour résoudre une seule tâche. Chaque agent dispose de son propre prompt, de ses propres outils et de son propre contexte, et ils échangent messages et résultats pour atteindre un objectif partagé.
La référence « agent unique » — couverte dans notre article sur l'agent IA — est une entité unique exécutant la boucle « percevoir → raisonner → agir → observer » seule. La façon la plus claire de penser un système multi-agent est : prenez cela, puis ajoutez-y la spécialisation des rôles et le parallélisme.
En quoi cela diffère d'un agent unique
| Dimension | Agent unique | Multi-agent |
|---|---|---|
| Structure | Une IA exécute la boucle | Plusieurs IA collaborent |
| Contexte | Tout entassé dans une seule fenêtre | Séparé par rôle (évite la contamination) |
| Parallélisme | Essentiellement séquentiel | Les sous-agents peuvent tourner en parallèle |
| Spécialisation | Un généraliste gère tout | Optimisé par rôle (une équipe de spécialistes) |
| Débogage | Simple, facile à tracer | Complexe ; il faut aussi suivre le trafic inter-agents |
| Coût | Faible (l'équivalent d'une session) | Élevé (typiquement 2 à 15 fois les tokens) |
| Latence | Rapide | Plus lent (surcharge de coordination) |
| Cas idéal | Tâches claires et séquentielles | Tâches nécessitant exploration, recherche parallèle ou division spécialisée du travail |
2. Pourquoi orchestrer plusieurs IA ?
Le point de départ est : « si un seul agent peut tout faire, laissez-le tranquille ». Le multi-agent devient nécessaire à cause de trois murs structurels qu'un agent unique a du mal à franchir.
Trois murs qu'un agent unique ne peut pas franchir
Le multi-agent franchit ces murs avec un trio : « isolation du contexte × parallélisation × spécialisation des rôles ». La fonction Research d'Anthropic en est l'exemple canonique — un chercheur principal planifie le travail, plusieurs sous-agents investiguent différents angles en parallèle, et les résultats sont agrégés. Anthropic rapporte que cela a apporté environ 90 % d'amélioration de la qualité par rapport à la version mono-agent.
3. Les cinq patterns d'architecture fondamentaux
Les conceptions multi-agents prennent une poignée de « formes ». Les noms diffèrent selon les frameworks, mais en substance elles convergent vers ces cinq patterns.
3-1. Orchestrateur-worker (le plus courant)
Un seul « chef d'orchestre (orchestrateur / agent principal) » décompose la tâche et distribue les morceaux à plusieurs « workers (sous-agents) » en parallèle. Chaque worker s'exécute dans son propre contexte et renvoie son résultat à l'orchestrateur, qui les agrège en une sortie finale.
Utilisé par : Anthropic Research, les sous-agents de Claude Code, la configuration canonique d'OpenAI Agents SDK.
3-2. Handoff (la lignée OpenAI Swarm)
Les agents se passent explicitement le contrôle avec un « à toi ». L'historique de conversation et le contexte passent de main en main. Structurellement similaire à un ticket relayé entre assignés, cela convient aux scénarios comme le flux d'escalade d'un service support.
Utilisé par : OpenAI Agents SDK (le successeur de l'ancien Swarm).
3-3. Hiérarchique (équipes d'équipes)
Une structure en arbre : sous l'orchestrateur se trouve une couche supplémentaire d'agents « managers intermédiaires », et sous eux un groupe de workers. On le retrouve dans les grands systèmes — Devin de Cognition utiliserait ce pattern. Le coût et la latence croissent avec la profondeur, donc deux ou trois couches restent le plafond réaliste.
3-4. Peer-to-peer (débat et consensus)
Pas d'orchestrateur du tout — plusieurs agents débattent en égaux et itèrent jusqu'à atteindre un consensus. Étudié sous le nom de Multi-Agent Debate, et rapporté comme améliorant la factualité et la robustesse du raisonnement. L'implémentation n'est pas triviale, donc l'adoption pratique reste étroite.
3-5. Pipeline (la forme workflow)
Chaque agent s'exécute dans une séquence fixe du type « rechercher → structurer → vérifier → produire ». C'est le terrain de prédilection de LangGraph avec son modèle basé sur des graphes. Cela sacrifie la décision dynamique mais vous récompense par la reproductibilité et un débogage plus facile — et c'est souvent la forme la plus stable en production.
Les cinq patterns en un coup d'œil
4. Les principaux frameworks comparés
D'ici 2026, le développement multi-agent s'est consolidé autour de quatre frameworks (la longue traîne des petits frameworks s'est éclaircie).
| Framework | Éditeur | Pattern adapté | Points forts |
|---|---|---|---|
| Claude Agent SDK | Anthropic | Orchestrateur/worker | Sous-agents + Hooks + intégration MCP. Claude Code est bâti dessus. |
| OpenAI Agents SDK | OpenAI | Handoff | Lancé en mars 2025 comme successeur de Swarm. Construit autour du transfert de contrôle entre agents. |
| LangGraph | LangChain | Pipeline / machine à états | Basé sur les graphes ; exprime des branches et boucles complexes. Solide en débogabilité. |
| Strands Agents | AWS | Orchestrateur/worker | Qualité production avec intégration Bedrock. Riches fonctionnalités entreprise (journaux d'audit, etc.). |
| CrewAI | OSS indépendant | Équipes basées sur les rôles | Composé d'agents avec « intitulés de poste ». Bon pour l'apprentissage et les PoC ; déploiements en production limités. |
| AutoGen | Microsoft Research | Peer-to-peer / débat | Originaire d'un projet de recherche. Orienté académique ; usage en production minoritaire. |
En production, Claude Agent SDK, OpenAI Agents SDK, LangGraph et Strands forment le big four. CrewAI et AutoGen sont bons pour l'apprentissage et les PoC, mais les déploiements en production en entreprise se concentrent sur les quatre premiers.
5. Ce qui tourne réellement en production
Anthropic Research (à l'intérieur de Claude.ai)
La fonction de recherche de Claude.ai est un orchestrateur-worker manuel. Le chercheur principal décompose la question de l'utilisateur en morceaux, plusieurs sous-agents investiguent différents angles en parallèle (informations sur l'entreprise, chronologies, détails techniques, etc.), et les résultats sont agrégés en un rapport. Anthropic a publié les détails sur son blog d'ingénierie et rapporte environ 90 % d'amélioration de la précision par rapport à la version mono-agent.
Sous-agents de Claude Code
Dans Claude Code, vous pouvez confier des tâches longues à des sous-agents avec des rôles différents. Exemple : le Claude principal pose le plan, un sous-agent recherche lit plusieurs fichiers en parallèle, et un sous-agent implémentation écrit le patch. Chaque sous-agent dispose de sa propre fenêtre de contexte, donc il n'encombre pas le contexte principal.
Devin (Cognition)
L'ingénieur autonome Devin de Cognition utiliserait une structure multi-agent hiérarchique. Sous un agent parent de type chef de projet, des équipes spécialistes tournent en parallèle par domaine. Cette profondeur est ce qu'il faut pour mener de bout en bout des PR complexes et des travaux de migration.
Workers parallèles de Cursor
Une mise à jour récente de Cursor a renforcé sa capacité à répartir des modifications qui couvrent plusieurs fichiers entre sous-agents parallèles. Au lieu qu'un seul agent traite les fichiers en séquence, des agents distincts travaillent côte à côte sur des zones différentes.
6. Coûts et compromis — la réalité du x15 en tokens
Avant d'acheter le « multi = malin », il faut comprendre la structure des coûts. Le rapport d'Anthropic lui-même indique qu'un système multi-agent consomme environ 15 fois plus de tokens qu'une session de chat standard.
Préparez-vous à un surcoût de 2x à 15x avec le multi-agent
— constat cohérent entre mesures officielles et tierces
Mesures MAS typiques : 2x à 5x
→ varie selon le parallélisme et le nombre de sous-agents
Causée par la coordination et l'overhead de messagerie
Le temps total peut quand même baisser grâce au parallélisme
Files d'attente, instances redondantes, journaux
L'effort de débogage augmente aussi de fait
D'après les enquêtes du secteur, ~70 % des charges IA peuvent atteindre 90 à 95 % de la qualité multi-agent à 30 à 40 % du coût avec un agent unique. « Passons en multi » est économiquement faux.
Le multi-agent ne se justifie que pour les « tâches dont la valeur de sortie vaut le coût ». Pour reprendre la formulation d'Anthropic : le cas d'usage visé est « les tâches de recherche complexes où la valeur de sortie est élevée par rapport au coût ».
7. Quand l'utiliser, quand l'éviter
Cas qui appellent le multi-agent
- Recherche parallèle : « investiguer dix sites simultanément et rapporter », « interroger plusieurs API en parallèle et fusionner » — tout ce où le parallélisme crée une valeur directe
- Tâches autonomes longues : charges qui dépassent la fenêtre de contexte d'une seule session. Sans séparation des rôles, la contamination du contexte tue la précision
- Spécialisation hétérogène : quand un même agent fait à la fois « écrire du code » et « relire du code », son œil critique s'émousse. Séparer les rôles élève directement la qualité
- Tâches one-shot à forte valeur métier : rapports d'audit, analyses stratégiques, investigations techniques complexes — sorties qui justifient le coût
Cas où il ne faut pas y aller
- Tâches claires et séquentielles : « corrige ce code », « résume ce document » — du travail qu'un agent unique termine normalement
- Services sensibles à la latence : premières réponses des chatbots, support client — partout où la réactivité est l'exigence
- Jobs batch sensibles aux coûts : travail répétitif à fort volume. Passer en multi multiplie le coût unitaire par le facteur et l'équation s'effondre
- Équipes à court de capacités de débogage et d'exploitation : la complexité croît exponentiellement avec le multi-agent. Si votre équipe ne peut pas la soutenir, commencez en mono
Le mantra du secteur est « commencez avec un agent, n'en ajoutez d'autres que lorsque vous avez une raison claire ». C'est le consensus parmi les ingénieurs de production en 2026.
8. Bonnes pratiques de conception
Une fois que vous avez décidé que le multi-agent est le bon choix, voici les écueils qui font trébucher les concepteurs — distillés principalement des publications d'Anthropic.
1. Donner aux sous-agents un « objectif, format de sortie, outils et limites » explicites
La plupart des échecs de sous-agents prennent la forme « les instructions vagues ont fait déborder l'agent sur une autre tâche » ou « les sorties n'avaient pas un format commun et n'ont pas pu être agrégées ». Conseil d'Anthropic : donnez à chaque sous-agent (1) un objectif clair, (2) le format de sortie attendu, (3) les outils et sources d'information qu'il peut utiliser, et (4) les limites de sa tâche.
2. Rendre le « niveau d'effort » explicite
Les sous-agents sont mauvais pour décider seuls « jusqu'où aller en profondeur ». Inscrivez le palier d'effort dans le prompt — « investigation à un saut », « vérification exhaustive », « inférer uniquement à partir des informations connues ». Le xhigh et les task budgets (beta) de Claude Opus 4.7 sont précisément la réponse officielle à ce problème.
3. Confier à l'orchestrateur le travail d'« agrégation et de résolution des conflits »
Les résultats des sous-agents peuvent se contredire (par exemple, rapporter le même fait sous différents angles). La moitié du travail de l'orchestrateur consiste à « résoudre les contradictions et les consolider en une seule réponse cohérente ». Lésinez sur la logique d'agrégation et les gains du multi disparaissent.
4. Construire d'abord l'observabilité
Les systèmes multi-agents s'effondrent dès l'instant où l'on ne peut plus dire ce qui se passe. Journalisez l'entrée/sortie de chaque sous-agent, le temps d'exécution, la consommation de tokens et les appels d'outils dès le premier jour. LangGraph et Strands sont conçus avec l'observabilité en tête, et c'est l'une des raisons de leur succès en production.
5. Commencer en mono, puis ne séparer qu'aux goulots d'étranglement
Ne concevez pas en multi dès le départ. Faites-le fonctionner d'abord comme un agent unique, puis n'extrayez un sous-agent que sur les points que vous avez clairement identifiés comme des murs. Même état d'esprit que pour le refactoring — cela suffit.
Résumé
- Le multi-agent est une architecture où « plusieurs IA travaillent en parallèle avec des rôles séparés ». Il franchit les trois murs de l'agent unique : contamination du contexte, absence de parallélisme et confusion des rôles
- Les patterns fondamentaux sont au nombre de cinq : orchestrateur-worker, handoff, hiérarchique, peer-to-peer et pipeline. L'orchestrateur-worker est de loin le plus courant
- Les principaux frameworks se sont consolidés en un big four : Claude Agent SDK, OpenAI Agents SDK, LangGraph et Strands
- Le coût est de 2 à 15 fois supérieur. La latence est de +30 à 50 %. Y recourir à la légère est économiquement faux
- Règle de décision : si parallélisme, spécialisation ou travail long sont une exigence stricte, allez en multi. Sinon, le mono suffit
- Règle de conception : commencez en mono, ne séparez qu'aux goulots d'étranglement une fois que vous les voyez
FAQ
Q1. Le multi-agent est-il toujours meilleur qu'un « agent unique plus intelligent » ?
Non. Research d'Anthropic a vu une amélioration de précision d'environ 90 %, mais c'était dans son cas idéal d'« investigation parallèle complexe ». Pour des tâches claires et séquentielles, un agent unique est plus rapide, moins cher et au moins aussi bon. Cela dépend de la nature de la tâche.
Q2. Si je veux construire moi-même un système multi-agent, par quel framework commencer ?
Cela dépend du cas d'usage. Vous utilisez Claude ? Commencez avec Claude Agent SDK (officiel, avec sous-agents + Hooks). Centré OpenAI ? Agents SDK. Besoin d'exprimer une logique de branchement complexe ? LangGraph. En production sur AWS ? Strands. Pour l'apprentissage, CrewAI est bon pour saisir les concepts.
Q3. Peut-on migrer du mono au multi progressivement ?
Oui, et la plupart des systèmes en production font exactement cela. Construisez le MVP en agent unique, puis n'extrayez des sous-agents que là où vous avez réellement atteint les limites de la fenêtre de contexte, des problèmes de latence ou des besoins de spécialisation. Concevoir l'ensemble en multi dès le départ n'est pas recommandé.
Q4. Existe-t-il un protocole de communication standard entre agents ?
En 2026, MCP (Model Context Protocol) devient le standard de fait. Il vient d'Anthropic et est désormais adopté par OpenAI, Microsoft, AWS et d'autres. Il est largement utilisé comme interface commune à la fois entre agents et entre agents et outils. Il existe aussi une proposition de standardisation appelée ACP (Agent Communication Protocol), mais les implémentations restent peu nombreuses.
Q5. Quel est le mode d'échec multi-agent le plus courant ?
(1) Manque d'observabilité (vous ne pouvez pas dire ce qui se passe), (2) Instructions de sous-agents trop vagues pour agréger les résultats, et (3) Explosion des coûts. Surtout le (3) : un sous-agent reste coincé dans une boucle, martèle l'API toute la nuit, et la facture cloud bondit d'un ordre de grandeur du jour au lendemain — ces accidents sont étonnamment fréquents. Fixez toujours des task budgets (plafonds de coût et de temps).
Q6. Le multi-agent est-il un chemin vers l'AGI (IA générale) ?
Les chercheurs sont divisés. Un camp soutient que « la spécialisation des rôles et la coordination sont l'essence de l'intelligence » ; l'autre estime que « passer à l'échelle un seul modèle est l'essence — le multi-agent n'est qu'un contournement d'ingénierie ». Les deux sont crédibles. En pratique, le cadrage le plus sûr est de traiter le multi-agent comme « un moyen d'élargir la gamme des tâches IA réalisables aujourd'hui ».
Q7. Existe-t-il une option intermédiaire entre mono et multi ?
Oui. « Agent unique + sous-agents-comme-outils ». L'outil Task du Claude Agent SDK est exactement cela — le principal reste un agent unique, mais il peut faire surgir à la demande des sous-agents jetables. Sans toute la complexité du multi-agent, cela repousse certaines limites de l'agent unique. C'est populaire comme juste milieu modéré.