Table des matières
« Le prompt engineering est mort » — ce refrain a commencé à circuler vers 2025. Ce qui a pris sa place, c'est le concept de « harness engineering ». Forgé par les chercheurs d'Anthropic et les ingénieurs qui construisent des agents comme Claude Code et Cursor, il s'est rapidement imposé comme l'une des disciplines centrales de l'ère des agents IA.
Cet article expose ce qu'est réellement le harness engineering, en quoi il diffère du prompt engineering, les six composants qui constituent un harnais, une checklist de conception pratique et des exemples concrets tirés des outils leaders d'aujourd'hui — les fondations dont vous avez besoin si vous voulez utiliser ou construire des agents IA sérieusement.
Un harnais = les 4 couches qui enveloppent le LLM
— comme un harnais de cheval, l'attelage qui canalise un animal puissant vers votre but
Avec le même LLM, la seule conception du harnais peut faire varier dramatiquement la qualité comme la sécurité.
C'est le terrain de bataille du « harness engineering » — une discipline de design toute neuve.
1. Qu'est-ce que le harness engineering ?
« Harness » désigne à l'origine l'attelage et le harnachement utilisés sur un cheval — le dispositif qui canalise la puissance de l'animal dans la direction que vous voulez. Le terme en IA fonctionne exactement comme la même métaphore : l'ensemble complet de l'équipement qui met un LLM puissant mais indiscipliné au travail productif.
Concrètement, cela inclut :
- Outils : opérations sur fichiers, recherche web, exécution de code — les moyens par lesquels le LLM peut agir.
- Gestion du contexte : la stratégie pour décider ce qui entre dans le prompt et ce qui est compressé ou écarté.
- Systèmes de mémoire : connaissances persistantes et préférences utilisateur qui survivent d'une session à l'autre.
- Boucle d'agent : le cycle percevoir → raisonner → agir → observer.
- Garde-fous : permissions, sandbox, Hooks, flux d'approbation.
- Format de sortie : markdown, JSON, citations, streaming.
Concevoir tout cela ensemble, c'est ce que nous appelons le harness engineering. Plutôt que d'entraîner ou d'améliorer le LLM lui-même, c'est l'art d'augmenter l'utilité réelle en concevant tout ce qui se trouve autour du LLM. Claude Code, Cursor, Devin, Codex CLI — ils tournent tous sur des modèles à peu près identiques, et pourtant leur comportement et leurs performances divergent fortement à cause de la différence de leur harnais.
2. Harness engineering vs prompt engineering
Le prompt engineering n'a pas disparu — mais le périmètre est fondamentalement différent.
| Dimension | Prompt engineering | Harness engineering |
|---|---|---|
| Cible | Texte d'entrée à un seul tour | Le système entier (outils, mémoire, boucle) |
| Travail principal | Optimiser la formulation du prompt, choisir des exemples few-shot | Conception des outils, stratégie de contexte, conception de la boucle |
| Livrable | Modèles de texte | Code, configuration, architecture système |
| Compétences requises | Sens linguistique, intuition du comportement du LLM | Ingénierie logicielle générale |
| Portée de l'impact | Qualité d'une seule réponse | Taux de complétion, coût et sécurité des tâches longues |
| Exemple | « Réfléchis étape par étape » | Définir un outil calculatrice et laisser le LLM l'appeler |
Si le prompt engineering est l'art de « quoi dire au LLM », le harness engineering est l'art de « quoi donner au LLM et comment l'opérer ». Les deux ne s'opposent pas — ils sont empilés en couches. Le prompt n'est qu'un composant à l'intérieur du harnais.
3. Les 6 composants d'un harnais
1. Tool Use
Les moyens du LLM pour agir sur le monde : lire et écrire des fichiers, exécuter du code, faire des recherches web, appeler des API. Ratez l'interface des outils — noms, arguments, valeurs de retour — et le LLM ne pourra pas les utiliser correctement. Concrètement :
- Noms basés sur des verbes, sans ambiguïté (ex.
read_file). - Arguments obligatoires vs optionnels rendus explicites, avec des valeurs par défaut.
- Messages d'erreur structurés en cas d'échec (dire au modèle quoi faire ensuite).
- Avertissements explicites sur les opérations à effets de bord (destructrices).
2. Gestion du contexte
L'attention du LLM est finie — ce que vous lui montrez détermine ce qu'il dit. Concrètement :
- Filtrage par pertinence : ne tirer que les parties pertinentes pour la tâche, pas des fichiers entiers.
- Compaction : résumer les longues conversations pour les conserver.
- Intégration RAG : récupérer ce qui est nécessaire via la recherche vectorielle.
- Caching : réduire le coût des system prompts répétés grâce à des outils comme le prompt cache d'Anthropic.
À lire aussi : Qu'est-ce que le RAG ?
3. Système de mémoire
Conserver des connaissances d'une session à l'autre. Le CLAUDE.md de Claude Code, les .cursor/rules de Cursor et l'AGENTS.md de Codex sont autant d'exemples de mémoire de projet. Au-delà de cela :
- Mémoire à court terme : historique récent de la conversation.
- Mémoire à long terme : profil utilisateur, décisions passées.
- Connaissances factuelles : bases de connaissances spécifiques au domaine.
4. Boucle d'agent
Le cœur qui fait qu'un « agent IA » fonctionne réellement. La forme de base est le cycle percevoir → raisonner → agir → observer :
- Recevoir l'objectif de l'utilisateur.
- Analyser l'état courant (collecter de l'information avec des outils si besoin).
- Planifier la prochaine action.
- Agir via un outil.
- Observer le résultat ; vérifier si l'objectif est atteint.
- Boucler sinon, terminer si oui.
L'intelligence de votre agent dépend du fait d'y intégrer ou non la replanification, l'autocritique et la décomposition en sous-objectifs.
5. Garde-fous
Les mécanismes qui empêchent les comportements incontrôlés. Comme l'explique Pourquoi l'IA ignore vos règles .md, imposer un comportement par l'environnement est bien plus fiable que de demander gentiment en prose :
- Mode d'approbation : les opérations dangereuses requièrent une confirmation humaine (ex. le mode Plan de Claude Code).
- Sandbox : restreindre l'accès au système de fichiers et au réseau.
- Hooks : vérifications arbitraires avant et après les appels d'outils.
- Limitation de débit : minimiser les dégâts en cas de dérive.
6. UX de sortie
Présenter les résultats sous une forme que l'utilisateur peut comprendre et vérifier. Rendu Markdown, citations des sources, blocs de code coloration syntaxique, sortie en streaming, raisonnement visible (thinking), sortie structurée (JSON), et ainsi de suite. Produire la « bonne réponse » ne suffit pas — c'est le travail du harnais de la livrer sous une forme à laquelle l'utilisateur peut se fier et qu'il peut vérifier.
4. Pourquoi le harness engineering, pourquoi maintenant ?
Trois forces alimentent la montée d'intérêt pour le travail sur le harnais.
1. Le plafond des capacités brutes des LLM est en vue. Avec les modèles de classe GPT-5, Claude Opus 4.7 et Gemini 3.1 Pro disponibles, les gains sur les benchmarks ont commencé à plafonner. Pour un modèle donné, les performances réelles peuvent varier d'un facteur 2 ou plus selon le harnais, ce qui veut dire que nous sommes entrés dans une ère où changer de harnais paie davantage que changer de modèle.
2. Les problèmes que les prompts seuls ne peuvent pas résoudre s'accumulent. « Trop d'outils, le modèle se trompe de choix. » « Le contexte est tellement chargé que le signal important est noyé. » « Sur des tâches longues, l'agent perd le fil à mi-chemin. » Ce ne sont pas des problèmes que vous résolvez avec une formulation plus astucieuse en un seul tour — ce sont des problèmes de design.
3. Le goulot d'étranglement des agents IA en production s'est déplacé vers le harnais. 2024 fut la course pour rendre les LLM plus intelligents. 2025 à 2026 est la course pour rendre les harnais plus intelligents. Tous les grands produits — Claude Code d'Anthropic, Codex d'OpenAI, Cursor, Devin — se concurrencent sur le harness engineering.
5. Checklist pratique de conception d'un harnais
7 points de contrôle pour un bon harnais
6. Comparatif des principaux harnais
Tendances de conception des principaux harnais d'agents IA
Chacun de ces harnais tourne sur plus ou moins les mêmes LLM (Claude / GPT / Gemini), et pourtant leurs forces divergent fortement à cause des philosophies de conception du harnais. « Quel harnais ? » compte plus que « quel LLM ? » — c'est le vrai terrain de bataille de l'ère des agents.
7. Anti-patterns
1. Ajouter trop d'outils
Une fois passé environ 20 outils, la probabilité que le LLM se trompe de choix grimpe en flèche. Soyez impitoyable : ne gardez que les outils dont vous avez réellement besoin et fusionnez les similaires.
2. Tout entasser dans le contexte
« Montrons-lui tout, par sécurité » est contre-productif. Faites passer les choses par un filtre de pertinence et n'incluez que le nécessaire. Le contexte est un dispositif pour faire émerger le signal important — pas un placard de rangement.
3. Implémenter la sécurité avec des prompts seuls
« Merci de ne pas effectuer d'opérations dangereuses » sera ignoré tôt ou tard, selon la situation. La bonne réponse est de rendre cela physiquement impossible au niveau de l'environnement — sandbox, Hooks, limites de permissions.
Synthèse
Le harness engineering est l'art de concevoir la couche « extérieure » au LLM. Le prompt engineering n'est qu'un composant à l'intérieur du harnais. Traiter délibérément les six éléments — définition des outils, gestion du contexte, mémoire, boucle, garde-fous, UX de sortie — peut transformer les performances réelles à partir d'un même LLM sous-jacent.
En 2026, le principal terrain de bataille des agents IA en production a clairement basculé vers le harnais. Construire des « harnais intelligents » — pas seulement écrire des « prompts intelligents » — sera le facteur de différenciation pour la prochaine génération d'ingénieurs.
FAQ
Q1. Donc on n'a plus besoin du prompt engineering ?
Faux. Il reste essentiel — comme un composant à l'intérieur du harnais. Descriptions d'outils, system prompts, messages d'erreur — toutes ces surfaces sont des surfaces de design de prompt. Ce qui est dépassé, c'est la mentalité « je vais régler ça avec un meilleur prompt ».
Q2. Quelle est la première étape pour apprendre le harness engineering ?
Prenez Claude Code ou Cursor et ne vous contentez pas de l'utiliser — modifiez son comportement en bidouillant sa configuration. Écrivez un CLAUDE.md / .cursor/rules. Essayez les Hooks. Construisez une slash command. C'est l'expérience pratique de ce qu'est réellement un harnais.
Q3. Les harnais, c'est la même chose que des frameworks comme LangChain ?
Proche, mais pas pareil. Un framework est une boîte à outils d'implémentation ; un harnais est une discipline de conception et un état d'esprit. LangChain, LlamaIndex, le Claude Agent SDK et leurs semblables sont des outils pour construire des harnais.
Q4. Construire son propre harnais ou utiliser un existant ?
Dans la plupart des cas, un harnais existant (Claude Code, Cursor, etc.) plus de la personnalisation suffit. Construire de zéro n'a de sens que pour des exigences entreprise, des domaines de niche ou une optimisation des coûts extrême.
Q5. « Harness engineer » deviendra-t-il un véritable intitulé de poste ?
Les signes sont déjà là. Anthropic, OpenAI, Cursor et d'autres entreprises qui construisent des agents ont commencé à recruter pour des rôles comme « Agent Engineer », « Tool Designer » et « Context Engineer ». D'ici 2027 ou 2028, cela devrait s'installer comme une catégorie de métier distincte à part entière.