« Le prompt engineering est mort » — ce refrain a commencé à circuler vers 2025. Ce qui a pris sa place, c'est le concept de « harness engineering ». Forgé par les chercheurs d'Anthropic et les ingénieurs qui construisent des agents comme Claude Code et Cursor, il s'est rapidement imposé comme l'une des disciplines centrales de l'ère des agents IA.

Cet article expose ce qu'est réellement le harness engineering, en quoi il diffère du prompt engineering, les six composants qui constituent un harnais, une checklist de conception pratique et des exemples concrets tirés des outils leaders d'aujourd'hui — les fondations dont vous avez besoin si vous voulez utiliser ou construire des agents IA sérieusement.

CARTE CONCEPTUELLE

Un harnais = les 4 couches qui enveloppent le LLM

— comme un harnais de cheval, l'attelage qui canalise un animal puissant vers votre but

1
CŒUR — LLM
Le moteur de raisonnement lui-même (Claude / GPT / Gemini). Les prompts orientent son comportement.
2
COUCHE HARNAIS
Définition des outils, gestion du contexte, mémoire, boucle d'agent. Le design central qui décide ce que le LLM fait réellement.
3
COUCHE SÉCURITÉ
Hooks, sandbox, limites de permissions, mode d'approbation. Bloque physiquement les dérives et les dégâts.
4
COUCHE UX
Rendu Markdown, citations, streaming, raisonnement visible. Des sorties auxquelles les utilisateurs peuvent se fier et qu'ils peuvent vérifier.

Avec le même LLM, la seule conception du harnais peut faire varier dramatiquement la qualité comme la sécurité.
C'est le terrain de bataille du « harness engineering » — une discipline de design toute neuve.

1. Qu'est-ce que le harness engineering ?

« Harness » désigne à l'origine l'attelage et le harnachement utilisés sur un cheval — le dispositif qui canalise la puissance de l'animal dans la direction que vous voulez. Le terme en IA fonctionne exactement comme la même métaphore : l'ensemble complet de l'équipement qui met un LLM puissant mais indiscipliné au travail productif.

Concrètement, cela inclut :

  • Outils : opérations sur fichiers, recherche web, exécution de code — les moyens par lesquels le LLM peut agir.
  • Gestion du contexte : la stratégie pour décider ce qui entre dans le prompt et ce qui est compressé ou écarté.
  • Systèmes de mémoire : connaissances persistantes et préférences utilisateur qui survivent d'une session à l'autre.
  • Boucle d'agent : le cycle percevoir → raisonner → agir → observer.
  • Garde-fous : permissions, sandbox, Hooks, flux d'approbation.
  • Format de sortie : markdown, JSON, citations, streaming.

Concevoir tout cela ensemble, c'est ce que nous appelons le harness engineering. Plutôt que d'entraîner ou d'améliorer le LLM lui-même, c'est l'art d'augmenter l'utilité réelle en concevant tout ce qui se trouve autour du LLM. Claude Code, Cursor, Devin, Codex CLI — ils tournent tous sur des modèles à peu près identiques, et pourtant leur comportement et leurs performances divergent fortement à cause de la différence de leur harnais.

2. Harness engineering vs prompt engineering

Le prompt engineering n'a pas disparu — mais le périmètre est fondamentalement différent.

DimensionPrompt engineeringHarness engineering
CibleTexte d'entrée à un seul tourLe système entier (outils, mémoire, boucle)
Travail principalOptimiser la formulation du prompt, choisir des exemples few-shotConception des outils, stratégie de contexte, conception de la boucle
LivrableModèles de texteCode, configuration, architecture système
Compétences requisesSens linguistique, intuition du comportement du LLMIngénierie logicielle générale
Portée de l'impactQualité d'une seule réponseTaux de complétion, coût et sécurité des tâches longues
Exemple« Réfléchis étape par étape »Définir un outil calculatrice et laisser le LLM l'appeler

Si le prompt engineering est l'art de « quoi dire au LLM », le harness engineering est l'art de « quoi donner au LLM et comment l'opérer ». Les deux ne s'opposent pas — ils sont empilés en couches. Le prompt n'est qu'un composant à l'intérieur du harnais.

3. Les 6 composants d'un harnais

1. Tool Use

Les moyens du LLM pour agir sur le monde : lire et écrire des fichiers, exécuter du code, faire des recherches web, appeler des API. Ratez l'interface des outils — noms, arguments, valeurs de retour — et le LLM ne pourra pas les utiliser correctement. Concrètement :

  • Noms basés sur des verbes, sans ambiguïté (ex. read_file).
  • Arguments obligatoires vs optionnels rendus explicites, avec des valeurs par défaut.
  • Messages d'erreur structurés en cas d'échec (dire au modèle quoi faire ensuite).
  • Avertissements explicites sur les opérations à effets de bord (destructrices).

2. Gestion du contexte

L'attention du LLM est finie — ce que vous lui montrez détermine ce qu'il dit. Concrètement :

  • Filtrage par pertinence : ne tirer que les parties pertinentes pour la tâche, pas des fichiers entiers.
  • Compaction : résumer les longues conversations pour les conserver.
  • Intégration RAG : récupérer ce qui est nécessaire via la recherche vectorielle.
  • Caching : réduire le coût des system prompts répétés grâce à des outils comme le prompt cache d'Anthropic.

À lire aussi : Qu'est-ce que le RAG ?

3. Système de mémoire

Conserver des connaissances d'une session à l'autre. Le CLAUDE.md de Claude Code, les .cursor/rules de Cursor et l'AGENTS.md de Codex sont autant d'exemples de mémoire de projet. Au-delà de cela :

  • Mémoire à court terme : historique récent de la conversation.
  • Mémoire à long terme : profil utilisateur, décisions passées.
  • Connaissances factuelles : bases de connaissances spécifiques au domaine.

4. Boucle d'agent

Le cœur qui fait qu'un « agent IA » fonctionne réellement. La forme de base est le cycle percevoir → raisonner → agir → observer :

  1. Recevoir l'objectif de l'utilisateur.
  2. Analyser l'état courant (collecter de l'information avec des outils si besoin).
  3. Planifier la prochaine action.
  4. Agir via un outil.
  5. Observer le résultat ; vérifier si l'objectif est atteint.
  6. Boucler sinon, terminer si oui.

L'intelligence de votre agent dépend du fait d'y intégrer ou non la replanification, l'autocritique et la décomposition en sous-objectifs.

5. Garde-fous

Les mécanismes qui empêchent les comportements incontrôlés. Comme l'explique Pourquoi l'IA ignore vos règles .md, imposer un comportement par l'environnement est bien plus fiable que de demander gentiment en prose :

  • Mode d'approbation : les opérations dangereuses requièrent une confirmation humaine (ex. le mode Plan de Claude Code).
  • Sandbox : restreindre l'accès au système de fichiers et au réseau.
  • Hooks : vérifications arbitraires avant et après les appels d'outils.
  • Limitation de débit : minimiser les dégâts en cas de dérive.

6. UX de sortie

Présenter les résultats sous une forme que l'utilisateur peut comprendre et vérifier. Rendu Markdown, citations des sources, blocs de code coloration syntaxique, sortie en streaming, raisonnement visible (thinking), sortie structurée (JSON), et ainsi de suite. Produire la « bonne réponse » ne suffit pas — c'est le travail du harnais de la livrer sous une forme à laquelle l'utilisateur peut se fier et qu'il peut vérifier.

4. Pourquoi le harness engineering, pourquoi maintenant ?

Trois forces alimentent la montée d'intérêt pour le travail sur le harnais.

1. Le plafond des capacités brutes des LLM est en vue. Avec les modèles de classe GPT-5, Claude Opus 4.7 et Gemini 3.1 Pro disponibles, les gains sur les benchmarks ont commencé à plafonner. Pour un modèle donné, les performances réelles peuvent varier d'un facteur 2 ou plus selon le harnais, ce qui veut dire que nous sommes entrés dans une ère où changer de harnais paie davantage que changer de modèle.

2. Les problèmes que les prompts seuls ne peuvent pas résoudre s'accumulent. « Trop d'outils, le modèle se trompe de choix. » « Le contexte est tellement chargé que le signal important est noyé. » « Sur des tâches longues, l'agent perd le fil à mi-chemin. » Ce ne sont pas des problèmes que vous résolvez avec une formulation plus astucieuse en un seul tour — ce sont des problèmes de design.

3. Le goulot d'étranglement des agents IA en production s'est déplacé vers le harnais. 2024 fut la course pour rendre les LLM plus intelligents. 2025 à 2026 est la course pour rendre les harnais plus intelligents. Tous les grands produits — Claude Code d'Anthropic, Codex d'OpenAI, Cursor, Devin — se concurrencent sur le harness engineering.

5. Checklist pratique de conception d'un harnais

7 points de contrôle pour un bon harnais

1. CONCEPTION DES OUTILS
Verbes pour les noms d'outils, arguments explicites
Les erreurs reviennent sous forme de messages structurés disant « fais ceci ensuite ».
2. CONTEXTE
N'injecter que le pertinent, dynamiquement
Prompt cache plus RAG : assez pour lire, jamais assez pour s'étouffer.
3. MÉMOIRE
Une seule source de vérité pour la mémoire persistante
Garder CLAUDE.md / AGENTS.md court, repousser le détail dans SPEC.md.
4. BOUCLE
Rendre les conditions de terminaison explicites
Toujours fixer un nombre max d'itérations, de tokens et un timeout.
5. SÉCURITÉ
Les opérations destructrices exigent une approbation préalable
Les Hooks bloquent automatiquement ; le sandbox limite le rayon de l'explosion.
6. OBSERVABILITÉ
Journaliser chaque appel d'outil
Traçabilité pour pouvoir reconstituer ce qui s'est passé après coup.
7. COÛT
Concevoir avec l'économie des tokens en tête
Caching, batch APIs, sub-agents — tout cela maintient le coût mensuel sous contrôle.

6. Comparatif des principaux harnais

Tendances de conception des principaux harnais d'agents IA

Claude Code
Anthropic
Points forts
Hooks riches / sub-agents / mode Plan / slash commands.
Mémoire
CLAUDE.md au niveau utilisateur et projet.
Terrain de prédilection
Code complexe, tâches longues
Cursor
Anysphere
Points forts
Intégration IDE, sélection du contexte via @-mention.
Mémoire
.cursor/rules/*.mdc appliqué par patrons glob.
Terrain de prédilection
Édition de code interactive, retour instantané
Codex CLI
OpenAI
Points forts
Mode d'approbation activable, sandbox imposé.
Mémoire
AGENTS.md (les modèles de classe GPT-5 tolèrent des fichiers plus longs).
Terrain de prédilection
Workflows CLI, intégration aux pipelines de code
Devin
Cognition
Points forts
Agent entièrement autonome avec navigateur, IDE et shell intégrés.
Mémoire
Mémoire persistante propriétaire et fonction Knowledge.
Terrain de prédilection
Tâches « confiées clé en main », livraison de bout en bout

Chacun de ces harnais tourne sur plus ou moins les mêmes LLM (Claude / GPT / Gemini), et pourtant leurs forces divergent fortement à cause des philosophies de conception du harnais. « Quel harnais ? » compte plus que « quel LLM ? » — c'est le vrai terrain de bataille de l'ère des agents.

7. Anti-patterns

1. Ajouter trop d'outils

Une fois passé environ 20 outils, la probabilité que le LLM se trompe de choix grimpe en flèche. Soyez impitoyable : ne gardez que les outils dont vous avez réellement besoin et fusionnez les similaires.

2. Tout entasser dans le contexte

« Montrons-lui tout, par sécurité » est contre-productif. Faites passer les choses par un filtre de pertinence et n'incluez que le nécessaire. Le contexte est un dispositif pour faire émerger le signal important — pas un placard de rangement.

3. Implémenter la sécurité avec des prompts seuls

« Merci de ne pas effectuer d'opérations dangereuses » sera ignoré tôt ou tard, selon la situation. La bonne réponse est de rendre cela physiquement impossible au niveau de l'environnement — sandbox, Hooks, limites de permissions.

Synthèse

Le harness engineering est l'art de concevoir la couche « extérieure » au LLM. Le prompt engineering n'est qu'un composant à l'intérieur du harnais. Traiter délibérément les six éléments — définition des outils, gestion du contexte, mémoire, boucle, garde-fous, UX de sortie — peut transformer les performances réelles à partir d'un même LLM sous-jacent.

En 2026, le principal terrain de bataille des agents IA en production a clairement basculé vers le harnais. Construire des « harnais intelligents » — pas seulement écrire des « prompts intelligents » — sera le facteur de différenciation pour la prochaine génération d'ingénieurs.

FAQ

Q1. Donc on n'a plus besoin du prompt engineering ?

Faux. Il reste essentiel — comme un composant à l'intérieur du harnais. Descriptions d'outils, system prompts, messages d'erreur — toutes ces surfaces sont des surfaces de design de prompt. Ce qui est dépassé, c'est la mentalité « je vais régler ça avec un meilleur prompt ».

Q2. Quelle est la première étape pour apprendre le harness engineering ?

Prenez Claude Code ou Cursor et ne vous contentez pas de l'utiliser — modifiez son comportement en bidouillant sa configuration. Écrivez un CLAUDE.md / .cursor/rules. Essayez les Hooks. Construisez une slash command. C'est l'expérience pratique de ce qu'est réellement un harnais.

Q3. Les harnais, c'est la même chose que des frameworks comme LangChain ?

Proche, mais pas pareil. Un framework est une boîte à outils d'implémentation ; un harnais est une discipline de conception et un état d'esprit. LangChain, LlamaIndex, le Claude Agent SDK et leurs semblables sont des outils pour construire des harnais.

Q4. Construire son propre harnais ou utiliser un existant ?

Dans la plupart des cas, un harnais existant (Claude Code, Cursor, etc.) plus de la personnalisation suffit. Construire de zéro n'a de sens que pour des exigences entreprise, des domaines de niche ou une optimisation des coûts extrême.

Q5. « Harness engineer » deviendra-t-il un véritable intitulé de poste ?

Les signes sont déjà là. Anthropic, OpenAI, Cursor et d'autres entreprises qui construisent des agents ont commencé à recruter pour des rôles comme « Agent Engineer », « Tool Designer » et « Context Engineer ». D'ici 2027 ou 2028, cela devrait s'installer comme une catégorie de métier distincte à part entière.