Sommaire
Une fois que l'on sait construire des applications IA, l'étape suivante consiste à les faire fonctionner en toute sécurité. Les LLM sont pratiques, mais ils peuvent être trompés par des entrées malveillantes, divulguer des données confidentielles ou répondre n'importe quoi avec un aplomb total. Le mécanisme de sécurité qui empêche cela, ce sont les garde-fous IA. En 2026, alors que les incidents liés aux agents IA se produisent réellement, les garde-fous sont devenus un élément essentiel de la mise en production.
Cet article expose, pour les débutants, ce que sont les garde-fous IA, contre quoi ils protègent, comment ils protègent (les deux couches entrée/sortie), la plus grande menace — l'injection de prompt — ainsi que les outils et les principes pratiques.
Bloquer à l'entrée, bloquer à la sortie
— barrer les instructions dangereuses et les réponses dangereuses, des deux côtés
Garde à l'entrée
Détecter les instructions dangereuses
LLM
Traitement
Garde à la sortie
Bloquer les réponses dangereuses
1. Que sont les garde-fous IA ?
Les garde-fous IA sont les « mécanismes de sécurité » (règles et filtres) que l'on met en place pour protéger une application LLM contre les menaces. Tout comme la glissière de sécurité d'une autoroute empêche une voiture de quitter la route, les garde-fous IA retiennent les entrées dangereuses et les sorties indésirables. Ils vérifient l'entrée de l'utilisateur avant qu'elle n'atteigne le LLM, et vérifient la réponse du LLM avant qu'elle ne revienne à l'utilisateur — ces « points de contrôle des deux côtés » sont les garde-fous.
Pourquoi sont-ils nécessaires ? Les LLM sont intelligents mais faciles à tromper et trop bavards. Une instruction malveillante peut neutraliser leurs contrôles de sécurité (jailbreak), ils peuvent lâcher des informations internes ou affirmer des choses sans aucun fondement. Choisir un modèle intelligent ne suffit pas à l'empêcher — il faut un mécanisme de protection distinct, côté application.
💡 En une phrase : les garde-fous = « des points de contrôle à l'entrée et à la sortie de l'IA ». Voyez-les comme une couche de sécurité indépendante, côté application, distincte de l'intelligence propre au modèle.
2. Contre quoi protègent-ils ?
Précisons contre quoi les garde-fous défendent — les menaces spécifiques aux applications IA. Les quatre principales sont les suivantes.
🎯 Injection de prompt
Remplace les instructions du système par des commandes malveillantes et détourne l'IA. La plus grande menace (voir ci-dessous).
🔓 Jailbreak
Contourne les contrôles de sécurité pour soutirer des sorties dangereuses normalement interdites.
💧 Fuite de données
Divulgue à l'extérieur des données confidentielles, des informations personnelles (PII) ou le prompt système.
👻 Hallucination et sorties nuisibles
Répond n'importe quoi comme si c'était un fait, ou produit du contenu discriminatoire ou inapproprié.
Ce ne sont pas des choses qui « n'arrivent pas avec un modèle intelligent ». En particulier lorsqu'un agent IA manipule des outils, dès qu'il est détourné il peut causer de réels dégâts — envois erronés, suppression de données, actions non autorisées. C'est précisément pour cela qu'il faut un mécanisme de défense.
3. Protéger sur deux couches : entrée et sortie
Le principe de base des garde-fous, ce sont deux couches : les « garde-fous en entrée » et les « garde-fous en sortie ». On vérifie à la fois avant que cela n'entre dans le LLM et avant que cela ne revienne à l'utilisateur.
Garde-fous en entrée (avant que cela n'entre)
- Détecter les injections de prompt et les jailbreaks
- Détecter et masquer les informations personnelles (PII)
- Restreindre les sujets (refuser les questions hors sujet)
- Supprimer et assainir les schémas suspects
Garde-fous en sortie (avant que cela ne revienne)
- Filtrer les contenus nuisibles ou inappropriés
- Empêcher les fuites de données confidentielles/personnelles (masquage)
- Vérifier la cohérence avec les faits (hallucination)
- Valider le format et le respect de la politique
Ces deux couches sont dans la continuité de l'évaluation IA, qui mesure la qualité des sorties. Là où l'évaluation « mesure le bon et le mauvais », les garde-fous « arrêtent le danger sur-le-champ ». Ce n'est qu'avec les deux en place que l'on peut passer en production en toute confiance.
4. La plus grande menace : l'injection de prompt
Parmi les nombreuses menaces, une se distingue : l'injection de prompt. C'est une attaque qui « glisse des instructions malveillantes, remplace les commandes du système et fait de l'IA une marionnette », et la liste de référence des menaces du secteur (OWASP LLM Top 10) la classe comme la plus critique. Il faut en connaître les deux types.
L'utilisateur l'insère directement
Des choses comme « ignore toutes les instructions précédentes et… », qui tentent de remplacer les commandes du système directement depuis le champ de saisie.
Cachée dans des données externes
Des instructions malveillantes cachées dans une page web ou un document RAG, fournies à l'IA pour la contrôler. Difficiles à repérer.
⚠️ Le RAG seul ne l'arrête pas : parce que l'injection indirecte dissimule des commandes à l'intérieur des documents récupérés, ajouter du RAG ne la bloque pas automatiquement. Les recherches soulignent qu'il faut aussi un contrôle dédié sur les documents récupérés (un « garde-fou de récupération »).
Les agents connectés à des outils et à des données externes — via MCP et autres — sont des cibles particulièrement faciles pour l'injection indirecte. La règle d'or est de concevoir en partant du principe que « l'on ne fait pas confiance aux données venant de l'extérieur ».
5. Outils et principe de défense en profondeur
Il n'est pas nécessaire de construire les garde-fous de zéro — des outils et des frameworks dédiés sont prêts à l'emploi.
LLM Guard / Guardrails AI
Open source, avec de nombreux scanners d'entrée/sortie. On ajoute la détection d'injection, le masquage de PII et les filtres de contenu nuisible comme des briques.
NeMo Guardrails / Llama Guard
NeMo de NVIDIA excelle dans le contrôle du flux de dialogue ; Llama Guard de Meta sert à classer les jailbreaks et les entrées dangereuses.
Fonctions de sécurité des fournisseurs cloud
Azure (Content Safety / Prompt Shields), AWS Bedrock Guardrails, OpenAI Moderation, et d'autres.
Plus important que les outils, il y a l'état d'esprit de la « défense en profondeur ». Un filtre unique peut toujours être contourné, c'est pourquoi on empile plusieurs couches. Gardez à l'esprit ces principes pratiques.
- Défendre en couches : empiler validation des entrées → filtrage des sorties → isolation d'exécution (sandbox) → surveillance continue.
- Moindre privilège : ne donnez pas à un agent les permissions d'outils pour tout faire. Limitez-le aux seules actions dont il a besoin (la conception des permissions compte).
- Approbation humaine : pour les « actions irréversibles » — virements, suppressions, envois externes — insérez un contrôle humain.
- Surveiller en continu : les techniques d'attaque évoluent. Surveillez les journaux, détectez les nouveaux schémas et mettez à jour.
※ Les noms d'outils et les catégories de menaces sont cités d'après divers guides et publications (à jour en juin 2026). La meilleure configuration varie selon le cas d'usage et la tolérance au risque.
Conclusion
Trois points à retenir sur les garde-fous IA.
- Ce qu'ils sont : des filtres d'entrée/sortie qui protègent une application LLM contre les menaces. Une couche de sécurité indépendante, distincte de l'intelligence du modèle.
- Contre quoi ils protègent : injection de prompt, jailbreaks, fuite de données, hallucination/sorties nuisibles. L'injection avant tout.
- Comment protéger : deux couches (entrée/sortie) plus la défense en profondeur. Combinez moindre privilège, approbation humaine et surveillance continue.
Non pas seulement « construire » l'IA mais « la faire fonctionner en toute sécurité » est la condition d'un usage réel. Commencez par ajouter un contrôle simple à l'entrée et un à la sortie. Lisez en complément les incidents liés aux agents IA et IA et cybersécurité pour saisir tout le panorama des risques.
FAQ
Q. Si j'utilise un modèle intelligent (GPT ou Claude), ai-je quand même besoin de garde-fous ?
A. Oui. Les meilleurs modèles disposent de fonctions de sécurité, mais ils ne peuvent pas empêcher totalement l'injection de prompt ou les attaques indirectes. Pour un fonctionnement réel, la « défense en profondeur » — placer des garde-fous indépendants côté application — est indispensable.
Q. Peut-on empêcher totalement l'injection de prompt ?
A. À l'heure actuelle, une défense à 100 % est considérée comme difficile. C'est précisément pourquoi, plutôt que de se reposer sur la seule détection à l'entrée, on empile moindre privilège, approbation humaine, filtres de sortie et surveillance pour « limiter les dégâts ». Avant tout, traitez les données externes comme non fiables.
Q. Les petites applications développées en solo en ont-elles besoin ?
A. Si l'un de ces cas s'applique — elle est publique, elle traite des données confidentielles, ou elle manipule des outils — alors oui. À l'inverse, pour une expérimentation personnelle que vous seul utilisez, le minimum suffit. La règle de base : appliquez les garde-fous en proportion du risque.
Q. Quelle est la différence entre les garde-fous et l'évaluation IA ?
A. L'évaluation « mesure si une sortie est bonne ou mauvaise » ; les garde-fous « arrêtent les entrées/sorties dangereuses sur-le-champ ». Des rôles différents, utilisés ensemble. La relation : on corrige avec des garde-fous les faiblesses que l'évaluation met au jour.