« Une IA énorme et très performante est intelligente — mais lourde et coûteuse. » La technique qui résout cela est la distillation de modèles (distillation des connaissances). En transférant les connaissances d'un grand modèle « enseignant » vers un petit modèle « élève », on peut conserver plus de 95 % des performances de l'enseignant pour un dixième de la taille et de la vitesse — le meilleur des deux mondes.

Cet article explique le fonctionnement de la distillation à l'aide d'une analogie enseignant-élève pour les débutants, et couvre les avantages, les deux approches, et en quoi elle diffère du fine-tuning et de la quantization. Il creuse ensuite — sans exagération — les « questions juridiques et de conditions d'utilisation » autour de la distillation qui ont attiré une grande attention en 2026 (le litige OpenAI contre DeepSeek et les clauses anti-distillation).

DISTILLATION DE MODÈLES · DE L'ENSEIGNANT À L'ÉLÈVE

Transférer les connaissances d'un grand enseignant vers un petit élève

— Conserver plus de 95 % des performances pour un dixième de la taille

🧑‍🏫
Enseignant
grand · très performant · coûteux
transfert des connaissances
🎓
Élève
petit · rapide · bon marché
~10x plus petit et plus rapide Conserve plus de 95 % des performances Attention aux conditions d'utilisation

* Les chiffres et exemples de cet article sont cités de documents publics et de reportages (à jour en juin 2026). Les points juridiques sont une orientation générale ; consultez des experts et des sources officielles pour tout cas spécifique.

1. Qu'est-ce que la distillation de modèles ? L'analogie enseignant-élève

La distillation de modèles est une technique où un petit modèle « élève » est entraîné à reproduire le comportement d'un grand modèle « enseignant » très performant. En imitant les sorties de l'enseignant, l'élève acquiert une capacité proche de celle de l'enseignant pour une taille bien plus réduite. Comme exemple réel, GPT-4o mini est décrit comme distillé à partir de GPT-4o.

La clé, ce sont les « soft labels » : l'entraînement ordinaire n'enseigne que « la réponse est chat » (un hard label), mais la distillation transmet à l'élève toute la distribution de probabilités de l'enseignant, comme « 90 % chat, 8 % chien, 2 % renard ». Ce « degré d'hésitation » porte une information riche que la seule réponse ne peut transmettre. Un paramètre appelé temperature « adoucit » ensuite les probabilités pour que même les relations subtiles entre classes similaires deviennent visibles.

Par analogie humaine, un vétéran (enseignant) apprend à un débutant (élève) non seulement « c'est un chat » mais aussi la nuance du jugement — « un chat, bien que ce soit un cas limite avec le chien ». L'élève apprend donc plus profondément et plus efficacement que par cœur. Si vous savez comment fonctionnent les LLM, il est clair pourquoi une distribution de probabilités est si riche en information.

2. Pourquoi distiller ? Les avantages

L'objectif de la distillation est simple — « conserver autant d'intelligence que possible tout en le rendant plus léger, plus rapide et moins cher. » Les avantages concrets :

⚡ Rapide et bon marché

Moins de calcul signifie une latence et un coût plus faibles. Cela paie en production à fort volume.

📦 ~10x plus compact

Des rapports montrent un dixième de la taille tout en conservant plus de 95 % des performances.

📱 Fonctionne sur l'edge

Facile à exécuter même dans des environnements aux ressources limitées, comme les téléphones et les appareils.

🎯 Idéal pour la spécialisation

Facile de construire de petits modèles spécifiques à une tâche mais précis.

En bref, la distillation est un pont qui ramène « l'intelligence de niveau fleuron » à « un coût exploitable en production. » Pour des usages à fort volume d'appels comme les agents, l'écart de coût se cumule, donc la valeur est particulièrement grande.

3. Deux approches : white-box / black-box

La distillation se divise en deux, selon le degré d'accès dont vous disposez aux « internes » de l'enseignant. C'est directement lié au point juridique plus loin.

🔓

Distillation white-box

Lorsque vous avez un accès complet aux poids et aux représentations internes de l'enseignant. L'élève apprend non seulement les sorties mais aussi le processus de décision interne, donc le transfert va plus en profondeur. Utilisable lorsque votre propre modèle ou un modèle OSS est l'enseignant.

📦

Distillation black-box

Lorsque vous ne voyez que les sorties de l'enseignant (réponses d'API). Vous collectez des paires entrée-sortie et entraînez l'élève dessus. Utiliser l'API d'une autre entreprise comme enseignant peut enfreindre ses conditions (voir ci-dessous).

4. vs quantization et fine-tuning

La distillation est facilement confondue avec des techniques similaires « rendre un modèle plus léger/différent » — la quantization et le fine-tuning. Comme leurs objectifs diffèrent, faisons le tri.

Technique Ce qu'elle fait Objectif
Distillation Entraîner un petit modèle distinct sur les connaissances d'un grand modèle Petit et rapide, tout en conservant les performances
Quantization Compresser le même modèle en réduisant la précision des poids Économiser mémoire/vitesse (même modèle à l'intérieur)
Fine-tuning Poursuivre l'entraînement d'un modèle existant pour une tâche spécifique Adapter à un cas d'usage/domaine (taille à peu près inchangée)

Grosso modo : distillation = « transférer la sagesse dans un autre récipient, plus petit », quantization = « rendre le même récipient plus léger », fine-tuning = « ajouter des connaissances de domaine au même récipient. » Les trois ne sont pas mutuellement exclusives — elles sont souvent combinées (par ex. quantiser davantage un petit modèle distillé).

C'est la partie qui est devenue un grand sujet en 2026. La technique de distillation est entièrement légitime. Ce qui pose problème, c'est « les sorties de qui vous utilisez, et pour quoi. »

Le nœud du problème : les conditions d'utilisation d'OpenAI, Anthropic, Mistral, xAI, et d'autres incluent une clause de « distillation anti-concurrentielle » interdisant d'utiliser les sorties de leur service pour développer un modèle concurrent. Ainsi, distiller un modèle concurrent en utilisant les sorties d'une API restreinte peut enfreindre les conditions — même si c'est techniquement possible.

Cela a dégénéré en un litige réel dans l'affaire OpenAI contre DeepSeek. Selon des rapports, OpenAI a allégué que « des comptes que l'on croit liés à DeepSeek ont contourné les restrictions d'accès pour obtenir des sorties de modèle et les ont utilisées pour la distillation » (début 2026). De son côté, les conditions d'utilisation de DeepSeek autoriseraient l'utilisation des sorties de son service pour entraîner d'autres modèles (y compris la distillation). Le point clé est que l'évaluation change selon « les conditions d'API de qui s'appliquent. »

Ce sujet jette aussi une ombre sur les modèles les plus récents. Avec Claude Fable 5 / Mythos 5, une conception a été rapportée dans laquelle des classificateurs de sécurité restreignent les réponses sur les travaux signalés comme « distillation de modèles ». La tension autour de la distillation se poursuit sur les fronts réglementaire et des politiques des fournisseurs. En pratique, la règle est de toujours vérifier les conditions d'utilisation du modèle enseignant que vous utilisez.

Conseils pour distiller en toute sécurité

  • Utilisez votre propre modèle ou un modèle OSS sous licence comme enseignant (beaucoup autorisent la distillation)
  • Avant d'utiliser l'API commerciale d'une autre entreprise comme enseignant, vérifiez sa clause anti-distillation
  • Jugez soigneusement si l'usage revient à « développer un modèle concurrent »

Résumé

La distillation de modèles est une technique puissante qui transfère l'intelligence d'une grande IA vers une petite IA et la ramène à un coût exploitable en production. Récapitulons.

Points clés à retenir

  • 🧑‍🏫 Enseignant → élève : transférer les connaissances d'un grand modèle vers un petit. Les soft labels + la temperature sont la clé.
  • ⚡ ~10x plus petit et plus rapide, en conservant plus de 95 % des performances. Idéal pour l'edge et les opérations à faible coût.
  • 🔓 Deux approches : white-box (voit les internes) / black-box (sorties uniquement).
  • 🔀 Différente de la quantization et du fine-tuning : transférer de récipient / alléger / ajouter des connaissances de domaine.
  • ⚖️ Attention aux conditions : la technique est légitime, mais utiliser les sorties d'une API restreinte pour construire un concurrent peut enfreindre les ToS.

« L'intelligence du grand modèle, l'exploitation du petit modèle. » La distillation rend cette combinaison possible. Mais qui vous choisissez comme enseignant change le résultat à la fois techniquement et juridiquement. Pour les bases, voir ce qu'est un LLM ; pour une technique connexe, le fine-tuning.

FAQ

Q. Combien de performances perd-on en distillant ?

A. Cela dépend du cas d'usage, mais des rapports indiquent qu'une distillation bien conçue peut « conserver plus de 95 % des performances pour un dixième de la taille ». Ce n'est pas identique, donc confirmez toujours que c'est dans la tolérance via une évaluation.

Q. Quand utiliser la distillation plutôt que la quantization ?

A. La distillation « transfère les connaissances dans un modèle distinct, plus petit » ; la quantization « compresse les poids du même modèle ». Leurs objectifs diffèrent, donc elles ne sont pas exclusives — les combiner (par ex. quantiser un petit modèle distillé) est courant.

Q. Puis-je utiliser les sorties d'une autre IA pour construire mon propre modèle ?

A. Cela dépend des conditions de ce fournisseur. OpenAI, Anthropic, et d'autres ont des clauses anti-distillation interdisant d'utiliser les sorties pour développer des modèles concurrents. Cela peut enfreindre les conditions même si c'est techniquement possible, donc vérifiez toujours les conditions du service que vous utilisez comme enseignant.

Q. Un débutant peut-il faire de la distillation ?

A. Le concept est simple, mais l'implémentation nécessite des connaissances en machine learning. Commencez par comprendre le mécanisme. Des fournisseurs cloud (par ex. Azure) proposent aussi des services qui assistent la distillation, donc il existe des options plus faciles que de tout construire de zéro.