« Un énorme modèle 70B (70 milliards de paramètres) tourne sur un seul PC de gaming à la maison, pas sur un rack de GPU de data center. » Ce qui rend cela possible, c'est la quantification — une technique qui abaisse la précision numérique des poids d'un modèle pour réduire drastiquement sa taille et ses besoins en mémoire.

Alors que la distillation de modèles abordée la dernière fois « transférait le savoir vers un modèle distinct et plus petit », la quantification « allège le même modèle ». Cet article l'explique avec une analogie de compression de photo, montre combien on gagne en légèreté (les chiffres de mémoire), le compromis sur la précision, les principales méthodes (GPTQ / AWQ / GGUF / QLoRA) et comment l'exécuter en local — le tout pour les débutants.

QUANTIFICATION · ALLÉGER EN BAISSANT LA PRÉCISION

Baissez le nombre de bits, et la VRAM chute fortement

— Exemple : mémoire requise pour un modèle 70B

FP16
~140GB
INT8
~70GB
INT4
~35GB
~4x moins de mémoire en 4-bit Tourne sur un GPU grand public Une légère baisse de précision

* Les estimations de mémoire et les chiffres de cet article sont cités de documents publics (en date de juin 2026). Les besoins réels varient selon le modèle, le format et la longueur de contexte — à lire comme des ordres de grandeur.

1. Qu'est-ce que la quantification ? Comme compresser une photo

La quantification consiste à abaisser la précision numérique des poids (paramètres) d'un modèle. Les poids d'une IA sont habituellement stockés en FP16/FP32 (décimaux sur 16/32 bits), et la quantification les remplace par des entiers comme INT8 (8 bits) ou INT4 (4 bits). Chaque poids occupe alors moins de place, et le modèle entier devient bien plus léger.

Voyez-le comme « la compression d'une photo haute résolution » : la photo RAW d'origine (FP16) est superbe mais énorme. Compressez-la en JPEG (INT8/INT4) et le fichier rétrécit à une fraction de sa taille tout en restant quasi identique à l'œil. La quantification, c'est pareil — sacrifier un peu de précision pour un gros gain de légèreté. La surprise, ce n'est pas que ça marche, mais le peu qu'on y perd.

Le nombre et le rôle des poids ne changent pas — le contenant (le modèle) reste le même ; seule la finesse de la représentation est rendue plus grossière. Connaître la structure du modèle aide donc (voir comment fonctionnent les poids des LLM).

2. Combien gagne-t-on en légèreté ? (les chiffres de mémoire)

L'effet saute aux yeux en chiffres. Par poids : FP32 = 4 octets, INT8 = 1 octet, INT4 = 0,5 octet. Donc passer en 4-bit utilise environ un quart de la mémoire du FP16.

Précision Par poids Modèle 70B (approx.) Modèle 8B (approx.)
FP16 (sans quantification) 2 octets ~140GB ~16GB
INT8 1 octet ~70GB ~8GB
INT4 0,5 octet ~35GB ~4.5-5GB

* Estimations. Les valeurs réelles varient selon le format, la surcharge et la longueur de contexte.

L'impact est énorme. Si un modèle 70B passe de 140GB à 35GB, il tourne sur une configuration réaliste au lieu de plusieurs A100. Quantifiez un modèle 8B en 4-bit et il fait environ 5GB — il tient confortablement dans un GPU de milieu de gamme (8GB de VRAM), si bien que vous pouvez l'exécuter en local sur votre propre PC. C'est pourquoi la quantification est appelée la « démocratisation des LLM ».

3. Quelle perte de précision ?

L'inquiétude est : « ne va-t-il pas devenir moins bon une fois allégé ? » La réponse est « moins que vous ne le pensez — mais ça dépend du nombre de bits et de la tâche ».

🟢 INT8 : quasiment sans perte

Pour la plupart des LLM, la baisse de performance est minime. Un choix sûr quand on veut diviser la mémoire par deux tout en préservant la qualité.

🟡 INT4 : pratique avec des méthodes intelligentes

Pour les questions-réponses générales et les tâches de bon sens, la dégradation serait inférieure à 4%. Mais pour les maths, la génération de code et le raisonnement difficile, la perte est plus marquée, donc prudence.

La perte de précision se manifeste techniquement par « une légère hausse de la perplexité ». L'essentiel est de « choisir le nombre de bits adapté à la tâche » — l'INT4 suffit souvent pour le chat ou le résumé, mais pour la génération de code ou les maths exactes, envisagez l'INT8 ou pas de quantification. Au final, évaluez sur votre propre tâche pour confirmer que c'est dans la tolérance.

4. Principales méthodes : GPTQ / AWQ / GGUF / QLoRA

Il existe plusieurs méthodes et formats de quantification représentatifs. Connaître les noms aide à choisir modèles et outils sans confusion.

Méthode / format Caractéristiques Idéal pour
GPTQ Le pionnier qui a réussi la compression 4-bit en préservant la précision. Inférence sur GPU
AWQ Identifie et protège le ~1% de poids les plus importants. Souvent 1-2% plus précis et plus rapide que GPTQ. Inférence de production rapide et efficace
GGUF Le format de llama.cpp / Ollama. Choisissez les niveaux Q2_K-Q8_0 ; prend en charge l'hybride CPU+GPU. Exécution en local sur votre PC
QLoRA Combine un modèle de base en 4-bit avec LoRA, permettant le fine-tuning sur un GPU grand public. Fine-tuning à faible coût

Pour un débutant qui essaie en local, utiliser un modèle GGUF avec Ollama est la voie la plus simple. Pour optimiser l'inférence de production sur GPU, AWQ est un choix solide. Pour faire le fine-tuning d'un gros modèle à moindre coût, QLoRA — retenir juste cela suffit.

5. Par rapport à la distillation et au fine-tuning

La quantification est une technique d'« efficacité/optimisation de modèle » au même titre que la distillation et le fine-tuning. On les confond facilement, alors notez la différence d'objectifs.

⚖️ Quantification

Alléger les poids du même modèle. Même modèle à l'intérieur, simplement une représentation plus grossière.

🧑‍🏫 Distillation

Transférer le savoir vers un modèle distinct et plus petit. Reconstruire le contenant en plus petit.

🎯 Fine-tuning

Poursuivre l'entraînement pour un usage précis. Taille à peu près identique ; ajoute du savoir métier.

Les trois ne s'excluent pas — on les combine généralement. Par exemple, « quantifier un modèle élève qui a été distillé en plus petit, pour le faire tenir sur un téléphone », ou, comme avec QLoRA, « faire le fine-tuning sur une base quantifiée ». Elles se cumulent.

6. Comment démarrer et choisir le nombre de bits

Aucune implémentation compliquée nécessaire. De nombreux modèles déjà quantifiés sont distribués, donc vous pouvez simplement les télécharger et les utiliser. En cas de doute, choisissez selon ce guide.

1

Pour essayer d'abord en local, utilisez GGUF (Ollama)

Exécutez un modèle quantifié avec Ollama en une seule commande. Le simple fait d'y toucher est la façon la plus rapide d'apprendre.

2

Choisissez le nombre de bits selon votre VRAM

VRAM limitée ? INT4 (Q4). De la marge et vous voulez la qualité ? INT8 (Q8). L'usage général va souvent très bien en Q4.

3

Jugez la précision selon le cas d'usage

Pour la génération de code ou les maths exactes, évitez l'INT4 et utilisez l'INT8 et plus. Pour le chat et le résumé, l'INT4 est confortable.

Résumé

La quantification est l'élément clé qui transforme une IA géante en quelque chose d'assez léger pour tourner sur votre propre machine. Récapitulons.

Points clés à retenir

  • ⚖️ Baisser la précision des poids pour réduire (FP16→INT8→INT4). Même idée que la compression de photo.
  • 📉 ~4x moins de mémoire en 4-bit. 70B de 140GB→35GB ; 8B ~5GB sur un GPU grand public.
  • 🎯 Faible perte de précision. INT8 quasiment sans perte ; INT4 sous 4% en usage général (attention aux maths/au code).
  • 🛠️ Méthodes : GPTQ / AWQ / GGUF (Ollama) / QLoRA. GGUF est le plus simple en local.
  • 🔀 Différent de la distillation/du FT : alléger le même contenant / passer à un contenant plus petit / ajouter du savoir métier.

« Garder l'intelligence, ne perdre que le poids. » La quantification est l'étape unique la plus pratique pour rendre l'IA accessible. Commencez par exécuter un modèle Q4 sur un LLM local. Pour une technique connexe, voir la distillation de modèles ; pour les fondations, les poids des LLM.

FAQ

Q. La quantification rend-elle le modèle moins bon ?

R. Moins que vous ne le pensez. L'INT8 est quasiment sans perte, et même l'INT4 se dégraderait sous 4% sur les questions-réponses générales et les tâches de bon sens. Mais l'écart est plus marqué pour les maths, la génération de code et le raisonnement difficile, donc choisissez le nombre de bits selon le cas d'usage.

Q. Que sont Q4 / Q8, et lequel choisir ?

R. Ce sont des niveaux de quantification GGUF — plus le chiffre est petit, plus c'est léger (et grossier). VRAM limitée, prenez Q4 ; pour la qualité avec de la marge, Q8. Pour un usage général comme le chat ou le résumé, Q4 est souvent confortable.

Q. Dois-je utiliser la quantification ou la distillation ?

R. Des objectifs différents. Pour alléger un modèle que vous avez déjà, quantifiez-le ; pour créer un tout nouveau modèle dédié plus petit, utilisez la distillation. On les combine souvent — quantifier davantage un petit modèle distillé est courant.

Q. Dois-je quantifier les modèles moi-même ?

R. En général, non. Les principaux modèles sont déjà distribués sous forme quantifiée et peuvent être téléchargés et utilisés tout de suite via des outils comme Ollama. Quantifier soi-même n'est utile que pour des modèles personnalisés ou des exigences particulières.