LLM local : config requise VRAM/GPU/Mac [2026]

Q: GeForce ou Mac — lequel est le meilleur ?

Pour la vitesse et l&#039;évolutivité, GeForce (GPU NVIDIA). Pour un fonctionnement silencieux et économe qui exploite une grande mémoire pour faire tourner de gros modèles, un Mac (mémoire unifiée). Si vous voulez gérer une classe 70B sur une seule machine, un Mac avec 64 GB+ est une option solide.

Q: Bon, quelle est une bonne première machine ?

Pour le rapport qualité-prix, une RTX 3060 (12 GB) d&#039;occasion pour du 7B–14B. Si le budget le permet, une RTX 4090 (24 GB) gère jusqu&#039;à la classe 32B sur une seule carte et dure longtemps. Pour les adeptes d&#039;Apple, un Mac doté d&#039;une mémoire unifiée généreuse est la voie facile. Commencez petit et montez selon les besoins — c&#039;est ainsi qu&#039;on évite les erreurs.

Configuration requise pour un LLM local : guide VRAM/GPU/Mac [2026]

Sommaire

1. L'essentiel : tout repose presque sur la VRAM
2. Comprenez d'abord la quantification — elle change tout
3. VRAM nécessaire par taille de modèle (tableau express)
4. Le piège de la longueur de contexte / du cache KV
5. GPU et Mac en pratique (guide des vitesses)
6. Ce qu'il vous faut en plus de la VRAM
7. Configurations recommandées par budget (3 niveaux)
8. Comment savoir quel modèle vous pouvez faire tourner
Résumé
FAQ

Quand on veut se lancer avec un LLM local, la première inquiétude est généralement : « Est-ce que ça va seulement tourner sur mon PC ? » Réponse courte : 90 % des specs requises se résument à la VRAM (la mémoire de votre GPU). Réglez cette question et vous saurez instantanément ce qui tournera et ce qui ne tournera pas.

Cet article présente un tableau express de la VRAM par taille de modèle, une formule simple, le piège mémoire qui croît avec la longueur de contexte, des vitesses réalistes par GPU/Mac, et enfin des configurations recommandées par budget. Le jargon est réduit au minimum pour qu'un débutant puisse savoir « laquelle dois-je acheter ».

LOCAL LLM · HARDWARE

Tout repose presque sur la VRAM

— Tout se joue sur la question de savoir si le modèle tient en mémoire

ENTRY

VRAM 8–12 GB

Classe 7B–14B. Chat quotidien, résumés, code léger. Le point de départ le plus simple.

STANDARD

VRAM 24 GB

Jusqu'à la classe 32B. La ligne pratique, avec un excellent équilibre qualité/vitesse.

SERIOUS

40–64 GB+

Classe 70B. Une qualité proche du cloud de milieu de gamme. Les coûts grimpent aussi.

1. L'essentiel : tout repose presque sur la VRAM

L'achat d'un PC implique de nombreux composants — CPU, GPU, mémoire — mais pour les LLM locaux, la chose la plus importante est la VRAM (la mémoire vidéo, celle qui se trouve sur le GPU). La raison est simple : si tout le modèle tient dans la VRAM, il tourne vite et sans accroc ; sinon, il devient atrocement lent ou ne tourne pas du tout.

💡 En un mot : le choix des specs pour un LLM local suit cet ordre : « la taille du modèle que vous voulez faire tourner » → « la VRAM nécessaire » → « un GPU/Mac qui la satisfait ». Le CPU et la quantité de RAM sont secondaires.

Les puces série M d'Apple (Mac) sont un cas particulier : grâce à la « mémoire unifiée », la RAM installée peut être utilisée directement comme VRAM. Ainsi, un Mac doté de beaucoup de mémoire peut faire tourner de grands modèles même sans GPU dédié — nous y reviendrons plus loin.

2. Comprenez d'abord la quantification — elle change tout

Avant de parler de la VRAM nécessaire, impossible de faire l'impasse sur la quantification. C'est une technique qui compresse le modèle pour l'alléger, et le taux de compression fait varier le besoin mémoire de plusieurs ordres.

FP16 (non compressé)

~2 octets par paramètre. Qualité maximale, mais consomme le plus de mémoire. Les particuliers l'utilisent rarement.

Q8 (8 bits)

~1 octet par paramètre. Environ la moitié de FP16. La perte de qualité est infime — le choix « axé qualité ».

Q4 (4 bits)

~0,5–0,7 octet par paramètre. Environ 1/4 de FP16. Un excellent équilibre entre qualité et légèreté — la référence pour un usage personnel.

🔑 Formule approximative : VRAM nécessaire ≈ nombre de paramètres (B) × octets par paramètre. Exemple : pour faire tourner un modèle 7B en Q4, 7 × ~0,6 ≈ ~4–5 GB. Ajoutez +10–20 % pour le cache KV (le contexte, abordé juste après) pour être tranquille.

3. VRAM nécessaire par taille de modèle (tableau express)

En partant de la quantification Q4, la plus pratique, voici les besoins approximatifs en VRAM par taille (marge incluse pour le contexte). Comparez avec « la VRAM de votre GPU » et vous verrez instantanément votre limite supérieure.

Classe 7B–8B

VRAM ~6–8 GB

Idéal pour débuter. Chat, résumés, traduction, code léger. Atteignable sur de nombreux ordinateurs portables.

Classe 13B–14B

VRAM ~8–12 GB

Des réponses un peu plus fines. Le « sweet spot » des GPU de milieu de gamme comme la RTX 3060 (12 GB).

Classe 32B

VRAM ~20–24 GB

La ligne pratique haute. La cible classique en carte unique pour une RTX 4090 (24 GB).

Classe 70B

VRAM ~40–48 GB+

Niveau sérieux. Un Mac à grande mémoire ou plusieurs GPU sont réalistes.

Monter plus haut, vers les 100B+ (très grands modèles), demande 128 GB ou plus — au-delà du domaine personnel. À l'inverse, un petit modèle 1–3B tourne avec environ 4 GB, si bien qu'un PC même modeste peut se lancer.

4. Le piège de la longueur de contexte / du cache KV

Facile à négliger : la mémoire croît avec la longueur de contexte. Un LLM conserve l'historique de la conversation et de l'entrée dans la VRAM sous forme de cache KV. Plus le texte que vous traitez est long, plus il consomme de mémoire en plus du modèle lui-même.

~+0,3 GB sur un 7B. Négligeable pour des questions courtes.

32k

~+2,5 GB sur un 7B. Commence à compter pour les longs résumés et les longues conversations.

128k

~+10 GB sur un 7B. Peut dépasser le modèle lui-même. Une zone à surveiller.

📌 Astuce pratique : « ça tournait pile à la limite de la VRAM, puis ça a planté quand je lui ai donné un long document » — voilà pourquoi. Estimez votre besoin à la longueur de contexte que vous utilisez vraiment. Si vous ne traitez pas de longs documents, il suffit de régler une longueur de contexte plus petite pour libérer de la mémoire.

5. GPU et Mac en pratique (guide des vitesses)

Même pour un modèle identique, le matériel modifie fortement la vitesse (tokens générés par seconde = tok/s). Voici les principales options avec un ressenti approximatif (les chiffres sont des repères qui varient selon la configuration et le modèle).

RTX 3060 (12 GB)

Facile à trouver d'occasion — le classique d'entrée. Les 7B–14B tournent confortablement. Si le coût est la priorité, commencez ici.

RTX 4090 (24 GB)

Jusqu'à la classe 32B sur une seule carte. Un 7B peut dépasser 100 tokens/seconde. La référence haut de gamme pour particulier. Le 70B exige de décharger une partie vers le CPU et ralentit fortement.

RTX 5090 (32 GB)

Plus de VRAM permet de faire tourner un 32B en Q8, ou un 70B en quantification agressive sur une seule carte. La vitesse est aussi au sommet.

Apple Mac (M4/M5 Max)

Avec 64 GB de mémoire unifiée, même la classe 70B est possible (la vitesse reste modeste — autour de 20–30 tokens/seconde sur un 70B). Silencieux et économe en énergie.

CPU seul (sans GPU)

Les petits modèles tournent bel et bien, mais lentement. Parfait pour « juste essayer ». Pour un usage quotidien, un GPU/Mac s'impose vraiment.

6. Ce qu'il vous faut en plus de la VRAM

La VRAM tient le premier rôle, mais les seconds rôles comptent aussi. Trois points à couvrir au minimum.

🧠

RAM système

Le réceptacle de tout ce qui ne tient pas dans la VRAM. 16 GB ou plus, idéalement 32 GB. Sur un Mac, la mémoire unifiée compte directement.

💾

Stockage (SSD)

Un seul modèle pèse de plusieurs à des dizaines de GB. Si vous en essayez plusieurs, gardez beaucoup d'espace libre sur le SSD. NVMe recommandé.

⚡

Alimentation et refroidissement

Les GPU haut de gamme consomment beaucoup et chauffent. Prévoyez de la marge côté alimentation et refroidissement.

7. Configurations recommandées par budget (3 niveaux)

Trois schémas qui répondent à « bon, qu'est-ce que j'achète concrètement ? » Choisissez selon votre usage et votre budget.

ENTRY

Juste essayer : VRAM 8–12 GB

Une carte de la classe RTX 3060 (12 GB), ou un Mac avec 16–24 GB de mémoire unifiée. La classe 7B–14B tourne, amplement suffisante pour un usage quotidien. Un GPU d'occasion est la façon la moins chère de démarrer.

STD

L'utiliser sérieusement : VRAM 24 GB

Une RTX 4090 (24 GB), ou un Mac avec 32–48 GB de mémoire unifiée. La classe 32B est confortable, avec le meilleur équilibre qualité/vitesse. Le choix « juste comme il faut ».

PRO

Viser le plus gros : 40–64 GB+

Une RTX 5090 ou plusieurs GPU, ou un Mac haut de gamme avec 64 GB+ de mémoire unifiée. La classe 70B s'approche du cloud de milieu de gamme. Préparez-vous au coût et à la consommation électrique.

8. Comment savoir quel modèle vous pouvez faire tourner

Vous ne savez pas quel modèle choisir ? Voir le comparatif des meilleurs LLM locaux pour choisir selon l'usage, la taille et l'origine.

Vérifiez en trois étapes avant d'acheter ou de télécharger, et vous ne vous tromperez pas.

Vérifiez votre VRAM (ou la mémoire unifiée de votre Mac). C'est votre plafond.
Estimez le besoin approximatif avec la taille du modèle (B) × ~0,6 (Q4). Ajoutez +10–20 % pour le contexte.
Confirmez que le total tient dans votre VRAM. Sinon, prenez « une taille en dessous » ou « une quantification plus forte (Q4 → un nombre de bits encore plus bas) ».

💡 En cas de doute, commencez petit : avec Ollama ou LM Studio, il suffit de choisir un modèle et de le télécharger. Essayez d'abord la classe 7B, et montez d'un cran si cela vous semble insuffisant — cet ordre est sûr et fiable.

Résumé

Les specs dont vous avez besoin pour un LLM local se résument à trois points.

La VRAM tient le premier rôle : que le modèle tienne en mémoire, c'est tout. Un Mac peut viser une grande mémoire via la mémoire unifiée.
La quantification et le contexte font bouger le chiffre : en Q4, « taille (B) × ~0,6 » plus le contexte (+10–20 %) est le repère. 7B ≈ 6–8 GB, 32B ≈ 24 GB, 70B ≈ 40 GB+.
Trois niveaux par budget : entrée (8–12 GB) / standard (24 GB) / sérieux (40–64 GB+). En cas de doute, commencez petit et montez progressivement.

Une fois les specs connues, un LLM local devient beaucoup plus accessible. Ensuite, en pesant les différences avec le cloud, faites-en tourner un sur votre propre machine. Les étapes d'installation sont couvertes dans comment faire tourner un LLM local.

FAQ

Q. Un ordinateur portable ordinaire (sans GPU) peut-il faire tourner un LLM local ?

R. Les petits modèles (1–3B, ou un 7B léger) tournent, mais lentement. C'est bien pour « essayer », mais pour un usage quotidien confortable, un GPU avec 8 GB+ de VRAM ou un Mac doté d'une mémoire unifiée généreuse est réaliste.

Q. Ma VRAM est un peu juste. Comment le faire tourner quand même ?

R. Trois options : ① choisir une quantification plus forte (une version en nombre de bits plus bas), ② descendre d'une taille de modèle, ③ régler une longueur de contexte plus courte. En général, cela suffit à le faire entrer. Vous pouvez aussi décharger une partie vers le CPU, mais la vitesse chute.

Q. GeForce ou Mac — lequel est le meilleur ?

R. Pour la vitesse et l'évolutivité, GeForce (GPU NVIDIA). Pour un fonctionnement silencieux et économe qui exploite une grande mémoire pour faire tourner de gros modèles, un Mac (mémoire unifiée). Si vous voulez gérer une classe 70B sur une seule machine, un Mac avec 64 GB+ est une option solide.

Q. De combien de RAM système ai-je besoin ?

R. 16 GB ou plus pour la RAM système, idéalement 32 GB. Notez que sur un Mac, la mémoire unifiée fait aussi office de VRAM, si bien que la quantité de mémoire détermine directement la taille de modèle que vous pouvez faire tourner.

Q. Bon, quelle est une bonne première machine ?

R. Pour le rapport qualité-prix, une RTX 3060 (12 GB) d'occasion pour du 7B–14B. Si le budget le permet, une RTX 4090 (24 GB) gère jusqu'à la classe 32B sur une seule carte et dure longtemps. Pour les adeptes d'Apple, un Mac doté d'une mémoire unifiée généreuse est la voie facile. Commencez petit et montez selon les besoins — c'est ainsi qu'on évite les erreurs.

Configuration requise pour un LLM local : guide VRAM/GPU/Mac [2026]

Tout repose presque sur la VRAM

1. L'essentiel : tout repose presque sur la VRAM

2. Comprenez d'abord la quantification — elle change tout

3. VRAM nécessaire par taille de modèle (tableau express)

4. Le piège de la longueur de contexte / du cache KV

5. GPU et Mac en pratique (guide des vitesses)

6. Ce qu'il vous faut en plus de la VRAM

7. Configurations recommandées par budget (3 niveaux)

8. Comment savoir quel modèle vous pouvez faire tourner

Résumé

FAQ

Articles similaires

Dates de coupure des connaissances de l'IA générative : ChatGPT, Claude, Gemini et plus

Qu'est-ce que l'IA générative ? Comment elle se distingue de l'IA traditionnelle

Forces et faiblesses de l'IA générative — Ce qu'elle peut et ne peut pas faire avec exemples concrets

Qu'est-ce qu'un LLM ? Fonctionnement, modèles majeurs et cas d'usage

Commentaires

Laisser un commentaire