Fonctionnement des LLM : poids, énergie et coût expliqués

Q: Puis-je construire mon propre LLM ?

"De classe pointe", c'est impossible pour un particulier (cela nécessite des centaines de millions de dollars et des dizaines de milliers de GPU). Mais entraîner un petit modèle, ou affiner un modèle ouvert existant, est faisable même pour des particuliers. De plus, la plupart des besoins pratiques sont satisfaits en utilisant des modèles existants via l'API. Il n'y a presque aucun besoin de "tout construire soi-même".

Q: La consommation d'énergie de l'IA est-elle un problème sérieux pour la planète ?

C'est un fait que l'ampleur devient non négligeable (l'énergie des centres de données représente environ 1,5 % de celle du monde, devant doubler d'ici 2030 — IEA). Mais l'efficience progresse aussi furieusement en parallèle ; "l'énergie par token" baisse année après année. Le problème tient moins à "l'efficience d'une requête" qu'à "la croissance explosive du volume total × fréquence". Dans quelle mesure le renouvelable, le nucléaire et les puces dédiées pourront compenser cela est l'enjeu futur.

Q: Au final, qu'est-ce qui vaut la peine d'être su en tant qu'utilisateur ?

Trois choses. (1) Le modèle est un "prédicteur de probabilités", il se trompe donc même sur un ton assuré (vérifiez les infos importantes). (2) Les questions lourdes coûtent cher en énergie et en argent, choisissez donc le modèle selon le poids de la tâche (les petites courses aux modèles légers). (3) Les "performances de pointe" sont une guerre d'argent, mais les "performances pratiques" deviennent moins chères et plus économes en énergie chaque année (attendre l'évolution des modèles gratuits/bon marché est aussi malin). Plus vous connaissez le mécanisme, plus vous pouvez utiliser l'IA à moindre coût et avec astuce.

Comment fonctionnent vraiment les LLM — les poids qui prédisent les mots, la consommation d'énergie et pourquoi le développement est une guerre d'argent

Sommaire

1. Un LLM ne fait que deviner sans cesse "le mot suivant"
2. Que sont les "poids" ? — Mille milliards de boutons font l'intelligence
3. Deux étapes d'apprentissage — pré-entraînement et post-entraînement (RLHF)
4. L'inférence — l'instant où votre question devient de l'électricité
5. L'énergie — combien d'électricité un LLM consomme-t-il ?
6. "Le développement est une guerre d'argent" est-ce vrai ?
7. Mais l'argent seul ne suffit pas — le reflux de l'efficience
8. La suite — le mur de "l'énergie et de la physique" après l'argent
Résumé
FAQ

GPT-4, sorti en 2023, aurait été entraîné en faisant tourner environ 25 000 GPU sur Microsoft Azure pendant des mois. La puissance de calcul investie dans cette seule session d'entraînement représentait à peu près 2×10²⁵ opérations en virgule flottante (FLOPs). Même le seul entraînement de l'ancien GPT-3 a consommé environ 1,287 MWh d'électricité — soit plus d'un siècle de consommation pour un foyer moyen, dépensé pour bâtir un seul modèle. Derrière le banal "tiens, résume-moi ça" que nous tapons se cache un monde de physique et des montagnes d'argent.

Cet article creuse en profondeur "le fonctionnement réel d'un LLM (grand modèle de langage)", sous trois angles : mécanisme, énergie et argent. Plus précisément — (1) pourquoi un LLM peut-il produire du langage à partir d'un ensemble de boutons appelés "poids (paramètres)", (2) combien d'électricité une question ou une session d'entraînement consomme-t-elle, et (3) l'affirmation selon laquelle "le développement de LLM de pointe est une guerre d'argent" est-elle vraie ? La réponse courte à la troisième : "Pour l'extrême pointe, c'est essentiellement vrai — mais un contre-courant où 'l'argent seul ne suffit pas' s'est renforcé en 2026." Voilà le tableau exact.

Ma position d'emblée : l'"intelligence" d'un LLM n'est ni magie ni conscience — c'est le résultat d'une gigantesque machine à prédiction de probabilités façonnée à coups d'électricité. Comprendre le mécanisme dissout à la fois l'enthousiasme excessif et la peur excessive. Cet article va jusqu'à un niveau intermédiaire. Si vous partez de "qu'est-ce qu'un LLM au juste", lisez d'abord qu'est-ce qu'un LLM (introduction) ; pour la longueur de contexte voyez la fenêtre de contexte ; pour les tarifs voyez l'API d'IA pour débutants.

FONCTIONNEMENT DES LLM · POIDS × ÉNERGIE × ARGENT

Disséquer un LLM sous trois angles

— De quoi est faite l'intelligence, l'énergie qu'elle brûle, l'argent qu'elle coûte

Mécanisme

Les poids prédisent le mot suivant

Des centaines de milliards à plus de 1 000 milliards de boutons qui calculent juste des probabilités

Énergie

Une requête ≈ 0,4–33 Wh

Une session d'entraînement = 100+ années-foyer d'électricité

Argent

200–500 M$ à la pointe

D'ici 2027, des sessions d'entraînement de 1–3 Md$ sont anticipées

L'intelligence d'un LLM n'a rien de magique. Elle est le résultat d'une gigantesque machine à probabilités façonnée à coups d'énergie et d'argent.
Connaissez le mécanisme, et l'enthousiasme comme la peur se dissolvent.

1. Un LLM ne fait que deviner sans cesse "le mot suivant"

Cela peut surprendre, mais ChatGPT, Claude et Gemini font tous essentiellement une seule chose. "À partir du texte jusqu'ici, calculer la probabilité du mot le plus vraisemblable (plus précisément, du 'token') comme suite, en choisir un, et les aligner." C'est tout. Donnez-lui "le chat est sur le ___" et il attribue des probabilités à des candidats comme "tapis", "canapé", "sol" et émet celui de plus haute probabilité (ou un échantillonné selon la probabilité). Il répète cela un token à la fois jusqu'à ce que le texte se termine.

Voici la question qui déroute beaucoup de gens. "Comment un simple jeu de devinette de mots peut-il résumer des articles ou écrire du code ?" La réponse : "Pour vraiment deviner le mot suivant avec précision, il n'a d'autre choix que de 'comprendre' la structure du monde dans une certaine mesure." Deviner "la capitale du Japon est ___" exige de la géographie ; "3 + 5 = ___" exige de l'arithmétique ; "la cause de ce bug est ___" exige des connaissances en programmation détenues en interne. Comme sous-produit de l'entraînement à l'extrême de la "devinette du mot suivant" sur d'énormes quantités de texte, des connaissances et un raisonnement émergent. Telle est la nature étrange et essentielle des LLM.

Alors, qu'est-ce qui calcule cette "probabilité du mot suivant" ? Comme annoncé, l'acteur principal est une pile vertigineuse de nombres appelés "poids (paramètres)". Le chapitre suivant révèle ce qu'ils sont.

2. Que sont les "poids" ? — Mille milliards de boutons font l'intelligence

Pour résumer l'intérieur d'un LLM en une analogie : "un gigantesque dispositif de calcul doté de centaines de milliards à plus de mille milliards de 'boutons'." Chaque bouton est un "poids (paramètre)", et lorsque le signal d'un mot d'entrée passe à la couche suivante, il décide "quels signaux renforcer ou affaiblir, et de combien". GPT-3 en avait environ 175 milliards ; les derniers modèles de pointe dépasseraient les mille milliards. Le réglage de ces innombrables boutons est exactement ce qu'est la "connaissance" apprise du modèle.

POIDS

Comment les "poids" se transforment en langage

① Tokeniser

Découper le texte en fragments de mots (tokens) et convertir en vecteurs numériques

② Passer par les poids

Des dizaines de couches Transformer transforment les signaux en multipliant les poids

③ Attention

Les poids jugent sur quels mots de la phrase se concentrer

④ Sortir les probabilités

Calculer la distribution de probabilité du token suivant et en choisir un

"Apprendre", c'est le travail consistant à tourner peu à peu ces mille milliards de boutons vers la bonne réponse.
Le réglage final des boutons (les poids) = la "connaissance" même du modèle.

Le Transformer, apparu en 2017, est le fondement des LLM modernes. Son cœur est le mécanisme d'"Attention", qui juge dynamiquement par les poids "quel mot de la phrase importe pour le mot courant". Que "banque" dans "j'ai vu la rivière devant la banque" désigne un établissement financier ou une berge se décide en pondérant sa relation aux autres mots du contexte — et cette "pondération dépendante du contexte" est précisément la raison pour laquelle un LLM peut renvoyer des réponses cohérentes même sur de longs passages. Quand on dit "un truc à propos de pondération", on parle exactement de cette Attention et des milliers de milliards de multiplications qui la sous-tendent.

Le point crucial : ces poids n'ont pas été réglés à la main. Au départ, ils ne sont qu'un amas de nombres aléatoires, dénués de sens. Le sens y est instillé par l'"apprentissage". Alors, comment cet apprentissage se déroule-t-il ?

3. Deux étapes d'apprentissage — pré-entraînement et post-entraînement (RLHF)

L'apprentissage d'un LLM se divise globalement en deux étapes — le processus par lequel les "boutons aléatoires" du chapitre précédent deviennent des "boutons intelligents".

Étape 1 : pré-entraînement. On lui donne du texte à l'échelle d'Internet (livres, web, code) et on lui fait inlassablement "deviner le mot suivant". À chaque erreur, tous les paramètres sont ajustés d'une infime quantité dans la direction qui réduit l'erreur (cet algorithme d'ajustement est la fameuse "rétropropagation + descente de gradient"). Répétez cela sur des milliers de milliards de tokens, et les fondations de la grammaire, des connaissances et du raisonnement se gravent dans les boutons. Le pré-entraînement consomme l'essentiel de la puissance de calcul, de l'énergie et de l'argent. Les astronomiques ~2×10²⁵ FLOPs d'un modèle de classe GPT-4 se brûlent ici.

Étape 2 : post-entraînement. Un modèle uniquement pré-entraîné est "savant mais mal élevé". On utilise donc le RLHF (apprentissage par renforcement à partir de retours humains) et des techniques similaires pour lui enseigner "des façons utiles et sûres de répondre". De plus, à partir de 2025, le poids du post-entraînement qui exerce le raisonnement long (réfléchir soigneusement), l'usage d'outils et le comportement agentique a explosé, au point que pour les familles Claude, GPT et Gemini, le post-entraînement représente désormais environ 15–25 % de la puissance de calcul totale. La raison pour laquelle les modèles récents "réfléchissent avant de répondre" autant tient à l'évolution de ce post-entraînement. Le comportement multi-agent est lui aussi instillé ici.

4. L'inférence — l'instant où votre question devient de l'électricité

Si l'entraînement est "le chantier de réglage des boutons", alors l'inférence est "l'exploitation consistant à produire réellement des réponses à l'aide des boutons finalisés". Chaque fois que vous tapez une question dans ChatGPT, des milliers de milliards de multiplications parcourent près de mille milliards de boutons, et les tokens sont générés un à la fois. Nous avons vu à quel point l'entraînement est lourd — mais à l'échelle de la société dans son ensemble, c'est l'inférence, et non l'entraînement, qui dévore l'énergie.

La raison est simple : l'entraînement n'a fondamentalement lieu qu'une fois par modèle, mais l'inférence s'exécute des centaines de millions de fois par jour dans le monde. Sur toute la durée de vie d'un modèle, la demande cumulée d'énergie et de calcul pèse donc bien plus lourd du côté de l'inférence que de l'entraînement. "Une question, ce n'est presque pas d'électricité" — vrai, une seule est minuscule. Mais "minuscule × des centaines de millions × chaque jour" s'additionne en un problème énergétique à l'échelle d'une nation. Regardons des chiffres concrets ensuite.

5. L'énergie — combien d'électricité un LLM consomme-t-il ?

On dit souvent que "l'IA dévore l'énergie", mais combien exactement ? Voici les chiffres représentatifs publiés en 2026.

ÉLECTRICITÉ

La consommation des LLM en chiffres

Une requête (courte)

0,43Wh

classe GPT-4o
une question courte

Un raisonnement lourd

33Wh+

modèle à réflexion longue
~70x la version légère

Entraîner GPT-3

1,287MWh

550t+ CO2
(une ancienne génération)

Énergie mondiale des DC

415→945

TWh
prévision 2024→2030

Même une seule requête courte (0,43Wh), portée à 700 M/jour, équivaut à la consommation de ~35 000 foyers américains.
Un seul rack de centre de données tire jusqu'à 10x l'ancienne norme ; un DC d'IA dédié dévore 20MW–1GW.

Ce qui ressort, c'est que "l'efficience énergétique diffère d'ordres de grandeur d'un modèle à l'autre". Une question courte à un modèle léger reste sous 0,5 Wh, mais lancer une question lourde à un modèle de raisonnement à réflexion longue (le type qui rumine avant de répondre) consomme 33 Wh+ — environ 70x la version légère. Comme évoqué dans le piège de la consommation de tokens comme charge de travail, "tout faire sur le modèle le plus haut de gamme" est un luxe en énergie comme en coût. Envoyer les petites courses à un modèle léger est bon pour la planète comme pour votre portefeuille. Selon l'IEA, l'énergie mondiale des centres de données a atteint 415 TWh en 2024 (environ 1,5 % du total mondial) et devrait doubler pour atteindre 945 TWh d'ici 2030 — l'IA étant le principal moteur de cette croissance.

6. "Le développement est une guerre d'argent" est-ce vrai ?

Voici la question qui vous intriguait le plus. "Le développement de LLM de pointe est-il une guerre d'argent ?" La conclusion vérifiée d'abord : "Limité au pré-entraînement de la pointe, c'est essentiellement vrai." Les chiffres le confirment.

GUERRE D'ARGENT

Trajectoire du coût d'entraînement de pointe

GPT-3 (2020)

~ 3×10²³ FLOPs. Hors normes pour son époque

GPT-4 (2023)

~ 2×10²⁵ FLOPs. ~25 000 GPU

Pointe 2026

10²⁶–10²⁷ FLOPs / 200–500 M$

Prévision 2027

une seule session atteignant 1–3 Md$

Le calcul d'entraînement de pointe a longtemps crû de 4–10x par an.
Une session d'entraînement de classe GPT-5 / Gemini Ultra = 200–500 M$ — une guerre d'argent en effet.

Concrètement, entraîner une fois un modèle de classe GPT-5 / Gemini Ultra est estimé à 200–500 millions de dollars, et certaines prévisions situent la pointe de fin 2027 à 1–3 milliards de dollars par session. Et il s'agit là d'"une session réussie" — derrière elle se cachent des essais-erreurs ratés, la préparation des données, les salaires et l'infrastructure d'inférence. À cela s'ajoute que chaque GPU coûte des milliers de dollars ; en faire tourner des dizaines de milliers pendant des mois fait grimper la facture d'électricité. Un mur d'argent qu'aucune "idée brillante" ni "algorithme astucieux" ne peut à lui seul franchir se dresse à l'entrée de la pointe. En ce sens, "guerre d'argent" n'a rien d'exagéré — c'est un fait. C'est pourquoi seuls une poignée d'acteurs ayant sécurisé d'énormes capitaux — OpenAI, Google, Anthropic, Meta, xAI — peuvent se battre à l'avant-garde.

7. Mais l'argent seul ne suffit pas — le reflux de l'efficience

Le chapitre précédent disait "la guerre d'argent est réelle". Mais clore l'histoire là-dessus reviendrait à mal interpréter la réalité de 2026. Il n'est nullement vrai qu'"avec assez d'argent on gagne" — si tant est, un contre-courant s'est renforcé. En guise de réponse honnête, laissez-moi écrire cet autre versant aussi.

Le cas symbolique est la série de coups où le chinois DeepSeek a publié des modèles s'approchant de la pointe avec un budget relativement modeste, et a été dit avoir "réinitialisé le plancher des coûts". Des techniques pour bâtir les mêmes performances à un coût inférieur de plusieurs ordres de grandeur — architectures efficientes, Mixture of Experts (MoE), distillation (transférer la connaissance d'un grand modèle vers un petit) et travail soigné sur la qualité des données — ont été démontrées les unes après les autres, enfonçant un coin dans la formule "capital colossal = victoire". De fait, la croissance du calcul de pointe devrait ralentir de 10x par an à environ 3–4x à partir de 2026, et l'attention de l'industrie passe de "il suffit de voir plus grand" à "comment délivrer les mêmes performances à moindre coût et avec moins d'énergie".

Le tableau exact est donc celui-ci : "La course à la mise à jour des 'performances de pointe' est une guerre d'argent. Mais la course à la livraison de performances 'suffisamment bonnes' à bas coût est une lutte d'esprit et d'efficience." La plupart des modèles que nous utilisons au quotidien bénéficient de la seconde, devenant moins chers, plus rapides et plus économes en énergie année après année. Comme écrit dans jusqu'où on peut aller avec l'offre gratuite, d'ici 2026 même les offres gratuites ont atteint un niveau pratique — un fruit tendu aux utilisateurs par le reflux de l'efficience.

8. La suite — le mur de "l'énergie et de la physique" après l'argent

Alors, peut-on monter à l'échelle indéfiniment juste en empilant l'argent ? Non — et c'est le nouveau mur qui a commencé à apparaître en 2026. Au-delà d'environ 10²⁷ FLOPs, le goulot d'étranglement cesse d'être "le budget pour acheter des GPU". Ce qui bloque le chemin, c'est plutôt —

Énergie : peut-on fournir en continu une électricité à l'échelle du gigawatt en un seul lieu ? Désormais un problème de centrales électriques et de réseaux
Interconnexion : la bande passante pour synchroniser des dizaines à des centaines de milliers de GPU sans latence. Il existe un plafond physique à ce qu'un seul gigantesque travail d'entraînement peut gérer
Données : le texte d'entraînement de haute qualité se tarit lui-même (il y a une limite à la quantité de bons écrits que l'humanité a produits)

Ce qui vient après "la guerre d'argent", c'est "une guerre d'énergie, de physique et d'esprit". C'est pourquoi les entreprises se tournent désormais vers l'investissement dans le nucléaire, le développement de leurs propres puces dédiées, l'exploitation de données synthétiques et la recherche d'architectures efficientes. L'ère où l'on pouvait gagner en jetant de l'argent se mue, ironiquement, en une ère où l'on ne peut pas gagner avec l'argent seul.

Résumé

La vraie nature d'un LLM est "un gigantesque dispositif de prédiction où des centaines de milliards à plus de mille milliards de 'poids' calculent sans cesse la probabilité du mot suivant". L'Attention du Transformer gère la "pondération dépendante du contexte", et le pré-entraînement (qui consomme l'essentiel du calcul, de l'énergie et de l'argent) plus le post-entraînement (RLHF, entraînement au raisonnement) rendent les boutons intelligents. L'intelligence n'a rien de magique — c'est un sous-produit de l'entraînement à l'extrême de la "devinette du mot suivant" sur d'énormes quantités de texte.

Côté énergie : une requête courte ≈ 0,43 Wh, un raisonnement lourd 33 Wh+ (environ 70x la version légère), et le seul entraînement de GPT-3 1,287 MWh. À l'échelle de la société, c'est l'inférence, et non l'entraînement, qui pèse le plus lourd sur la durée de vie d'un modèle, et l'énergie mondiale des centres de données devrait doubler pour atteindre 945 TWh d'ici 2030 (IEA). "Tout faire sur le modèle le plus haut de gamme" est un luxe en énergie comme en coût ; le geste malin est de choisir le modèle selon le poids de la tâche.

Et la question centrale — "le développement de LLM est-il une guerre d'argent ? La réponse est 'essentiellement vrai, limité au pré-entraînement de la pointe' (200–500 M$ par session de classe GPT-5 ; 1–3 Md$ anticipés pour 2027). Mais le reflux "l'argent seul ne suffit pas" est fort lui aussi (la réinitialisation du plancher par DeepSeek, l'efficience, la distillation). Mettre à jour les performances de pointe est une guerre d'argent ; délivrer des performances pratiques à bas coût est une guerre d'esprit — cette structure à deux couches est la réalité de 2026. Et vient ensuite le mur physique de l'énergie, de l'interconnexion et de la pénurie de données. Comprendre un LLM non comme une "boîte magique" mais comme une "machine à probabilités alimentée à l'électricité" vous évite d'être emporté par l'enthousiasme comme par la peur. Pour en savoir plus, voyez qu'est-ce qu'un LLM (introduction), la fenêtre de contexte, et la comparaison des offres gratuites.

FAQ

Q. Plus de paramètres (poids) signifie-t-il toujours plus intelligent ?
A. "Plus gros était plus intelligent" a longtemps valu presque universellement, mais en 2026 ce n'est plus si simple. Même à nombre de paramètres égal, les performances varient grandement selon la qualité des données, le post-entraînement et l'ingéniosité architecturale. Les modèles petits-mais-intelligents (produits de la distillation et d'une conception efficiente) se sont multipliés, et "nombre de paramètres = intelligence" ne tient plus. Nous sommes entrés dans une ère du "comment c'est entraîné" plutôt que du "combien".

Q. Un LLM "comprend"-il vraiment, ou est-ce de la mémorisation par cœur ?
A. Même les experts ne sont pas d'accord — c'est une question difficile. Ce qui est certain, c'est qu'"il montre une généralisation que la mémorisation par cœur ne peut expliquer" (il résout des problèmes absents de son entraînement). Que ce soit "la même compréhension du sens que les humains" est une question distincte sans réponse claire. En pratique, traitez-le comme "un dispositif de prédiction extrêmement avancé qui se comporte comme s'il comprenait". C'est précisément pourquoi il se trompe avec autant d'assurance (hallucination).

Q. Puis-je construire mon propre LLM ?
A. "De classe pointe", c'est impossible pour un particulier (cela nécessite des centaines de millions de dollars et des dizaines de milliers de GPU). Mais entraîner un petit modèle, ou affiner un modèle ouvert existant, est faisable même pour des particuliers. De plus, la plupart des besoins pratiques sont satisfaits en utilisant des modèles existants via l'API. Il n'y a presque aucun besoin de "tout construire soi-même".

Q. La consommation d'énergie de l'IA est-elle un problème sérieux pour la planète ?
A. C'est un fait que l'ampleur devient non négligeable (l'énergie des centres de données représente environ 1,5 % de celle du monde, devant doubler d'ici 2030 — IEA). Mais l'efficience progresse aussi furieusement en parallèle ; "l'énergie par token" baisse année après année. Le problème tient moins à "l'efficience d'une requête" qu'à "la croissance explosive du volume total × fréquence". Dans quelle mesure le renouvelable, le nucléaire et les puces dédiées pourront compenser cela est l'enjeu futur.

Q. Au final, qu'est-ce qui vaut la peine d'être su en tant qu'utilisateur ?
A. Trois choses. (1) Le modèle est un "prédicteur de probabilités", il se trompe donc même sur un ton assuré (vérifiez les infos importantes). (2) Les questions lourdes coûtent cher en énergie et en argent, choisissez donc le modèle selon le poids de la tâche (les petites courses aux modèles légers). (3) Les "performances de pointe" sont une guerre d'argent, mais les "performances pratiques" deviennent moins chères et plus économes en énergie chaque année (attendre l'évolution des modèles gratuits/bon marché est aussi malin). Plus vous connaissez le mécanisme, plus vous pouvez utiliser l'IA à moindre coût et avec astuce.

Comment fonctionnent vraiment les LLM — les poids qui prédisent les mots, la consommation d'énergie et pourquoi le développement est une guerre d'argent

Disséquer un LLM sous trois angles

1. Un LLM ne fait que deviner sans cesse "le mot suivant"

2. Que sont les "poids" ? — Mille milliards de boutons font l'intelligence

Comment les "poids" se transforment en langage

3. Deux étapes d'apprentissage — pré-entraînement et post-entraînement (RLHF)

4. L'inférence — l'instant où votre question devient de l'électricité

5. L'énergie — combien d'électricité un LLM consomme-t-il ?

La consommation des LLM en chiffres

6. "Le développement est une guerre d'argent" est-ce vrai ?

Trajectoire du coût d'entraînement de pointe

7. Mais l'argent seul ne suffit pas — le reflux de l'efficience

8. La suite — le mur de "l'énergie et de la physique" après l'argent

Résumé

FAQ

Articles similaires

Dates de coupure des connaissances de l'IA générative : ChatGPT, Claude, Gemini et plus

Qu'est-ce que l'IA générative ? Comment elle se distingue de l'IA traditionnelle

Forces et faiblesses de l'IA générative — Ce qu'elle peut et ne peut pas faire avec exemples concrets

Qu'est-ce qu'un LLM ? Fonctionnement, modèles majeurs et cas d'usage

Commentaires

Laisser un commentaire