Sommaire
- 1. Un LLM ne fait que deviner sans cesse "le mot suivant"
- 2. Que sont les "poids" ? — Mille milliards de boutons font l'intelligence
- 3. Deux étapes d'apprentissage — pré-entraînement et post-entraînement (RLHF)
- 4. L'inférence — l'instant où votre question devient de l'électricité
- 5. L'énergie — combien d'électricité un LLM consomme-t-il ?
- 6. "Le développement est une guerre d'argent" est-ce vrai ?
- 7. Mais l'argent seul ne suffit pas — le reflux de l'efficience
- 8. La suite — le mur de "l'énergie et de la physique" après l'argent
- Résumé
- FAQ
GPT-4, sorti en 2023, aurait été entraîné en faisant tourner environ 25 000 GPU sur Microsoft Azure pendant des mois. La puissance de calcul investie dans cette seule session d'entraînement représentait à peu près 2×10²⁵ opérations en virgule flottante (FLOPs). Même le seul entraînement de l'ancien GPT-3 a consommé environ 1,287 MWh d'électricité — soit plus d'un siècle de consommation pour un foyer moyen, dépensé pour bâtir un seul modèle. Derrière le banal "tiens, résume-moi ça" que nous tapons se cache un monde de physique et des montagnes d'argent.
Cet article creuse en profondeur "le fonctionnement réel d'un LLM (grand modèle de langage)", sous trois angles : mécanisme, énergie et argent. Plus précisément — (1) pourquoi un LLM peut-il produire du langage à partir d'un ensemble de boutons appelés "poids (paramètres)", (2) combien d'électricité une question ou une session d'entraînement consomme-t-elle, et (3) l'affirmation selon laquelle "le développement de LLM de pointe est une guerre d'argent" est-elle vraie ? La réponse courte à la troisième : "Pour l'extrême pointe, c'est essentiellement vrai — mais un contre-courant où 'l'argent seul ne suffit pas' s'est renforcé en 2026." Voilà le tableau exact.
Ma position d'emblée : l'"intelligence" d'un LLM n'est ni magie ni conscience — c'est le résultat d'une gigantesque machine à prédiction de probabilités façonnée à coups d'électricité. Comprendre le mécanisme dissout à la fois l'enthousiasme excessif et la peur excessive. Cet article va jusqu'à un niveau intermédiaire. Si vous partez de "qu'est-ce qu'un LLM au juste", lisez d'abord qu'est-ce qu'un LLM (introduction) ; pour la longueur de contexte voyez la fenêtre de contexte ; pour les tarifs voyez l'API d'IA pour débutants.
Disséquer un LLM sous trois angles
— De quoi est faite l'intelligence, l'énergie qu'elle brûle, l'argent qu'elle coûte
L'intelligence d'un LLM n'a rien de magique. Elle est le résultat d'une gigantesque machine à probabilités façonnée à coups d'énergie et d'argent.
Connaissez le mécanisme, et l'enthousiasme comme la peur se dissolvent.
1. Un LLM ne fait que deviner sans cesse "le mot suivant"
Cela peut surprendre, mais ChatGPT, Claude et Gemini font tous essentiellement une seule chose. "À partir du texte jusqu'ici, calculer la probabilité du mot le plus vraisemblable (plus précisément, du 'token') comme suite, en choisir un, et les aligner." C'est tout. Donnez-lui "le chat est sur le ___" et il attribue des probabilités à des candidats comme "tapis", "canapé", "sol" et émet celui de plus haute probabilité (ou un échantillonné selon la probabilité). Il répète cela un token à la fois jusqu'à ce que le texte se termine.
Voici la question qui déroute beaucoup de gens. "Comment un simple jeu de devinette de mots peut-il résumer des articles ou écrire du code ?" La réponse : "Pour vraiment deviner le mot suivant avec précision, il n'a d'autre choix que de 'comprendre' la structure du monde dans une certaine mesure." Deviner "la capitale du Japon est ___" exige de la géographie ; "3 + 5 = ___" exige de l'arithmétique ; "la cause de ce bug est ___" exige des connaissances en programmation détenues en interne. Comme sous-produit de l'entraînement à l'extrême de la "devinette du mot suivant" sur d'énormes quantités de texte, des connaissances et un raisonnement émergent. Telle est la nature étrange et essentielle des LLM.
Alors, qu'est-ce qui calcule cette "probabilité du mot suivant" ? Comme annoncé, l'acteur principal est une pile vertigineuse de nombres appelés "poids (paramètres)". Le chapitre suivant révèle ce qu'ils sont.
2. Que sont les "poids" ? — Mille milliards de boutons font l'intelligence
Pour résumer l'intérieur d'un LLM en une analogie : "un gigantesque dispositif de calcul doté de centaines de milliards à plus de mille milliards de 'boutons'." Chaque bouton est un "poids (paramètre)", et lorsque le signal d'un mot d'entrée passe à la couche suivante, il décide "quels signaux renforcer ou affaiblir, et de combien". GPT-3 en avait environ 175 milliards ; les derniers modèles de pointe dépasseraient les mille milliards. Le réglage de ces innombrables boutons est exactement ce qu'est la "connaissance" apprise du modèle.
Comment les "poids" se transforment en langage
"Apprendre", c'est le travail consistant à tourner peu à peu ces mille milliards de boutons vers la bonne réponse.
Le réglage final des boutons (les poids) = la "connaissance" même du modèle.
Le Transformer, apparu en 2017, est le fondement des LLM modernes. Son cœur est le mécanisme d'"Attention", qui juge dynamiquement par les poids "quel mot de la phrase importe pour le mot courant". Que "banque" dans "j'ai vu la rivière devant la banque" désigne un établissement financier ou une berge se décide en pondérant sa relation aux autres mots du contexte — et cette "pondération dépendante du contexte" est précisément la raison pour laquelle un LLM peut renvoyer des réponses cohérentes même sur de longs passages. Quand on dit "un truc à propos de pondération", on parle exactement de cette Attention et des milliers de milliards de multiplications qui la sous-tendent.
Le point crucial : ces poids n'ont pas été réglés à la main. Au départ, ils ne sont qu'un amas de nombres aléatoires, dénués de sens. Le sens y est instillé par l'"apprentissage". Alors, comment cet apprentissage se déroule-t-il ?
3. Deux étapes d'apprentissage — pré-entraînement et post-entraînement (RLHF)
L'apprentissage d'un LLM se divise globalement en deux étapes — le processus par lequel les "boutons aléatoires" du chapitre précédent deviennent des "boutons intelligents".
Étape 1 : pré-entraînement. On lui donne du texte à l'échelle d'Internet (livres, web, code) et on lui fait inlassablement "deviner le mot suivant". À chaque erreur, tous les paramètres sont ajustés d'une infime quantité dans la direction qui réduit l'erreur (cet algorithme d'ajustement est la fameuse "rétropropagation + descente de gradient"). Répétez cela sur des milliers de milliards de tokens, et les fondations de la grammaire, des connaissances et du raisonnement se gravent dans les boutons. Le pré-entraînement consomme l'essentiel de la puissance de calcul, de l'énergie et de l'argent. Les astronomiques ~2×10²⁵ FLOPs d'un modèle de classe GPT-4 se brûlent ici.
Étape 2 : post-entraînement. Un modèle uniquement pré-entraîné est "savant mais mal élevé". On utilise donc le RLHF (apprentissage par renforcement à partir de retours humains) et des techniques similaires pour lui enseigner "des façons utiles et sûres de répondre". De plus, à partir de 2025, le poids du post-entraînement qui exerce le raisonnement long (réfléchir soigneusement), l'usage d'outils et le comportement agentique a explosé, au point que pour les familles Claude, GPT et Gemini, le post-entraînement représente désormais environ 15–25 % de la puissance de calcul totale. La raison pour laquelle les modèles récents "réfléchissent avant de répondre" autant tient à l'évolution de ce post-entraînement. Le comportement multi-agent est lui aussi instillé ici.
4. L'inférence — l'instant où votre question devient de l'électricité
Si l'entraînement est "le chantier de réglage des boutons", alors l'inférence est "l'exploitation consistant à produire réellement des réponses à l'aide des boutons finalisés". Chaque fois que vous tapez une question dans ChatGPT, des milliers de milliards de multiplications parcourent près de mille milliards de boutons, et les tokens sont générés un à la fois. Nous avons vu à quel point l'entraînement est lourd — mais à l'échelle de la société dans son ensemble, c'est l'inférence, et non l'entraînement, qui dévore l'énergie.
La raison est simple : l'entraînement n'a fondamentalement lieu qu'une fois par modèle, mais l'inférence s'exécute des centaines de millions de fois par jour dans le monde. Selon certaines estimations, l'inférence représente 80–90 % de tout le calcul d'IA, et d'ici 2030, 75 % de la demande d'énergie de l'IA devrait être de l'inférence. "Une question, ce n'est presque pas d'électricité" — vrai, une seule est minuscule. Mais "minuscule × des centaines de millions × chaque jour" s'additionne en un problème énergétique à l'échelle d'une nation. Regardons des chiffres concrets ensuite.
5. L'énergie — combien d'électricité un LLM consomme-t-il ?
On dit souvent que "l'IA dévore l'énergie", mais combien exactement ? Voici les chiffres représentatifs publiés en 2026.
La consommation des LLM en chiffres
une question courte
~70x la version légère
(une ancienne génération)
prévision 2024→2030
Même une seule requête courte (0,43Wh), portée à 700 M/jour, équivaut à la consommation de ~35 000 foyers américains.
Un seul rack de centre de données tire jusqu'à 10x l'ancienne norme ; un DC d'IA dédié dévore 20MW–1GW.
Ce qui ressort, c'est que "l'efficience énergétique diffère d'ordres de grandeur d'un modèle à l'autre". Une question courte à un modèle léger reste sous 0,5 Wh, mais lancer une question lourde à un modèle de raisonnement à réflexion longue (le type qui rumine avant de répondre) consomme 33 Wh+ — environ 70x la version légère. Comme évoqué dans le piège de la consommation de tokens comme charge de travail, "tout faire sur le modèle le plus haut de gamme" est un luxe en énergie comme en coût. Envoyer les petites courses à un modèle léger est bon pour la planète comme pour votre portefeuille. L'énergie mondiale des centres de données a atteint 415 TWh en 2024 (environ 1,5 % du total mondial) et devrait doubler pour atteindre 945 TWh d'ici 2030 — l'IA étant le principal moteur de cette croissance.
6. "Le développement est une guerre d'argent" est-ce vrai ?
Voici la question qui vous intriguait le plus. "Le développement de LLM de pointe est-il une guerre d'argent ?" La conclusion vérifiée d'abord : "Limité au pré-entraînement de la pointe, c'est essentiellement vrai." Les chiffres le confirment.
Trajectoire du coût d'entraînement de pointe
Le calcul d'entraînement de pointe a longtemps crû de 4–10x par an.
Une session d'entraînement de classe GPT-5 / Gemini Ultra = 200–500 M$ — une guerre d'argent en effet.
Concrètement, entraîner une fois un modèle de classe GPT-5 / Gemini Ultra est estimé à 200–500 millions de dollars, et certaines prévisions situent la pointe de fin 2027 à 1–3 milliards de dollars par session. Et il s'agit là d'"une session réussie" — derrière elle se cachent des essais-erreurs ratés, la préparation des données, les salaires et l'infrastructure d'inférence. À cela s'ajoute que chaque GPU coûte des milliers de dollars ; en faire tourner des dizaines de milliers pendant des mois fait grimper la facture d'électricité. Un mur d'argent qu'aucune "idée brillante" ni "algorithme astucieux" ne peut à lui seul franchir se dresse à l'entrée de la pointe. En ce sens, "guerre d'argent" n'a rien d'exagéré — c'est un fait. C'est pourquoi seuls une poignée d'acteurs ayant sécurisé d'énormes capitaux — OpenAI, Google, Anthropic, Meta, xAI — peuvent se battre à l'avant-garde.
7. Mais l'argent seul ne suffit pas — le reflux de l'efficience
Le chapitre précédent disait "la guerre d'argent est réelle". Mais clore l'histoire là-dessus reviendrait à mal interpréter la réalité de 2026. Il n'est nullement vrai qu'"avec assez d'argent on gagne" — si tant est, un contre-courant s'est renforcé. En guise de réponse honnête, laissez-moi écrire cet autre versant aussi.
Le cas symbolique est la série de coups où le chinois DeepSeek a publié des modèles s'approchant de la pointe avec un budget relativement modeste, et a été dit avoir "réinitialisé le plancher des coûts". Des techniques pour bâtir les mêmes performances à un coût inférieur de plusieurs ordres de grandeur — architectures efficientes, Mixture of Experts (MoE), distillation (transférer la connaissance d'un grand modèle vers un petit) et travail soigné sur la qualité des données — ont été démontrées les unes après les autres, enfonçant un coin dans la formule "capital colossal = victoire". De fait, la croissance du calcul de pointe devrait ralentir de 10x par an à environ 3–4x à partir de 2026, et l'attention de l'industrie passe de "il suffit de voir plus grand" à "comment délivrer les mêmes performances à moindre coût et avec moins d'énergie".
Le tableau exact est donc celui-ci : "La course à la mise à jour des 'performances de pointe' est une guerre d'argent. Mais la course à la livraison de performances 'suffisamment bonnes' à bas coût est une lutte d'esprit et d'efficience." La plupart des modèles que nous utilisons au quotidien bénéficient de la seconde, devenant moins chers, plus rapides et plus économes en énergie année après année. Comme écrit dans jusqu'où on peut aller avec l'offre gratuite, d'ici 2026 même les offres gratuites ont atteint un niveau pratique — un fruit tendu aux utilisateurs par le reflux de l'efficience.
8. La suite — le mur de "l'énergie et de la physique" après l'argent
Alors, peut-on monter à l'échelle indéfiniment juste en empilant l'argent ? Non — et c'est le nouveau mur qui a commencé à apparaître en 2026. Au-delà d'environ 10²⁷ FLOPs, le goulot d'étranglement cesse d'être "le budget pour acheter des GPU". Ce qui bloque le chemin, c'est plutôt —
- Énergie : peut-on fournir en continu une électricité à l'échelle du gigawatt en un seul lieu ? Désormais un problème de centrales électriques et de réseaux
- Interconnexion : la bande passante pour synchroniser des dizaines à des centaines de milliers de GPU sans latence. Il existe un plafond physique à ce qu'un seul gigantesque travail d'entraînement peut gérer
- Données : le texte d'entraînement de haute qualité se tarit lui-même (il y a une limite à la quantité de bons écrits que l'humanité a produits)
Ce qui vient après "la guerre d'argent", c'est "une guerre d'énergie, de physique et d'esprit". C'est pourquoi les entreprises se tournent désormais vers l'investissement dans le nucléaire, le développement de leurs propres puces dédiées, l'exploitation de données synthétiques et la recherche d'architectures efficientes. L'ère où l'on pouvait gagner en jetant de l'argent se mue, ironiquement, en une ère où l'on ne peut pas gagner avec l'argent seul.
Résumé
La vraie nature d'un LLM est "un gigantesque dispositif de prédiction où des centaines de milliards à plus de mille milliards de 'poids' calculent sans cesse la probabilité du mot suivant". L'Attention du Transformer gère la "pondération dépendante du contexte", et le pré-entraînement (qui consomme l'essentiel du calcul, de l'énergie et de l'argent) plus le post-entraînement (RLHF, entraînement au raisonnement) rendent les boutons intelligents. L'intelligence n'a rien de magique — c'est un sous-produit de l'entraînement à l'extrême de la "devinette du mot suivant" sur d'énormes quantités de texte.
Côté énergie : une requête courte ≈ 0,43 Wh, un raisonnement lourd 33 Wh+ (environ 70x la version légère), et le seul entraînement de GPT-3 1,287 MWh. À l'échelle de la société, l'inférence représente 80–90 % de l'énergie, et l'énergie mondiale des centres de données devrait doubler pour atteindre 945 TWh d'ici 2030. "Tout faire sur le modèle le plus haut de gamme" est un luxe en énergie comme en coût ; le geste malin est de choisir le modèle selon le poids de la tâche.
Et la question centrale — "le développement de LLM est-il une guerre d'argent ? La réponse est 'essentiellement vrai, limité au pré-entraînement de la pointe' (200–500 M$ par session de classe GPT-5 ; 1–3 Md$ anticipés pour 2027). Mais le reflux "l'argent seul ne suffit pas" est fort lui aussi (la réinitialisation du plancher par DeepSeek, l'efficience, la distillation). Mettre à jour les performances de pointe est une guerre d'argent ; délivrer des performances pratiques à bas coût est une guerre d'esprit — cette structure à deux couches est la réalité de 2026. Et vient ensuite le mur physique de l'énergie, de l'interconnexion et de la pénurie de données. Comprendre un LLM non comme une "boîte magique" mais comme une "machine à probabilités alimentée à l'électricité" vous évite d'être emporté par l'enthousiasme comme par la peur. Pour en savoir plus, voyez qu'est-ce qu'un LLM (introduction), la fenêtre de contexte, et la comparaison des offres gratuites.
FAQ
Q. Plus de paramètres (poids) signifie-t-il toujours plus intelligent ?
A. "Plus gros était plus intelligent" a longtemps valu presque universellement, mais en 2026 ce n'est plus si simple. Même à nombre de paramètres égal, les performances varient grandement selon la qualité des données, le post-entraînement et l'ingéniosité architecturale. Les modèles petits-mais-intelligents (produits de la distillation et d'une conception efficiente) se sont multipliés, et "nombre de paramètres = intelligence" ne tient plus. Nous sommes entrés dans une ère du "comment c'est entraîné" plutôt que du "combien".
Q. Un LLM "comprend"-il vraiment, ou est-ce de la mémorisation par cœur ?
A. Même les experts ne sont pas d'accord — c'est une question difficile. Ce qui est certain, c'est qu'"il montre une généralisation que la mémorisation par cœur ne peut expliquer" (il résout des problèmes absents de son entraînement). Que ce soit "la même compréhension du sens que les humains" est une question distincte sans réponse claire. En pratique, traitez-le comme "un dispositif de prédiction extrêmement avancé qui se comporte comme s'il comprenait". C'est précisément pourquoi il se trompe avec autant d'assurance (hallucination).
Q. Puis-je construire mon propre LLM ?
A. "De classe pointe", c'est impossible pour un particulier (cela nécessite des centaines de millions de dollars et des dizaines de milliers de GPU). Mais entraîner un petit modèle, ou affiner un modèle ouvert existant, est faisable même pour des particuliers. De plus, la plupart des besoins pratiques sont satisfaits en utilisant des modèles existants via l'API. Il n'y a presque aucun besoin de "tout construire soi-même".
Q. La consommation d'énergie de l'IA est-elle un problème sérieux pour la planète ?
A. C'est un fait que l'ampleur devient non négligeable (l'énergie des centres de données représente environ 1,5 % de celle du monde, devant doubler d'ici 2030). Mais l'efficience progresse aussi furieusement en parallèle ; "l'énergie par token" baisse année après année. Le problème tient moins à "l'efficience d'une requête" qu'à "la croissance explosive du volume total × fréquence". Dans quelle mesure le renouvelable, le nucléaire et les puces dédiées pourront compenser cela est l'enjeu futur.
Q. Au final, qu'est-ce qui vaut la peine d'être su en tant qu'utilisateur ?
A. Trois choses. (1) Le modèle est un "prédicteur de probabilités", il se trompe donc même sur un ton assuré (vérifiez les infos importantes). (2) Les questions lourdes coûtent cher en énergie et en argent, choisissez donc le modèle selon le poids de la tâche (les petites courses aux modèles légers). (3) Les "performances de pointe" sont une guerre d'argent, mais les "performances pratiques" deviennent moins chères et plus économes en énergie chaque année (attendre l'évolution des modèles gratuits/bon marché est aussi malin). Plus vous connaissez le mécanisme, plus vous pouvez utiliser l'IA à moindre coût et avec astuce.