GPT-4, 2023 veröffentlicht, wurde Schätzungen zufolge trainiert, indem etwa 25.000 GPUs auf Microsoft Azure über Monate hinweg liefen. Die Rechenleistung, die in diesen einen Trainingslauf floss, betrug ungefähr 2×10²⁵ Gleitkommaoperationen (FLOPs). Schon das Training des älteren GPT-3 allein verbrauchte etwa 1.287 MWh Strom — mehr als ein Jahrhundert an Energie für einen durchschnittlichen Haushalt, aufgewendet, um nur ein einziges Modell zu bauen. Hinter dem beiläufigen "hey, fass das mal zusammen", das wir eintippen, liegt eine Welt aus Physik und Stapeln von Bargeld.

Dieser Artikel gräbt tief in die Frage, "wie ein LLM (großes Sprachmodell) tatsächlich funktioniert", aus drei Richtungen: Mechanismus, Strom und Geld. Konkret — (1) Warum kann ein LLM Sprache aus einer Sammlung von Reglern namens "Gewichte (Parameter)" erzeugen, (2) wie viel Strom verbraucht eine Frage oder ein Trainingslauf, und (3) stimmt die Behauptung, dass "die Entwicklung von Spitzen-LLMs eine Geldschlacht" sei? Die kurze Antwort auf die dritte: "Für die absolute Spitze ist das im Wesentlichen wahr — doch eine Gegenströmung, bei der 'Geld allein nicht gewinnt', ist 2026 stärker geworden." Das ist das genaue Bild.

Meine Haltung gleich vorweg: die "Intelligenz" eines LLM ist weder Magie noch Bewusstsein — sie ist das Ergebnis davon, eine riesige Wahrscheinlichkeits-Vorhersagemaschine mit Strom in Form zu prügeln. Den Mechanismus zu verstehen löst sowohl übertriebenen Hype als auch übertriebene Angst auf. Dieser Artikel geht auf mittleres Niveau in die Tiefe. Wenn du bei "was ist ein LLM überhaupt" anfängst, lies zuerst was ist ein LLM (Einsteiger); zur Kontextlänge siehe das Kontextfenster; zu den Preisen siehe AI-API für Einsteiger.

SO FUNKTIONIEREN LLMs · GEWICHTE × STROM × GELD

Ein LLM aus drei Richtungen seziert

— Woraus Intelligenz besteht, der Strom, den sie verbrennt, das Geld, das sie kostet

Mechanismus
Gewichte sagen das nächste Wort voraus
Hunderte Milliarden bis über 1 Bio. Regler, die nur Wahrscheinlichkeiten berechnen
Strom
Eine Anfrage ≈ 0,4–33 Wh
Ein Trainingslauf = über 100 Haushaltsjahre an Strom
Geld
$200–500M an der Spitze
Bis 2027 werden Trainingsläufe von $1–3B prognostiziert

Die Klugheit eines LLM ist keine Magie. Sie ist das Ergebnis davon, eine riesige Wahrscheinlichkeitsmaschine mit Strom und Geld in Form zu prügeln.
Kenne den Mechanismus, und sowohl Hype als auch Angst lösen sich auf.

1. Ein LLM rät einfach immer weiter "das nächste Wort"

Es mag überraschend klingen, aber ChatGPT, Claude und Gemini tun im Kern alle dasselbe. "Berechne anhand des bisherigen Textes die Wahrscheinlichkeit des wahrscheinlichsten nächsten Wortes (genauer gesagt 'Token') als Fortsetzung, wähle eines aus und reihe sie aneinander." Das ist alles. Füttert man es mit "die Katze sitzt auf der ___", weist es Kandidaten wie "Matte", "Couch", "Boden" Wahrscheinlichkeiten zu und gibt das wahrscheinlichste aus (oder eines, das nach Wahrscheinlichkeit gezogen wird). Es wiederholt dies Token für Token, bis der Text endet.

Hier ist die Frage, an der viele Menschen scheitern. "Wie kann ein bloßes Wort-Ratespiel Aufsätze zusammenfassen oder Code schreiben?" Die Antwort: "Um das nächste Wort wirklich genau zu erraten, hat es keine andere Wahl, als die Struktur der Welt bis zu einem gewissen Grad zu 'verstehen'." "Die Hauptstadt Japans ist ___" zu erraten erfordert Geografie; "3 + 5 = ___" erfordert Arithmetik; "die Ursache dieses Bugs ist ___" erfordert intern vorgehaltenes Programmierwissen. Als Nebenprodukt davon, das "Erraten des nächsten Wortes" auf gewaltigen Textmengen bis zum Äußersten zu trainieren, entstehen Wissen und logisches Schließen. Das ist die seltsame und essenzielle Natur von LLMs.

Was berechnet also diese "Wahrscheinlichkeit des nächsten Wortes"? Wie angedeutet ist der Hauptdarsteller ein gewaltiger Haufen von Zahlen namens "Gewichte (Parameter)". Das nächste Kapitel enthüllt, was sie sind.

2. Was sind "Gewichte"? — Eine Billion Regler erzeugen Intelligenz

Um das Innere eines LLM in einer Analogie zu fassen: "ein riesiges Rechengerät mit Hunderten Milliarden bis über einer Billion 'Reglern'." Jeder Regler ist ein "Gewicht (Parameter)", und wenn das Signal eines Eingabewortes an die nächste Schicht weitergegeben wird, entscheidet er, "welche Signale verstärkt oder abgeschwächt werden und um wie viel". GPT-3 hatte etwa 175 Milliarden; von den neuesten Spitzenmodellen wird gesagt, dass sie eine Billion übersteigen. Die Einstellung dieser gewaltigen Regler ist genau das, was das gelernte "Wissen" des Modells ausmacht.

GEWICHTE

Wie aus "Gewichten" Sprache wird

① Tokenisieren
Text in Wortfragmente (Tokens) zerlegen und in numerische Vektoren umwandeln
② Durch Gewichte leiten
Dutzende Transformer-Schichten transformieren Signale durch Multiplikation mit Gewichten
③ Attention
Gewichte beurteilen, auf welche Wörter im Satz man sich konzentrieren soll
④ Wahrscheinlichkeiten ausgeben
Die Wahrscheinlichkeitsverteilung des nächsten Tokens berechnen und eines auswählen

"Lernen" ist die Arbeit, diese Billion Regler Stück für Stück in Richtung der richtigen Antwort zu drehen.
Die fertigen Reglereinstellungen (Gewichte) = das "Wissen" des Modells selbst.

Der Transformer, der 2017 auftauchte, ist die Grundlage moderner LLMs. Sein Herzstück ist der "Attention"-Mechanismus, der durch Gewichte dynamisch beurteilt, "welches Wort im Satz für das aktuelle Wort wichtig ist". Ob "Bank" in "sah den Fluss vor der Bank" ein Geldinstitut oder ein Flussufer meint, wird entschieden, indem die Beziehung zu den anderen Wörtern im Kontext gewichtet wird — und diese "kontextabhängige Gewichtung" ist genau der Grund, warum ein LLM auch über lange Passagen hinweg kohärente Antworten liefern kann. Wenn Leute sagen "irgendwas mit Gewichtung", meinen sie genau diese Attention und die Billionen von Multiplikationen dahinter.

Der entscheidende Punkt: diese Gewichte wurden nicht von Hand eingestellt. Anfangs sind sie ein Klumpen aus Zufallszahlen, bedeutungslos. Bedeutung wird durch "Lernen" eingeprägt. Wie geschieht dieses Lernen also?

3. Zwei Lernphasen — Pre-Training und Post-Training (RLHF)

Das Lernen eines LLM teilt sich grob in zwei Phasen — der Prozess, durch den die "Zufallsregler" des vorigen Kapitels zu "klugen Reglern" werden.

Phase 1: Pre-Training. Man füttert es mit Text in Internetgröße (Bücher, das Web, Code) und lässt es unermüdlich "das nächste Wort erraten". Jedes Mal, wenn es sich irrt, werden alle Parameter um einen winzigen Betrag angepasst, in die Richtung, die den Fehler verkleinert (dieser Anpassungsalgorithmus ist die berühmte "Backpropagation + Gradientenabstieg"). Wiederholt man dies über Billionen von Tokens, werden die Grundlagen von Grammatik, Wissen und logischem Schließen in die Regler eingraviert. Das Pre-Training verschlingt den Großteil der Rechenleistung, den Großteil des Stroms und den Großteil des Geldes. Die astronomischen ~2×10²⁵ FLOPs eines Modells der GPT-4-Klasse verbrennen hier.

Phase 2: Post-Training. Ein nur vortrainiertes Modell ist "wissend, aber schlecht erzogen". Daher bringen ihm RLHF (Reinforcement Learning aus menschlichem Feedback) und Ähnliches "hilfreiche, sichere Arten zu antworten" bei. Darüber hinaus ist ab 2025 das Gewicht des Post-Trainings, das langes logisches Schließen (sorgfältiges Nachdenken), Werkzeugnutzung und agentisches Verhalten eintrainiert, sprunghaft gestiegen — so weit, dass das Post-Training bei den Familien Claude, GPT und Gemini inzwischen etwa 15–25 % der gesamten Rechenleistung einnimmt. Der Grund, warum neuere Modelle so sehr "nachdenken, bevor sie antworten", ist die Weiterentwicklung dieses Post-Trainings. Multi-Agent-Verhalten wird ebenfalls hier eingeprägt.

4. Inferenz — der Moment, in dem deine Frage zu Strom wird

Wenn Training "die Bauarbeit ist, die Regler einzustellen", dann ist Inferenz "der Betrieb, mit den fertigen Reglern tatsächlich Antworten zu erzeugen". Jedes Mal, wenn du eine Frage in ChatGPT eintippst, laufen Billionen von Multiplikationen durch beinahe eine Billion Regler, und Tokens werden eines nach dem anderen erzeugt. Wir haben gesehen, wie schwer das Training ist — aber für die Gesellschaft als Ganzes ist es die Inferenz, nicht das Training, die den Strom verschlingt.

Der Grund ist einfach: das Training läuft im Grunde einmal pro Modell, aber die Inferenz läuft weltweit Hunderte Millionen Mal am Tag. Nach manchen Schätzungen macht die Inferenz 80–90 % aller KI-Rechenleistung aus, und bis 2030 wird prognostiziert, dass 75 % des KI-Strombedarfs auf Inferenz entfallen. "Eine Frage ist kaum Strom" — stimmt, eine ist winzig. Aber "winzig × Hunderte Millionen × jeden Tag" summiert sich zu einem Stromproblem von nationaler Größenordnung. Schauen wir uns als Nächstes konkrete Zahlen an.

5. Strom — wie viel Energie verschlingt ein LLM?

"KI verschlingt Strom" wird oft gesagt, aber wie viel genau? Hier sind die repräsentativen Zahlen, wie sie Stand 2026 veröffentlicht wurden.

STROM

LLM-Stromverbrauch in Zahlen

Eine Anfrage (kurz)
0,43Wh
GPT-4o-Klasse
eine kurze Frage
Ein schweres Schließen
33Wh+
Modell mit langem Nachdenken
~70× die leichte Version
Training GPT-3
1.287MWh
550t+ CO2
(eine alte Generation)
Globaler RZ-Strom
415→945
TWh
Prognose 2024→2030

Selbst eine kurze Anfrage (0,43Wh), hochgerechnet auf 700 Mio./Tag, entspricht dem Strom von ~35.000 US-Haushalten.
Ein einzelnes Rechenzentrums-Rack zieht bis zum 10-Fachen der alten Norm; ein dediziertes KI-RZ verschlingt 20MW–1GW.

Was auffällt, ist, dass "sich die Energieeffizienz zwischen Modellen um Größenordnungen unterscheidet". Eine kurze Frage an ein leichtgewichtiges Modell liegt unter 0,5 Wh, doch eine schwere Frage an ein Schließmodell mit langem Nachdenken (die Sorte, die vor dem Antworten grübelt) verbraucht 33 Wh+ — etwa das 70-Fache der leichten Version. Wie in der Falle, Token-Verbrauch als Arbeitsleistung zu sehen angesprochen, ist "einfach alles auf dem Spitzenmodell machen" ein Luxus, sowohl beim Strom als auch bei den Kosten. Leichte Aufgaben an ein leichtes Modell zu schicken ist sowohl freundlich zum Planeten als auch zu deinem Geldbeutel. Der globale Rechenzentrums-Strom erreichte 2024 415 TWh (etwa 1,5 % des Welttotals) und soll sich bis 2030 auf 945 TWh verdoppeln — mit KI als Haupttreiber dieses Wachstums.

6. Stimmt es, dass "Entwicklung eine Geldschlacht" ist?

Hier ist die Frage, die dich am meisten interessiert hat. "Ist die Entwicklung von Spitzen-LLMs eine Geldschlacht?" Zuerst die belegte Schlussfolgerung: "Beschränkt auf das Pre-Training der Spitze ist es im Wesentlichen wahr." Die Zahlen stützen es.

GELDSCHLACHT

Verlauf der Trainingskosten an der Spitze

GPT-3 (2020)
~ 3×10²³ FLOPs. Für die damalige Zeit jenseits aller Maßstäbe
GPT-4 (2023)
~ 2×10²⁵ FLOPs. ~25.000 GPUs
Spitze 2026
10²⁶–10²⁷ FLOPs / $200–500M
Prognose 2027
ein einzelner Lauf, der $1–3B erreicht

Die Trainings-Rechenleistung an der Spitze wuchs lange um das 4- bis 10-Fache pro Jahr.
Ein Trainingslauf der GPT-5- / Gemini-Ultra-Klasse = $200–500M — in der Tat eine Geldschlacht.

Konkret wird das einmalige Training eines Modells der GPT-5- / Gemini-Ultra-Klasse auf 200–500 Millionen Dollar geschätzt, und manche Prognosen setzen die Spitze Ende 2027 auf 1–3 Milliarden Dollar pro Lauf an. Und das ist "ein erfolgreicher Lauf" — dahinter stehen gescheiterte Versuche, Datenaufbereitung, Gehälter und Inferenz-Infrastruktur. Obendrein kostet jede GPU Tausende Dollar; Zehntausende davon über Monate laufen zu lassen treibt die Stromrechnung in die Höhe. Eine Mauer aus Geld, die "eine geniale Idee" oder "ein cleverer Algorithmus" allein niemals überwinden kann, steht am Eingang zur Spitze. In diesem Sinne ist "Geldschlacht" keine Übertreibung — es ist Fakt. Deshalb können nur eine Handvoll, die enormes Kapital gesichert haben — OpenAI, Google, Anthropic, Meta, xAI — ganz vorne mitkämpfen.

7. Doch Geld allein gewinnt nicht — der Effizienz-Rückstrom

Das vorige Kapitel sagte "die Geldschlacht ist real". Aber die Geschichte dort enden zu lassen verkennt die Realität von 2026. Es ist keineswegs wahr, dass "man mit genug Geld gewinnt" — wenn überhaupt, hat sich eine Gegenströmung verstärkt. Als ehrliche Antwort lass mich auch diese andere Seite aufschreiben.

Der symbolische Fall ist die Serie von Zügen, bei der Chinas DeepSeek Modelle veröffentlichte, die sich der Spitze mit einem relativ kleinen Budget annäherten, und von dem gesagt wurde, es habe "die Kostenuntergrenze zurückgesetzt". Techniken, dieselbe Leistung um Größenordnungen günstiger zu bauen — effiziente Architekturen, Mixture of Experts (MoE), Distillation (das Wissen eines großen Modells in ein kleines übertragen) und sorgfältige Arbeit an der Datenqualität — wurden eine nach der anderen demonstriert und trieben einen Keil in die Formel "riesiges Kapital = Sieg". Tatsächlich wird prognostiziert, dass das Wachstum der Spitzen-Rechenleistung von 10× pro Jahr auf etwa 3–4× ab 2026 abbremst, und die Aufmerksamkeit der Branche verlagert sich von "einfach größer werden" hin zu "wie man dieselbe Leistung günstiger und mit weniger Strom liefert".

Das genaue Bild ist also dieses: "Das Rennen, die 'Spitzenleistung' der Frontier zu aktualisieren, ist eine Geldschlacht. Aber das Rennen, 'ausreichend gute Leistung' günstig zu liefern, ist ein Wettstreit der Köpfe und der Effizienz." Die meisten Modelle, die wir tagtäglich nutzen, profitieren von Letzterem und werden Jahr für Jahr günstiger, schneller und energieeffizienter. Wie in wie weit man mit dem kostenlosen Tarif kommt geschrieben, erreichten bis 2026 selbst die kostenlosen Tarife ein praktisches Niveau — eine Frucht, die der Effizienz-Rückstrom den Nutzern in die Hand gibt.

8. Was als Nächstes kommt — die Mauer aus "Strom und Physik" nach dem Geld

Kann man also ewig skalieren, indem man einfach Geld stapelt? Nein — und das ist die neue Mauer, die 2026 zu erscheinen begann. Oberhalb von etwa 10²⁷ FLOPs hört der Engpass auf, "das Budget zum Kauf von GPUs" zu sein. Stattdessen versperren den Weg —

  • Strom: kann man kontinuierlich Strom im Gigawatt-Maßstab an einem Ort liefern? Mittlerweile ein Problem von Kraftwerken und Stromnetzen
  • Interconnect: die Bandbreite, um Zehntausende bis Hunderttausende GPUs ohne Latenz zu synchronisieren. Es gibt eine physische Obergrenze dafür, was ein einzelner riesiger Trainingsjob bewältigen kann
  • Daten: hochwertiger Trainingstext geht selbst zur Neige (es gibt eine Grenze, wie viel gute Schriften die Menschheit hervorgebracht hat)

Was nach "der Geldschlacht" kommt, ist "ein Kampf um Strom, Physik und Köpfe". Deshalb verlagern sich Unternehmen nun hin zu Investitionen in Kernkraft, zur Entwicklung eigener dedizierter Chips, zur Nutzung synthetischer Daten und zur Erforschung effizienter Architekturen. Die Ära, in der man durch Geldwerfen gewinnen konnte, verwandelt sich ironischerweise in eine Ära, in der man mit Geld allein nicht gewinnen kann.

Zusammenfassung

Die wahre Natur eines LLM ist "ein riesiges Vorhersagegerät, bei dem Hunderte Milliarden bis über eine Billion 'Gewichte' fortwährend die Wahrscheinlichkeit des nächsten Wortes berechnen". Die Attention des Transformers übernimmt die "kontextabhängige Gewichtung", und Pre-Training (das den Großteil der Rechenleistung, des Stroms und des Geldes verschlingt) plus Post-Training (RLHF, Schließtraining) machen die Regler klug. Die Klugheit ist keine Magie — sie ist ein Nebenprodukt davon, das "Erraten des nächsten Wortes" auf gewaltigen Textmengen bis zum Äußersten zu trainieren.

Zum Strom: eine kurze Anfrage ≈ 0,43 Wh, schweres Schließen 33 Wh+ (etwa das 70-Fache der leichten Version), und allein das Training von GPT-3 1.287 MWh. Gesellschaftsweit entfallen 80–90 % des Stroms auf die Inferenz, und der globale Rechenzentrums-Strom soll sich bis 2030 auf 945 TWh verdoppeln. "Alles auf dem Spitzenmodell machen" ist ein Luxus, sowohl beim Strom als auch bei den Kosten; der kluge Zug ist, das Modell nach dem Gewicht der Aufgabe zu wählen.

Und die Kernfrage — "ist die LLM-Entwicklung eine Geldschlacht?" Die Antwort lautet "im Wesentlichen wahr, beschränkt auf das Pre-Training der Spitze" ($200–500M pro Lauf der GPT-5-Klasse; $1–3B prognostiziert für 2027). Aber der "Geld allein gewinnt nicht"-Rückstrom ist ebenfalls stark (DeepSeeks Zurücksetzen der Untergrenze, Effizienz, Distillation). Die Spitzenleistung zu aktualisieren ist ein Geldkampf; praktische Leistung günstig zu liefern ist ein Kampf der Köpfe — diese zweischichtige Struktur ist die Realität von 2026. Und als Nächstes kommt die physische Mauer aus Strom, Interconnect und Datenknappheit. Ein LLM nicht als "Zauberkasten", sondern als "stromgetriebene Wahrscheinlichkeitsmaschine" zu verstehen, bewahrt dich davor, von Hype oder Angst mitgerissen zu werden. Um mehr zu erfahren, siehe was ist ein LLM (Einsteiger), das Kontextfenster und den Vergleich der kostenlosen Tarife.

FAQ

F. Sind mehr Parameter (Gewichte) immer klüger?
A. "Größer war klüger" galt einst fast universell, aber 2026 ist es nicht so einfach. Selbst bei gleicher Parameterzahl variiert die Leistung stark mit Datenqualität, Post-Training und architektonischem Einfallsreichtum. Kleine-aber-kluge Modelle (Produkte von Distillation und effizientem Design) haben sich vervielfacht, und "Parameterzahl = Intelligenz" gilt nicht mehr. Wir sind in eine Ära von "wie es trainiert wird" statt "wie viele" eingetreten.

F. "Versteht" ein LLM wirklich, oder ist es stures Auswendiglernen?
A. Selbst Experten sind uneins — es ist eine schwere Frage. Sicher ist, dass "es eine Generalisierung zeigt, die stures Auswendiglernen nicht erklären kann" (es löst Probleme, die nicht in seinen Trainingsdaten waren). Ob das "dasselbe Bedeutungsverständnis wie beim Menschen" ist, ist eine separate Frage ohne klare Antwort. Praktisch betrachte es als "ein extrem fortschrittliches Vorhersagegerät, das sich verhält, als würde es verstehen". Genau deshalb irrt es so selbstbewusst (Halluzination).

F. Kann ich mein eigenes LLM bauen?
A. "Spitzen-Klasse" ist für eine Einzelperson unmöglich (es braucht Hunderte Millionen Dollar und Zehntausende GPUs). Aber ein kleines Modell zu trainieren oder ein bestehendes offenes Modell zu fine-tunen, ist auch für Einzelpersonen machbar. Außerdem werden die meisten praktischen Bedürfnisse durch die Nutzung bestehender Modelle über die API gedeckt. Es gibt fast keine Notwendigkeit, "alles selbst zu bauen".

F. Ist der Stromverbrauch von KI ein ernstes Problem für den Planeten?
A. Es ist Fakt, dass die Größenordnung nicht mehr zu vernachlässigen ist (Rechenzentrums-Strom liegt bei etwa 1,5 % des Welttotals, soll sich bis 2030 verdoppeln). Aber parallel schreitet auch die Effizienz rasend voran; der "Strom pro Token" sinkt Jahr für Jahr. Das Problem ist weniger "die Effizienz einer Anfrage" als "das explosive Wachstum von Gesamtvolumen × Häufigkeit". Wie viel davon Erneuerbare, Kernkraft und dedizierte Chips ausgleichen können, ist der zukünftige Fokus.

F. Was lohnt sich am Ende als Nutzer zu wissen?
A. Drei Dinge. (1) Das Modell ist ein "Wahrscheinlichkeitsvorhersager", also irrt es selbst in selbstbewusstem Ton (wichtige Infos prüfen). (2) Schwere Fragen sind teuer bei Strom und Geld, also wähle das Modell nach dem Gewicht der Aufgabe (leichte Aufgaben an leichte Modelle). (3) "Spitzenleistung" ist eine Geldschlacht, aber "praktische Leistung" wird jedes Jahr günstiger und energieeffizienter (auf die Weiterentwicklung kostenloser/günstiger Modelle zu warten ist ebenfalls klug). Je mehr du den Mechanismus kennst, desto günstiger und cleverer kannst du KI nutzen.