2023 fühlte sich ein Kontextfenster von 32K Tokens noch „großzügig" an. Im Mai 2026 ist 1 Million Tokens (1M) zum Industriestandard geworden. Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.5, Gemini 3.1 Pro, DeepSeek V4-Pro — alle führenden Frontier-Modelle unterstützen 1M. Gemini 3.1 Ultra erreicht sogar 2M.

„Eine Million Tokens" entspricht in etwa 8–10 englischen Taschenbüchern oder Zehntausenden Zeilen Quellcode. So viel können wir jetzt in einer einzigen Sitzung „im Blick" behalten. Aber es gibt einen Haken: Nur eines dieser Modelle nutzt diesen Behälter wirklich bis zum Ende aus. Unabhängige Benchmarks (Multi-Needle NIAH, Details unten) zeigen, dass nur der Gemini 3 Deep Think Mode die Genauigkeit über die vollen 1M hinweg hält. Die anderen verlieren irgendwo zwischen 200K und 400K an Präzision — das ist die nüchterne Praxis 2026.

Meine Einschätzung gleich vorab: Die Ära, in der man ein Modell allein nach Behältergröße auswählt, ist vorbei. Worauf es jetzt ankommt, ist das Trio aus „effektivem Kontext × Kosten × Strategie", und Anthropics Schritt zu flacher 1M-Preisstruktur ist die spannendste Wendung des Jahres. Dieser Artikel erklärt, was Kontext eigentlich ist, das Modell-Lineup im Mai 2026, warum „größer" allein nicht reicht, die Unterschiede in der Kostenstruktur sowie fünf praktische Spartaktiken, die Solo-Entwickler und kleine Teams heute anwenden können — alles untermauert durch unabhängige Benchmark-Zahlen.

KONTEXTFENSTER · 2023→2026

Der Behälter wuchs in drei Jahren um das 250-Fache

— Eine Zeitleiste, wie 1M vom Luxus zum Standard wurde

2023
4K–32K
GPT-3.5, frühe GPT-4. Knapp Platz für eine einzelne Forschungsarbeit.
2024
128K–200K
Claude 3 / GPT-4 Turbo. Zehn Papers oder ein vollständiger Roman.
2025
1M–2M
Claude 4.6 / Gemini 1.5 Pro öffnen 1M. Gemini Ultra erreicht 2M.
2026
1M = Standard
Opus 4.7, Sonnet 4.6, GPT-5.5, Gemini 3.1, DeepSeek V4 — alle dabei.

Doch „unterstützt" und „liest auch wirklich bis zum Ende" sind zwei verschiedene Dinge. Nur Gemini 3 Deep Think hält im Multi-Needle-NIAH-Benchmark die Genauigkeit über die vollen 1M;
die anderen beginnen ab 200K–400K nachzulassen (Digital Applied, Zylos 2026).

1. Fünf 1M-Token-Modelle in einem Jahr — aber nur eines liest wirklich alles

Als OpenAI im April 2026 GPT-5.5 ankündigte, jubelte das Web: „OpenAI knackt endlich die 1M-Marke." Im selben Monat veröffentlichte Google Gemini 3.1 Ultra mit 2M. Anthropic hatte bereits ein Jahr zuvor flache 1M-Preise auf Claude Opus 4.6 eingeführt und mit 4.7 verstärkt. Auch DeepSeeks V4-Pro liegt bei 1M. Fünf Frontier-Anbieter dürfen jetzt mit Recht „1M+ Tokens" auf das Datenblatt schreiben.

Das hätte ein Großereignis sein müssen. Vor gerade einmal drei Jahren wirkten 32K beeindruckend. Seitdem hat sich die Fenstergröße um mehr als das 30-Fache vervielfacht. Das Rennen um die Behältergröße schien entschieden.

Dann führten die unabhängigen Prüfer Digital Applied und Zylos Research 2026 einen Multi-Needle-Needle-in-a-Haystack-Test (NIAH) durch — sie betteten mehrere Fakten in lange Dokumente ein und baten die Modelle, alle korrekt abzurufen. Das Ergebnis:

  • Gemini 3 Deep Think: hält die beworbene Genauigkeit über die vollen 1M
  • Claude Opus 4.7 / GPT-5.5 / DeepSeek V4-Pro: Präzision sinkt ab etwa 200K–400K

Auch wenn „1M-Unterstützung" also flächendeckend ist, nutzt nur ein Modell diese 1M unter produktionsnahen Bedingungen wirklich bis zum Ende aus. Bei den anderen Frontier-Modellen geraten Aufgaben, in denen mehrere Fakten integriert werden müssen, ab 200K–400K ins Stocken. Das ist die Realität 2026.

Lesen Sie das nicht als „Claude oder GPT ist schlecht". Anwendungsfälle, die wirklich die vollen 1M brauchen, sind selten. Wenn Sie 300K (≈ 2–3 Taschenbücher) zuverlässig verarbeiten können, lassen sich nahezu alle Aufgaben aus Programmierung, Recherche oder Zusammenfassung erledigen. Die Falle besteht darin, ein Modell allein anhand der „1M-Schlagzeile" zu wählen — das verzerrt die Entscheidung.

2. Was ist Kontext? — Behälter und Inhalt trennen

Kurz zur Terminologie. In diesem Bereich werden drei Begriffe gerne verwechselt.

Drei Begriffe

Token, Window, Kontext

① TOKEN — Texteinheit
Die kleinste Einheit, in der KI Text verarbeitet. ~4 englische Zeichen pro Token (oder ~0,75 Wörter); CJK-Sprachen liegen etwa bei 1–1,5 Tokens pro Zeichen.
② WINDOW — Behältergröße
Die maximale Anzahl Tokens, die ein Modell in einem einzigen Austausch verarbeiten kann. Ein- und Ausgabe zusammen. Alles darüber hinaus wird vom ältesten Ende abgeschnitten.
③ KONTEXT — Der Inhalt
Was gerade im Window geladen ist. Umfasst System-Prompt, Gesprächsverlauf, Anhänge, Tool-Outputs — alles zusammen.

Kurz: „Window = Behältergröße", „Kontext = Inhalt", „Token = Einheit".
Ein großer Behälter mit unaufgeräumtem Inhalt liefert auch nur unaufgeräumte Antworten.

Außerdem: Verwechseln Sie „Kontext" nicht mit „Memory". Kontext lebt innerhalb der Sitzung — schließen Sie den Chat, ist er weg. Funktionen wie ChatGPT Memory oder Claude Memory hingegen sind ein separater sitzungsübergreifender Speichermechanismus. Memory-Inhalte werden zwar irgendwann ins Kontextfenster eingespeist, aus Nutzersicht handelt es sich aber um persistenten Speicher gegenüber kurzlebigem Arbeitsbereich.

Häufiges Missverständnis: „Größeres Kontextfenster = klügere KI" ist falsch. Die Fenstergröße ist nur die Obergrenze dafür, was sichtbar sein kann. Denkfähigkeit, Wissenstiefe und Genauigkeit beim Befolgen von Anweisungen werden separat gemessen. Jede Modellveröffentlichung führt mit „1M Kontext!" als Schlagzeile, doch das ist nur eine Facette der Leistungsfähigkeit.

3. Wichtigste Modelle im Mai 2026 — Behältergrößen

Mit klaren Definitionen folgen hier die heute von den großen Anbietern veröffentlichten Behältergrößen. Alle Zahlen aus offiziellen Spezifikationen Stand Mai 2026.

ModellInput-LimitOutput-LimitHinweise
Claude Opus 4.71.000.000128.000Flache 1M zum Standardpreis, kein Beta-Header nötig
Claude Sonnet 4.61.000.00064.000Gleiche flache Preisstruktur
Claude Haiku 4.5200.00064.000Leichtgewichtiges Modell, keine 1M-Stufe
GPT-5.5922.000128.000API gesamt ~1M; Input-Preis verdoppelt sich oberhalb 272K
GPT-5.41.000.000128.000Gleicher Long-Context-Aufschlag
Gemini 3.1 Pro1.000.00065.535Verfügbar über Vertex AI / AI Studio
Gemini 3.1 Ultra2.000.00065.5352M-Stufe — derzeit das einzige kommerzielle 2M-Modell
Grok 4256.00032.000Offizielle xAI-Spezifikation; konservativ unter den Frontier-Modellen
DeepSeek V4-Pro1.000.00096.000Größtes Modell der Open-Weight-Klasse

Liest man nur die Tabelle, kommt man zum Schluss: „Gemini Ultra gewinnt, Ende der Geschichte." Aber es gibt einen Punkt, der Fettdruck verdient: Anthropic bietet 1M zum Pauschalpreis auf Opus 4.6/4.7 und Sonnet 4.6, während OpenAI den Input-Preis bei GPT-5.5 oberhalb 272K Tokens verdoppelt. Das ist nicht nur ein Preishebel — es ist eine strategische Haltung dazu, wie Long-Context-Workloads behandelt werden sollten. Auf die Kostenrechnung gehen wir in einem späteren Abschnitt ein.

Persönlich behalte ich Claude Opus 4.7 als Arbeitspferd für lange Texte. Drei Gründe: Pauschalpreis, stabile Genauigkeit im 200K-Bereich und die Qualität von Anthropics Dokumentation. Bei Dokumenten, die wirklich 300K übersteigen, wechsle ich zu Gemini 3 Deep Think. Modelle je nach Anwendungsfall zu mischen ist 2026 der richtige Weg.

4. Drei Gründe, warum „größer ist besser" nicht stimmt

Die vorige Tabelle listete nur physische Behältergrößen. Die schwierigere Frage lautet, ob Modelle das, was sie bewerben, auch wirklich nutzen. Die kurze Antwort: Außerhalb von Gemini 3 Deep Think sieht es düster aus. Drei Gründe.

Grund ①: Lost in the Middle

Erstmals 2023 von Stanford dokumentiert und seither in jeder Modellgeneration reproduziert. KI gewichtet Anfang und Ende der Eingabe stark und vernachlässigt die Mitte (die Positionszone von 30–70 %). Informationen nahe der Mitte eines 100K-Kontexts werden mit 5–15 Prozentpunkten geringerer Genauigkeit abgerufen als dieselben Informationen am Anfang oder Ende.

Das alltägliche Symptom: „Man fügt ein langes PDF ein, fragt ‚Wie hoch ist der Wert für X?', und das Modell nennt genau die Zahl falsch, die mitten im Dokument steht." Das ist Lost in the Middle. Drei Jahre nach Stanfords Originalarbeit haben selbst Frontier-Modelle die Lücke nicht vollständig geschlossen.

Grund ②: Context Rot

Je länger ein Gespräch läuft, desto stärker verblassen Ihre ursprünglichen Anweisungen. Sie haben anfangs gesagt „antworte in formellem Englisch"; zwanzig Runden später ist das Modell wieder in lockerer Sprache angelangt — das ist Context Rot.

Zwei Ursachen. ① Frühe Anweisungen sind im Verlauf relativ alt und werden weniger stark gewichtet. ② Bei langem Verlauf streut die Aufmerksamkeit, und einzelne Tokens werden schwerer referenzierbar. Anthropic spricht 2026 zunehmend von „Context Engineering" — einer bewussten Fertigkeit zum Umgang mit diesen Effekten.

Grund ③: Beworbener Kontext ≠ effektiver Kontext

So sehen die aktuellsten Benchmarks von 2026 (Multi-Needle NIAH, produktionsnahe Bedingungen) tatsächlich aus.

Multi-Needle NIAH × 4 Modelle

Effektiver Kontext (Mehrfaktenintegration)

Gemini 3 Deep Think ~volle 1M
Claude Opus 4.7 ~200K–400K
GPT-5.5 ~200K–400K
DeepSeek V4-Pro ~200K–400K

Quellen: Digital Applied „Long-Context Retrieval 2026" / Zylos Research „LLM Context Window Management 2026".
Beim Single-Needle-NIAH (ein einzelner Fakt) bestehen alle Modelle 1M, doch bei Mehrfaktenintegration sieht es anders aus.

Noch einmal: Das heißt nicht „Claude Opus 4.7 ist kaputt". 200K–400K entsprechen immer noch 2–3 Taschenbüchern an Kapazität. Die meisten realen Aufgaben (Code-Review, lange Texte, Meeting-Zusammenfassungen, Recherche-Synthese) bleiben gut innerhalb dieser Bandbreite. Das Problem ist die Annahme „weil es 1M sind, kippe ich einfach 1M rein" — diese Strategie funktioniert nur bei Gemini Deep Think.

5. Die Kostenfalle — OpenAI verdoppelt ab 272K, Anthropic bleibt flach

Wir haben gerade festgehalten: „Effektiv sind 200K–400K". Darauf legen Sie die zweite Falle: Long-Context-Inputs treiben die Rechnung in die Höhe. Anthropic und OpenAI haben hier entgegengesetzte Strategien gewählt.

ModellStandard-Input-PreisLong-Context-Aufschlag
Claude Opus 4.75,00 $ / 1M TokensFlach über 1M, kein Aufschlag
Claude Sonnet 4.63,00 $ / 1M TokensEbenso — kein Aufschlag
GPT-5.55,00 $ / 1M TokensOberhalb 272K: 2× Input, 1,5× Output
GPT-5.4VergleichbarGleicher Long-Context-Aufschlag

Konkrete Rechnung. 500K Tokens Input + 50K Tokens Output, ein Round-Trip — der klassische Fall, eine große Codebasis oder einen Geschäftsbericht in einem Durchgang zusammenzufassen.

  • Claude Opus 4.7: 5,00 $ × 0,5 + 25,00 $ × 0,05 = 3,75 $
  • GPT-5.5 (mit dem 272K-Überschreitungsaufschlag): 10,00 $ × 0,5 + 45,00 $ × 0,05 = 7,25 $

Das sind 3,50 $ pro Aufruf. Bei 100 Aufrufen pro Tag liegen Sie 10.500 $ pro Monat auseinander. Für Teams, die langlaufende Agenten betreiben, erreicht die Lücke leicht den mittleren fünfstelligen Bereich pro Monat. Dasselbe strukturelle Muster behandeln wir auch in KI-Token- und Sitzungskostensparen.

Hinweis: Anthropics flache 1M-Preise wurden in Finouts Analyse vom April 2026 als „bewusste Differenzierung" bezeichnet. Während OpenAI Long-Context-Nutzer monetarisiert, positioniert Anthropic „nutze Long Context ohne Zögern" als Markenwert.

6. Fünf Spartaktiken — sortiert nach Wirkung für Solo-Devs

„Der Behälter ist 1M, effektiv sind es ~300K, und lange Nutzung wird teuer." Das haben wir abgehandelt. Was kann man also in der Praxis tun? Hier sind fünf Taktiken, die ich täglich nutze, sortiert nach dem größten Nutzen.

Fünf praktische Tipps

Kontext sparen — Prioritätsreihenfolge

① Sitzung abschneiden
Wenn das Thema wechselt, einen neuen Chat öffnen. Allein dadurch, dass der alte Kontext nicht mitgeschleppt wird, verschwindet Context Rot. In Claude Code /compact verwenden oder eine neue Sitzung starten.
② Auszüge schicken, nicht ganze Texte
Ein 100-seitiges PDF komplett einzufügen ist der schlechteste Schritt. Mit grep / Suche relevante Abschnitte herausziehen, auf 3–5 Seiten verdichten, dann senden. Das RAG-Denken im Solo-Einsatz.
③ Wichtige Anweisungen am Ende wiederholen
Gegenmittel zu Lost in the Middle. Die Regel vom Anfang in einem Satz am Ende erneut nennen: „Berücksichtige das Obige und gib im Format X aus."
④ Prompt Caching
Wenn Sie denselben System-Prompt mehrfach wiederverwenden, senken Anthropic und OpenAI mit der Caching-Funktion den Input-Preis um bis zu 90 %. Wer die API nutzt, sollte das zuerst einrichten.
⑤ Dateiadressen explizit machen
Die Angabe „Datei N, Zeile X" verbessert die Trefferquote in langen Kontexten. Sehen Sie es so, als reichten Sie der KI ein Inhaltsverzeichnis mit Indexeinträgen.

Von den fünf bringt Taktik ① „Sitzung abschneiden" den größten sichtbaren Gewinn. Allein das Beenden des Chats reduziert Halluzinationen spürbar.
Taktik ④ ist für API-Entwickler — UIs (claude.ai / ChatGPT) übernehmen das Caching automatisch.

Meine persönliche Best Practice: Schon konsequent ① und ② umzusetzen verschiebt die wahrgenommene Genauigkeit deutlich. Auch in Claude Code: Statt eine lange Sitzung weiterzuziehen, bei jedem Themenwechsel /compact drücken oder eine frische Sitzung starten — so bleibt die Endqualität stabil.

Zusammenfassung

Zusammengefasst:

  • Kontextfenster = die maximale Tokenzahl, die eine KI in einem Austausch verarbeiten kann. Die Behältergröße.
  • Stand Mai 2026 unterstützen Claude Opus 4.7 / Sonnet 4.6 / GPT-5.5 / Gemini 3.1 Pro / DeepSeek V4-Pro alle 1M; Gemini 3.1 Ultra erreicht 2M.
  • Unabhängige Benchmarks (Multi-Needle NIAH) zeigen, dass nur Gemini 3 Deep Think die Genauigkeit über die vollen 1M hält; die anderen lassen ab 200K–400K nach.
  • Bei den Kosten bleibt Anthropic flach, während OpenAI oberhalb 272K einen Aufschlag erhebt. Klare strategische Divergenz.
  • Die fünf Taktiken — Sitzung abschneiden, Auszüge senden, am Ende wiederholen, cachen, explizit adressieren — wobei ① und ② am stärksten ins Gewicht fallen.

Auch mit größeren Behältern bleibt die eigentliche Arbeit dieselbe: entscheiden, was geschickt und was weggelassen wird. Die KI-Kompetenz 2026 heißt nicht „alles reinstopfen". Sie heißt das Urteilsvermögen, nur das Nötige präzise zu schicken — das bleibt langfristig nützlich. Nachdem in diesem Jahr fünf Anbieter sich selbst zum „1M-Sieger" gekrönt haben, ist das mein Fazit.

FAQ

F1. Wie zähle ich Tokens vor dem Senden?

OpenAI bietet die Bibliothek tiktoken; Anthropic stellt im offiziellen SDK eine zu countTokens() äquivalente API bereit. Faustregel: ~0,75 englische Wörter pro Token, ~1–1,5 Tokens pro CJK-Zeichen. Code variiert je nach Tokenizer, vor langen Eingaben also messen.

F2. Worin unterscheidet sich „Memory" vom Kontext?

Kontext lebt nur innerhalb der Sitzung — schließen Sie den Chat, ist er weg. Memory (ChatGPT Memory / Claude Memory) ist ein separater sitzungsübergreifender Speichermechanismus. Memory-Inhalte werden zwar in das Kontextfenster eingespeist, aus Nutzersicht aber persistent gegenüber kurzlebig.

F3. Wie verhält sich RAG zum Kontextfenster?

RAG ist das Muster, „nur die nötigen Informationen dynamisch in den Kontext zu holen". Selbst mit einem 1M-Fenster macht es alles langsam, schwer und teuer, wenn man alles reinkippt, daher bleibt das Vorgehen „erst suchen, dann laden" (RAG) der Standardansatz. Mehr dazu unter Was ist RAG.

F4. Warum bricht es bei 300K ein, obwohl 1M unterstützt wird?

Diskrepanz zwischen Sequenzlängen beim Training und bei der Inferenz, Grenzen der Positionscodierung im Aufmerksamkeitsmechanismus und die Rechenexplosion, die zur Integration mehrerer Fakten nötig ist, summieren sich. „Unterstützt" und „Genauigkeit über den gesamten Bereich gehalten" sind unterschiedliche Probleme.

F5. Sparen MCP-Server Kontext?

Ja. MCP ist ein On-Demand-Abrufmechanismus über Tools, sodass Sie nicht alles vorab in den Kontext laden müssen. Wechseln Sie das Denkmodell von „die ganze Datei einfügen" zu „die KI die Datei lesen lassen".