Wurden Sie in Claude Code oder der API schon einmal von diesem Fehler abrupt ausgebremst?

Prompt is too long

# On the API, more specifically:
prompt is too long: 233153 tokens > 200000 maximum

„Der Prompt ist zu lang" — das bedeutet, dass die Eingabe, die Sie senden wollen (Gesprächsverlauf + angehängte Dateien + Tool-Definitionen usw.), das Kontextfenster des Modells (die Eingabegrenze) überschreitet. In der API wird sogar genannt, „wie viele Tokens es sind, gemessen an welchem Maximum", wie in 233153 tokens > 200000 maximum. Das ist etwas anderes als ein usage limit — Ihr Kontingent ist nicht aufgebraucht; eine einzelne Eingabe ist schlicht physisch zu groß.

Drei Kernpunkte vorab. (1) Die Ursache ist, dass „die Eingabe nicht ins Fenster passt". Es ist weder die max_tokens-Ausgabegrenze noch das usage limit-Kontingent. (2) Claude Code vermeidet ihn normalerweise automatisch per auto-compact (automatische Zusammenfassung), wenn Sie ihn also sehen, haben Sie entweder „das Fenster auf einen Schlag gesprengt" oder auto-compact ausgeschaltet. (3) Die schnellsten Lösungen sind /compact, um den Verlauf zusammenzufassen, /clear, um neu zu beginnen, und das Auslagern riesiger Lesevorgänge an einen Subagent. Dieser Artikel behandelt, was das Fenster füllt, die Fenstergrößen (200K und 1M), wie man es behebt und wie man es von verwechselbaren Fehlern unterscheidet — auf Basis offizieller Informationen.

CLAUDE CODE · CONTEXT WINDOW

Bis das „Fenster" voll ist

— was den Kontext füllt und wann er überläuft

system prompt
CLAUDE.md
MCP-Tool-Definitionen
gelesene Dateien
Tool-Ergebnisse
Gespräch (wächst)

stapelt sich bis 100%, und dann…

100%
= 200K / 1M tokens
Prompt is
too long

Normalerweise fasst auto-compact
vor dem Überlauf zusammen

Das bedeutet, das „Eingabefenster" ist vollkein usage limit (Kontingent), keine Ausgabegrenze (max_tokens).
Die Stapelverhältnisse sind illustrativ. Die echte Aufschlüsselung sehen Sie mit /context.

1. Was dieser Fehler bedeutet

KI-Modelle haben eine Eingabegrenze namens „Kontextfenster" (context window). Es ist „die maximale Informationsmenge, die in einem einzelnen Austausch gelesen werden kann", gezählt in Tokens (grob: Wortfragmente). Prompt is too long bedeutet, dass die Gesamtzahl der Tokens Ihrer Eingabe dieses Fenster überschreitet. In der API werden sogar die Zahlen ausgegeben: 233153 tokens > 200000 maximum (Sie haben 233.153 Tokens gesendet; die Grenze liegt bei 200.000).

Der entscheidende Punkt ist, dass es hier um die Eingabeseite geht. Das Kontextfenster summiert Gesprächsverlauf, angehängte/gelesene Dateien, Ergebnisse von Tool-Ausführungen, den System-Prompt und MCP-Tool-Definitionen. Führen Sie ein langes Gespräch weiter, lesen Sie eine riesige Datei komplett ein oder häufen Sie viel Tool-Ausgabe an, dann füllt sich das Fenster allmählich und läuft irgendwann über. Zum Konzept selbst siehe Was ist ein Kontextfenster.

Beachten Sie, dass Claude Code üblicherweise auto-compact (automatische Zusammenfassung) standardmäßig aktiviert hat, was den Verlauf automatisch zusammenfasst, um Platz freizugeben, wenn sich das Fenster der Vollauslastung nähert. Daher sehen Sie diesen Fehler normalerweise nie. Erscheint er dennoch, liegt das meist daran, dass (1) eine einzelne Eingabe das Fenster auf einen Schlag gesprengt hat (z. B. das Einfügen einer riesigen Datei) oder (2) Sie auto-compact deaktiviert haben (DISABLE_AUTO_COMPACT).

2. Was das Kontextfenster füllt

„Es läuft schneller über als erwartet", weil auch unsichtbare Elemente das Fenster verbrauchen. Hier die wichtigste Aufschlüsselung aus der offiziellen Dokumentation von Claude Code.

Was das Fenster fülltInhaltWie man es entlastet
GesprächsverlaufJeder Nutzer-/Assistenten-Zug. Der größte Faktor — er wächst weiter, bis er gelöscht wird/compact zum Zusammenfassen, /clear zum Neustart
Gelesene DateienJede Datei, die Sie mit Read einlesen, landet im Fenster. Eine riesige Datei komplett zu lesen ist schwerNach Zeilenbereichen lesen; große Lesevorgänge an einen Subagent auslagern
Tool-ErgebnisseBefehlsausgaben, Suchergebnisse usw. sammeln sich ebenfalls anUnnötig große Ausgaben vermeiden; oft komprimieren
MCP-Tool-DefinitionenTool-Definitionen verbundener MCP-Server. Je mehr Server, desto mehr fressen sie von Anfang anUngenutzte MCP mit /mcp deaktivieren
CLAUDE.md / MemoryProjekt-/globale Anweisungen, Auto-Memory. Immer geladenAufblähung vermeiden; mit /doctor prüfen
System-PromptKern-Verhaltensanweisungen. Immer vorhanden, fest, unantastbar(Nicht kürzbar. Den Rest reduzieren)

Der Punkt: „Gesprächsverlauf, Datei-Lesevorgänge, Tool-Ergebnisse" sind dynamische Faktoren, die wachsen, während „MCP-Definitionen, CLAUDE.md, System-Prompt" feste Faktoren sind, die von Anfang an vorhanden sind. Der Trick: ein Subagent hat sein EIGENES Fenster — lagern Sie das Lesen einer riesigen Datei oder eine Untersuchung an einen Subagent aus, und dessen Ergebnis (die schweren Rohdaten) gelangt nie in Ihr Hauptfenster. Sehen Sie mit /context genau, was das Fenster frisst. Zur Disziplin des bewussten Kontext-Designs siehe Context Engineering.

3. Fenstergrößen — 200K und 1M

„Wie hoch das Maximum ist", hängt vom Modell ab. Hier das Gesamtbild für 2026 (konkrete Werte können revidiert werden, prüfen Sie also die aktuelle offizielle Liste).

200K vs 1M

Das Fenster kann sich um das 5-Fache unterscheiden

Standard 200K Tokens
Sonnet 4.5, Haiku 4.5, Opus 4.5 usw. Das „200000 maximum", das Sie im Fehler sehen, ist genau das. Reichlich für die meiste tägliche Arbeit, aber bei riesigen Codebasen oder langen Sitzungen läuft es leicht über.
1M Tokens
Opus 4.8/4.7/4.6, Sonnet 4.6 usw. 5-fache des Standards. Stand 2026 verfügbar zum Standardpreis (derzeit kein Aufpreis für langen Kontext). In Claude Code erscheint es mit dem Suffix [1m].
Vorsicht: 1M ist kein Allheilmittel
(1) Bei Abonnements kann ein [1m]-Modell Nutzungs-Credits erfordern. (2) Neuere Modelle verwenden einen geänderten Tokenizer, der für denselben Text rund 30–35 % mehr Tokens verbraucht (selbst 1M fasst also weniger, als es sich anfühlt). Bevor Sie das Fenster vergrößern, ist der grundlegende Zug, es nicht zuzumüllen.

Fenstergrößen, 1M-Unterstützung und Preise werden im Lauf der Zeit revidiert. Merken Sie sich keine festen Werte — prüfen Sie sie in der aktuellen offiziellen Modellliste.

Es ist verlockend zu denken: „Der Wechsel zu einem 1M-Modell löst alles", aber ein größeres Fenster ist eine Ausweichlösung, nicht immer eine Lösung. Vergrößern Sie das Fenster bei weiterhin überfülltem Gespräch, verschwenderischem Komplett-Einlesen von Dateien und ungenutztem MCP, erhöhen Sie nur die Kosten und verlangsamen die Antworten. Der geschickte Ansatz: räumen Sie zuerst das Fenster auf (compact, clear, Subagents) und setzen Sie 1M nur für die wirklich großen Aufgaben ein, die es dann noch brauchen.

4. So beheben Sie es sofort

Schritte für den Moment, in dem der Fehler auftaucht, in Prioritätsreihenfolge. Wählen Sie je nach Situation (Verlauf aufgebläht / Sie haben eine riesige Datei eingespeist).

FIXES

So geben Sie das Fenster frei

1) /compact (zuerst)
Den Verlauf zusammenfassen, um Platz freizugeben. Sie können es fokussieren: /compact focus on the auth bug. Behält den Kontext und schlankt zugleich ab.
2) /clear (neue Aufgabe)
Das Gespräch löschen. CLAUDE.md und Projektinfos bleiben erhalten. Am schnellsten beim Wechsel zu unverwandter Arbeit.
3) Große Lesevorgänge auslagern
Riesige Dateien nach Zeilenbereich lesen, oder einen Subagent untersuchen lassen, der nur die Schlussfolgerung zurückgibt (er nutzt sein eigenes Fenster).
4) Die feste Last beschneiden
Nutzen Sie /context, um die Aufschlüsselung zu sehen, dann ungenutztes MCP deaktivieren und CLAUDE.md verschlanken. /doctor meldet Aufblähung.
5) Ein 1M-Modell, wenn es wirklich riesig ist
Nur wenn Sie es wirklich brauchen (z. B. beim Bearbeiten einer ganzen großen Codebasis), wechseln Sie mit /model zu einem Modell mit 1M-Kontext. Aber erledigen Sie das Aufräumen (1–4) zuerst. Deaktivieren Sie auto-compact nicht (lassen Sie es standardmäßig an).

Standard ist 1) /compact, dann 2) /clear. Liegt der Überlauf vor allem an einem „großen Lesevorgang", nutzen Sie 3). Ist er chronisch, beschneiden Sie die feste Last mit 4).

Hinweis: /compact selbst kann mit „Conversation too long. Press esc twice…" scheitern — das bedeutet, dass das Fenster bereits so voll ist, dass nicht einmal Platz für eine Zusammenfassung bleibt. Drücken Sie in diesem Fall zweimal Esc, um einige Nachrichten zurückzugehen, oder /clear zum Neustart. Zur systematischen Token-Einsparung siehe Token-Einsparung in Claude Code.

5. Drei leicht verwechselbare Fehler unterscheiden

Die Familie „zu lang / hängt fest" hat mehrere Mitglieder, und die Lösungen können gegensätzlich sein. Unterscheiden Sie diese drei (+ einen), um sie nicht zu verwechseln.

SymptomWas es wirklich istHauptlösung
Prompt is too long / N tokens > M maximumDas Thema dieses Artikels. Die Eingabe hat das Kontextfenster überschritten/compact, /clear, große Lesevorgänge an einen Subagent auslagern, 1M-Modell
Antwort abgeschnitten (stop_reason: max_tokens)Die Ausgabe wurde bei den max_tokens abgeschnitten, die Sie in der Anfrage gesetzt haben (kein Fensterproblem)max_tokens erhöhen / um Fortsetzung bitten
usage limit reachedDas Nutzungskontingent Ihres Plans ist verbraucht (hat nichts mit dem Token-Fenster zu tun)Auf Reset warten; Lösungen zum usage limit
Usage credits required for 1M contextEine Frage der Berechtigung. Sie haben ein [1m]-Modell gewählt, das nicht in Ihrem Plan enthalten ist (kein Überlauf, kein Kontingent)Credits aktivieren, oder /model zu einem Standardfenster

Die Achse: Sehen Sie Zahlen wie „N tokens > M maximum", ist es ein Eingabe-Überlauf = dieser Artikel. Eine sauber abgeschnittene Antwort ist die Ausgabegrenze (max_tokens). „reset at [Zeit]" ist ein usage limit. „credits required for 1M" ist eine Frage der Berechtigung (des Plans). Zu weiteren häufigen Claude-Code-Fehlern siehe die Fehlerübersicht.

6. Checkliste zur Vorbeugung

Gewohnheiten, damit das Fenster nicht überläuft.

(1) Lassen Sie auto-compact standardmäßig aktiviert (schalten Sie es nicht mit DISABLE_AUTO_COMPACT aus). (2) /clear an Aufgabengrenzen; /compact häufig mitten im Gespräch. (3) Riesige Dateien nach Zeilenbereich oder über einen Subagent lesen; fügen Sie sie nicht komplett ein. (4) Ungenutztes MCP deaktivieren und CLAUDE.md nicht aufblähen lassen (mit /doctor prüfen). (5) Vor schwerer Arbeit die Aufschlüsselung mit /context prüfen. (6) Ein 1M-Modell nur für wirklich große Aufgaben nutzen; ansonsten auf dem Standardfenster + Aufräumen arbeiten.

Zusammenfassung

Das „Prompt is too long" von Claude Code / der API bedeutet, dass die Eingabe (Gesprächsverlauf + Dateien + Tool-Definitionen usw.) das Kontextfenster des Modells überschritten hat. In der API wird sogar die Grenze als N tokens > M maximum angezeigt. Es ist weder ein usage limit (Kontingent) noch eine Ausgabegrenze (max_tokens) — es ist „die Eingabe ist physisch zu groß". Claude Code vermeidet ihn meist per auto-compact, wenn er also erscheint, haben Sie entweder das Fenster auf einen Schlag gesprengt oder auto-compact ausgeschaltet.

Das Fenster wird gefüllt durch Gesprächsverlauf, Datei-Lesevorgänge, Tool-Ergebnisse (dynamisch) + MCP-Definitionen, CLAUDE.md, System-Prompt (fest). Die schnellsten Lösungen sind (1) /compact -> (2) /clear -> (3) große Lesevorgänge an einen Subagent auslagern -> (4) die feste Last mit /context beschneiden -> (5) ein 1M-Modell nur, wenn wirklich nötig. Die Fenstergrößen sind Standard 200K und 1M; 1M ist Stand 2026 zum Standardpreis verfügbar, aber beachten Sie, dass Abonnements Credits erfordern können und der neue Tokenizer mehr verbraucht. Die Grundregel: bevor Sie das Fenster vergrößern, hören Sie auf, es zuzumüllen. Verwandt: Was ist ein Kontextfenster, Context Engineering, Lösungen zum usage limit.

FAQ

Q. Sind „Prompt is too long" und „usage limit reached" dasselbe?
A. Völlig verschieden. „Prompt is too long" bedeutet, dass eine einzelne Eingabe das Kontextfenster (die Token-Grenze) überschritten hat. „usage limit reached" bedeutet, dass Sie das Nutzungskontingent Ihres Plans verbraucht haben — was nichts mit dem Token-Fenster zu tun hat. Ersteres ist sofort behoben, indem Sie das Fenster mit /compact oder /clear freigeben; Letzteres erfordert das Warten auf einen Reset oder eine Plan-Maßnahme.

Q. Er erscheint normalerweise nie, tauchte aber plötzlich auf. Warum?
A. Claude Code hat auto-compact standardmäßig aktiviert, was den Verlauf automatisch zusammenfasst, um ihn zu vermeiden, wenn sich das Fenster der Vollauslastung nähert. Erscheint er dennoch, liegt das meist daran, dass (1) Sie eine riesige Datei oder eine enorme Datenmenge auf einmal eingespeist und das Fenster gesprengt haben oder (2) Sie auto-compact mit DISABLE_AUTO_COMPACT ausgeschaltet haben. Ersteres beheben Sie durch Aufteilen / Lesen nach Zeilenbereich / einen Subagent, Letzteres durch erneutes Aktivieren von auto-compact.

Q. Ich habe /compact ausgeführt und „Conversation too long" erhalten — es kann nicht einmal zusammenfassen.
A. Das Fenster ist bereits so voll, dass nicht einmal Platz für eine Zusammenfassung bleibt. Drücken Sie zweimal Esc, um einige Nachrichten zurückzugehen, und versuchen Sie es erneut, oder /clear zum Neustart des Gesprächs. Von da an /compact, bevor es sich füllt, und große Lesevorgänge an einen Subagent auslagern, um ein erneutes Auftreten zu verhindern.

Q. Löst der Wechsel zu einem Modell mit 1M-Kontext das Problem?
A. Es hilft bei großen Aufgaben, ist aber kein Allheilmittel. Das Fenster zu vergrößern, während ein überfüllter Verlauf, verschwenderisches Komplett-Einlesen von Dateien und ungenutztes MCP bestehen bleiben, erhöht nur die Kosten und verlangsamt die Antworten. Außerdem verwenden neuere Modelle einen geänderten Tokenizer, der für denselben Text rund 30–35 % mehr Tokens nutzt, es fasst also weniger, als es sich anfühlt. Der kluge Zug: zuerst aufräumen (compact/clear/Subagent), dann 1M nur, wenn wirklich nötig. Beachten Sie, dass Abonnements für [1m] Credits erfordern können.

Q. Ich möchte wissen, was das Fenster so frisst.
A. Das /context von Claude Code zeigt die Aufschlüsselung — System-Prompt, CLAUDE.md, MCP-Tool-Definitionen, Gesprächsverlauf, gelesene Dateien usw. In den meisten Fällen sind der stetig wachsende Gesprächsverlauf und große Datei-Lesevorgänge die Hauptschuldigen. /doctor meldet außerdem eine aufgeblähte CLAUDE.md oder Subagent-Definitionen. Ist die feste Last (MCP-Definitionen, CLAUDE.md) groß, ist deren Beschneidung wirksam.