Inhaltsverzeichnis
Wurden Sie in Claude Code oder der API schon einmal von diesem Fehler abrupt ausgebremst?
Prompt is too long
# On the API, more specifically:
prompt is too long: 233153 tokens > 200000 maximum
„Der Prompt ist zu lang" — das bedeutet, dass die Eingabe, die Sie senden wollen (Gesprächsverlauf + angehängte Dateien + Tool-Definitionen usw.), das Kontextfenster des Modells (die Eingabegrenze) überschreitet. In der API wird sogar genannt, „wie viele Tokens es sind, gemessen an welchem Maximum", wie in 233153 tokens > 200000 maximum. Das ist etwas anderes als ein usage limit — Ihr Kontingent ist nicht aufgebraucht; eine einzelne Eingabe ist schlicht physisch zu groß.
Drei Kernpunkte vorab. (1) Die Ursache ist, dass „die Eingabe nicht ins Fenster passt". Es ist weder die max_tokens-Ausgabegrenze noch das usage limit-Kontingent. (2) Claude Code vermeidet ihn normalerweise automatisch per auto-compact (automatische Zusammenfassung), wenn Sie ihn also sehen, haben Sie entweder „das Fenster auf einen Schlag gesprengt" oder auto-compact ausgeschaltet. (3) Die schnellsten Lösungen sind /compact, um den Verlauf zusammenzufassen, /clear, um neu zu beginnen, und das Auslagern riesiger Lesevorgänge an einen Subagent. Dieser Artikel behandelt, was das Fenster füllt, die Fenstergrößen (200K und 1M), wie man es behebt und wie man es von verwechselbaren Fehlern unterscheidet — auf Basis offizieller Informationen.
Bis das „Fenster" voll ist
— was den Kontext füllt und wann er überläuft
stapelt sich bis 100%, und dann…
too long
Normalerweise fasst auto-compact
vor dem Überlauf zusammen
Das bedeutet, das „Eingabefenster" ist voll — kein usage limit (Kontingent), keine Ausgabegrenze (max_tokens).
Die Stapelverhältnisse sind illustrativ. Die echte Aufschlüsselung sehen Sie mit /context.
1. Was dieser Fehler bedeutet
KI-Modelle haben eine Eingabegrenze namens „Kontextfenster" (context window). Es ist „die maximale Informationsmenge, die in einem einzelnen Austausch gelesen werden kann", gezählt in Tokens (grob: Wortfragmente). Prompt is too long bedeutet, dass die Gesamtzahl der Tokens Ihrer Eingabe dieses Fenster überschreitet. In der API werden sogar die Zahlen ausgegeben: 233153 tokens > 200000 maximum (Sie haben 233.153 Tokens gesendet; die Grenze liegt bei 200.000).
Der entscheidende Punkt ist, dass es hier um die Eingabeseite geht. Das Kontextfenster summiert Gesprächsverlauf, angehängte/gelesene Dateien, Ergebnisse von Tool-Ausführungen, den System-Prompt und MCP-Tool-Definitionen. Führen Sie ein langes Gespräch weiter, lesen Sie eine riesige Datei komplett ein oder häufen Sie viel Tool-Ausgabe an, dann füllt sich das Fenster allmählich und läuft irgendwann über. Zum Konzept selbst siehe Was ist ein Kontextfenster.
Beachten Sie, dass Claude Code üblicherweise auto-compact (automatische Zusammenfassung) standardmäßig aktiviert hat, was den Verlauf automatisch zusammenfasst, um Platz freizugeben, wenn sich das Fenster der Vollauslastung nähert. Daher sehen Sie diesen Fehler normalerweise nie. Erscheint er dennoch, liegt das meist daran, dass (1) eine einzelne Eingabe das Fenster auf einen Schlag gesprengt hat (z. B. das Einfügen einer riesigen Datei) oder (2) Sie auto-compact deaktiviert haben (DISABLE_AUTO_COMPACT).
2. Was das Kontextfenster füllt
„Es läuft schneller über als erwartet", weil auch unsichtbare Elemente das Fenster verbrauchen. Hier die wichtigste Aufschlüsselung aus der offiziellen Dokumentation von Claude Code.
| Was das Fenster füllt | Inhalt | Wie man es entlastet |
|---|---|---|
| Gesprächsverlauf | Jeder Nutzer-/Assistenten-Zug. Der größte Faktor — er wächst weiter, bis er gelöscht wird | /compact zum Zusammenfassen, /clear zum Neustart |
| Gelesene Dateien | Jede Datei, die Sie mit Read einlesen, landet im Fenster. Eine riesige Datei komplett zu lesen ist schwer | Nach Zeilenbereichen lesen; große Lesevorgänge an einen Subagent auslagern |
| Tool-Ergebnisse | Befehlsausgaben, Suchergebnisse usw. sammeln sich ebenfalls an | Unnötig große Ausgaben vermeiden; oft komprimieren |
| MCP-Tool-Definitionen | Tool-Definitionen verbundener MCP-Server. Je mehr Server, desto mehr fressen sie von Anfang an | Ungenutzte MCP mit /mcp deaktivieren |
| CLAUDE.md / Memory | Projekt-/globale Anweisungen, Auto-Memory. Immer geladen | Aufblähung vermeiden; mit /doctor prüfen |
| System-Prompt | Kern-Verhaltensanweisungen. Immer vorhanden, fest, unantastbar | (Nicht kürzbar. Den Rest reduzieren) |
Der Punkt: „Gesprächsverlauf, Datei-Lesevorgänge, Tool-Ergebnisse" sind dynamische Faktoren, die wachsen, während „MCP-Definitionen, CLAUDE.md, System-Prompt" feste Faktoren sind, die von Anfang an vorhanden sind. Der Trick: ein Subagent hat sein EIGENES Fenster — lagern Sie das Lesen einer riesigen Datei oder eine Untersuchung an einen Subagent aus, und dessen Ergebnis (die schweren Rohdaten) gelangt nie in Ihr Hauptfenster. Sehen Sie mit /context genau, was das Fenster frisst. Zur Disziplin des bewussten Kontext-Designs siehe Context Engineering.
3. Fenstergrößen — 200K und 1M
„Wie hoch das Maximum ist", hängt vom Modell ab. Hier das Gesamtbild für 2026 (konkrete Werte können revidiert werden, prüfen Sie also die aktuelle offizielle Liste).
Das Fenster kann sich um das 5-Fache unterscheiden
[1m].[1m]-Modell Nutzungs-Credits erfordern. (2) Neuere Modelle verwenden einen geänderten Tokenizer, der für denselben Text rund 30–35 % mehr Tokens verbraucht (selbst 1M fasst also weniger, als es sich anfühlt). Bevor Sie das Fenster vergrößern, ist der grundlegende Zug, es nicht zuzumüllen.Fenstergrößen, 1M-Unterstützung und Preise werden im Lauf der Zeit revidiert. Merken Sie sich keine festen Werte — prüfen Sie sie in der aktuellen offiziellen Modellliste.
Es ist verlockend zu denken: „Der Wechsel zu einem 1M-Modell löst alles", aber ein größeres Fenster ist eine Ausweichlösung, nicht immer eine Lösung. Vergrößern Sie das Fenster bei weiterhin überfülltem Gespräch, verschwenderischem Komplett-Einlesen von Dateien und ungenutztem MCP, erhöhen Sie nur die Kosten und verlangsamen die Antworten. Der geschickte Ansatz: räumen Sie zuerst das Fenster auf (compact, clear, Subagents) und setzen Sie 1M nur für die wirklich großen Aufgaben ein, die es dann noch brauchen.
4. So beheben Sie es sofort
Schritte für den Moment, in dem der Fehler auftaucht, in Prioritätsreihenfolge. Wählen Sie je nach Situation (Verlauf aufgebläht / Sie haben eine riesige Datei eingespeist).
So geben Sie das Fenster frei
/compact focus on the auth bug. Behält den Kontext und schlankt zugleich ab./context, um die Aufschlüsselung zu sehen, dann ungenutztes MCP deaktivieren und CLAUDE.md verschlanken. /doctor meldet Aufblähung./model zu einem Modell mit 1M-Kontext. Aber erledigen Sie das Aufräumen (1–4) zuerst. Deaktivieren Sie auto-compact nicht (lassen Sie es standardmäßig an).Standard ist 1) /compact, dann 2) /clear. Liegt der Überlauf vor allem an einem „großen Lesevorgang", nutzen Sie 3). Ist er chronisch, beschneiden Sie die feste Last mit 4).
Hinweis: /compact selbst kann mit „Conversation too long. Press esc twice…" scheitern — das bedeutet, dass das Fenster bereits so voll ist, dass nicht einmal Platz für eine Zusammenfassung bleibt. Drücken Sie in diesem Fall zweimal Esc, um einige Nachrichten zurückzugehen, oder /clear zum Neustart. Zur systematischen Token-Einsparung siehe Token-Einsparung in Claude Code.
5. Drei leicht verwechselbare Fehler unterscheiden
Die Familie „zu lang / hängt fest" hat mehrere Mitglieder, und die Lösungen können gegensätzlich sein. Unterscheiden Sie diese drei (+ einen), um sie nicht zu verwechseln.
| Symptom | Was es wirklich ist | Hauptlösung |
|---|---|---|
| Prompt is too long / N tokens > M maximum | Das Thema dieses Artikels. Die Eingabe hat das Kontextfenster überschritten | /compact, /clear, große Lesevorgänge an einen Subagent auslagern, 1M-Modell |
| Antwort abgeschnitten (stop_reason: max_tokens) | Die Ausgabe wurde bei den max_tokens abgeschnitten, die Sie in der Anfrage gesetzt haben (kein Fensterproblem) | max_tokens erhöhen / um Fortsetzung bitten |
| usage limit reached | Das Nutzungskontingent Ihres Plans ist verbraucht (hat nichts mit dem Token-Fenster zu tun) | Auf Reset warten; Lösungen zum usage limit |
| Usage credits required for 1M context | Eine Frage der Berechtigung. Sie haben ein [1m]-Modell gewählt, das nicht in Ihrem Plan enthalten ist (kein Überlauf, kein Kontingent) | Credits aktivieren, oder /model zu einem Standardfenster |
Die Achse: Sehen Sie Zahlen wie „N tokens > M maximum", ist es ein Eingabe-Überlauf = dieser Artikel. Eine sauber abgeschnittene Antwort ist die Ausgabegrenze (max_tokens). „reset at [Zeit]" ist ein usage limit. „credits required for 1M" ist eine Frage der Berechtigung (des Plans). Zu weiteren häufigen Claude-Code-Fehlern siehe die Fehlerübersicht.
6. Checkliste zur Vorbeugung
Gewohnheiten, damit das Fenster nicht überläuft.
(1) Lassen Sie auto-compact standardmäßig aktiviert (schalten Sie es nicht mit DISABLE_AUTO_COMPACT aus). (2) /clear an Aufgabengrenzen; /compact häufig mitten im Gespräch. (3) Riesige Dateien nach Zeilenbereich oder über einen Subagent lesen; fügen Sie sie nicht komplett ein. (4) Ungenutztes MCP deaktivieren und CLAUDE.md nicht aufblähen lassen (mit /doctor prüfen). (5) Vor schwerer Arbeit die Aufschlüsselung mit /context prüfen. (6) Ein 1M-Modell nur für wirklich große Aufgaben nutzen; ansonsten auf dem Standardfenster + Aufräumen arbeiten.
Zusammenfassung
Das „Prompt is too long" von Claude Code / der API bedeutet, dass die Eingabe (Gesprächsverlauf + Dateien + Tool-Definitionen usw.) das Kontextfenster des Modells überschritten hat. In der API wird sogar die Grenze als N tokens > M maximum angezeigt. Es ist weder ein usage limit (Kontingent) noch eine Ausgabegrenze (max_tokens) — es ist „die Eingabe ist physisch zu groß". Claude Code vermeidet ihn meist per auto-compact, wenn er also erscheint, haben Sie entweder das Fenster auf einen Schlag gesprengt oder auto-compact ausgeschaltet.
Das Fenster wird gefüllt durch Gesprächsverlauf, Datei-Lesevorgänge, Tool-Ergebnisse (dynamisch) + MCP-Definitionen, CLAUDE.md, System-Prompt (fest). Die schnellsten Lösungen sind (1) /compact -> (2) /clear -> (3) große Lesevorgänge an einen Subagent auslagern -> (4) die feste Last mit /context beschneiden -> (5) ein 1M-Modell nur, wenn wirklich nötig. Die Fenstergrößen sind Standard 200K und 1M; 1M ist Stand 2026 zum Standardpreis verfügbar, aber beachten Sie, dass Abonnements Credits erfordern können und der neue Tokenizer mehr verbraucht. Die Grundregel: bevor Sie das Fenster vergrößern, hören Sie auf, es zuzumüllen. Verwandt: Was ist ein Kontextfenster, Context Engineering, Lösungen zum usage limit.
FAQ
Q. Sind „Prompt is too long" und „usage limit reached" dasselbe?
A. Völlig verschieden. „Prompt is too long" bedeutet, dass eine einzelne Eingabe das Kontextfenster (die Token-Grenze) überschritten hat. „usage limit reached" bedeutet, dass Sie das Nutzungskontingent Ihres Plans verbraucht haben — was nichts mit dem Token-Fenster zu tun hat. Ersteres ist sofort behoben, indem Sie das Fenster mit /compact oder /clear freigeben; Letzteres erfordert das Warten auf einen Reset oder eine Plan-Maßnahme.
Q. Er erscheint normalerweise nie, tauchte aber plötzlich auf. Warum?
A. Claude Code hat auto-compact standardmäßig aktiviert, was den Verlauf automatisch zusammenfasst, um ihn zu vermeiden, wenn sich das Fenster der Vollauslastung nähert. Erscheint er dennoch, liegt das meist daran, dass (1) Sie eine riesige Datei oder eine enorme Datenmenge auf einmal eingespeist und das Fenster gesprengt haben oder (2) Sie auto-compact mit DISABLE_AUTO_COMPACT ausgeschaltet haben. Ersteres beheben Sie durch Aufteilen / Lesen nach Zeilenbereich / einen Subagent, Letzteres durch erneutes Aktivieren von auto-compact.
Q. Ich habe /compact ausgeführt und „Conversation too long" erhalten — es kann nicht einmal zusammenfassen.
A. Das Fenster ist bereits so voll, dass nicht einmal Platz für eine Zusammenfassung bleibt. Drücken Sie zweimal Esc, um einige Nachrichten zurückzugehen, und versuchen Sie es erneut, oder /clear zum Neustart des Gesprächs. Von da an /compact, bevor es sich füllt, und große Lesevorgänge an einen Subagent auslagern, um ein erneutes Auftreten zu verhindern.
Q. Löst der Wechsel zu einem Modell mit 1M-Kontext das Problem?
A. Es hilft bei großen Aufgaben, ist aber kein Allheilmittel. Das Fenster zu vergrößern, während ein überfüllter Verlauf, verschwenderisches Komplett-Einlesen von Dateien und ungenutztes MCP bestehen bleiben, erhöht nur die Kosten und verlangsamt die Antworten. Außerdem verwenden neuere Modelle einen geänderten Tokenizer, der für denselben Text rund 30–35 % mehr Tokens nutzt, es fasst also weniger, als es sich anfühlt. Der kluge Zug: zuerst aufräumen (compact/clear/Subagent), dann 1M nur, wenn wirklich nötig. Beachten Sie, dass Abonnements für [1m] Credits erfordern können.
Q. Ich möchte wissen, was das Fenster so frisst.
A. Das /context von Claude Code zeigt die Aufschlüsselung — System-Prompt, CLAUDE.md, MCP-Tool-Definitionen, Gesprächsverlauf, gelesene Dateien usw. In den meisten Fällen sind der stetig wachsende Gesprächsverlauf und große Datei-Lesevorgänge die Hauptschuldigen. /doctor meldet außerdem eine aufgeblähte CLAUDE.md oder Subagent-Definitionen. Ist die feste Last (MCP-Definitionen, CLAUDE.md) groß, ist deren Beschneidung wirksam.