Avez-vous déjà été stoppé net par cette erreur dans Claude Code ou via l'API ?

Prompt is too long

# On the API, more specifically:
prompt is too long: 233153 tokens > 200000 maximum

« Le prompt est trop long » — autrement dit, l'entrée que vous tentez d'envoyer (historique de la conversation + fichiers joints + définitions d'outils, etc.) dépasse la fenêtre de contexte du modèle (la limite d'entrée). Via l'API, on vous indique même « combien de tokens, par rapport à quel maximum » comme dans 233153 tokens > 200000 maximum. C'est différent d'une usage limit — vous n'avez pas épuisé votre quota ; c'est simplement qu'une seule entrée est physiquement trop volumineuse.

Trois points clés d'emblée. (1) La cause est « l'entrée ne tient pas dans la fenêtre ». Ce n'est pas le plafond de sortie max_tokens, ni le quota usage limit. (2) Claude Code l'évite normalement automatiquement grâce à l'auto-compact (résumé automatique), donc lorsque vous la voyez, c'est que vous avez soit « dépassé la fenêtre d'un coup », soit désactivé l'auto-compact. (3) Les corrections les plus rapides sont /compact pour résumer l'historique, /clear pour repartir de zéro, et déléguer les lectures volumineuses à un subagent. Cet article couvre ce qui remplit la fenêtre, les tailles de fenêtre (200K et 1M), comment la corriger, et comment la distinguer des erreurs prêtant à confusion — à partir des informations officielles.

CLAUDE CODE · CONTEXT WINDOW

Jusqu'à ce que la « fenêtre » soit pleine

— ce qui remplit le contexte, et quand il déborde

system prompt
CLAUDE.md
définitions d'outils MCP
fichiers lus
résultats d'outils
conversation (grandit)

tout s'empile jusqu'à 100 %, puis...

100%
= 200K / 1M tokens
Prompt is
too long

Normalement, auto-compact
résume avant le débordement

Cela signifie que la « fenêtre d'entrée » est pleinece n'est pas une usage limit (quota), ni un plafond de sortie (max_tokens).
Les proportions empilées sont illustratives. Vérifiez la répartition réelle avec /context.

1. Ce que cette erreur veut dire

Les modèles d'IA ont une limite d'entrée appelée « fenêtre de contexte » (context window). C'est « la quantité maximale d'informations qu'on peut lire en un seul échange », comptée en tokens (en gros, des fragments de mots). Prompt is too long signifie que le total de tokens de l'entrée que vous avez essayé d'envoyer dépasse cette fenêtre. Via l'API, on affiche même les chiffres : 233153 tokens > 200000 maximum (vous avez envoyé 233 153 tokens ; la limite est de 200 000).

Le point essentiel, c'est que cela concerne le côté entrée. La fenêtre de contexte additionne l'historique de la conversation, les fichiers joints/lus, les résultats d'exécution d'outils, le system prompt et les définitions d'outils MCP. Poursuivez une longue conversation, lisez un fichier gigantesque en entier, ou empilez beaucoup de sorties d'outils, et la fenêtre se remplit progressivement et finit par déborder. Pour la notion elle-même, voir Qu'est-ce qu'une fenêtre de contexte.

À noter que Claude Code a généralement l'auto-compact (résumé automatique) activé par défaut, qui résume automatiquement l'historique pour libérer de la place à mesure que la fenêtre approche de la saturation. Donc normalement, vous ne voyez jamais cette erreur. Si elle apparaît malgré tout, c'est généralement parce que (1) une seule entrée a dépassé la fenêtre d'un coup (par ex. en collant un fichier gigantesque), ou (2) vous avez désactivé l'auto-compact (DISABLE_AUTO_COMPACT).

2. Ce qui remplit la fenêtre de contexte

« Elle déborde plus vite que prévu » parce que des éléments invisibles consomment eux aussi la fenêtre. Voici la répartition principale d'après la documentation officielle de Claude Code.

Ce qui remplit la fenêtreContenuComment l'alléger
Historique de la conversationChaque tour utilisateur/assistant. Le facteur le plus important — il ne cesse de croître tant qu'on ne l'efface pas/compact pour résumer, /clear pour redémarrer
Fichiers lusChaque fichier que vous lisez (Read) entre dans la fenêtre. Lire un fichier gigantesque en entier est lourdLire par plages de lignes ; déléguer les grosses lectures à un subagent
Résultats d'outilsSorties de commandes, résultats de recherche, etc. s'accumulent aussiÉviter les sorties volumineuses inutiles ; compacter souvent
Définitions d'outils MCPDéfinitions d'outils des serveurs MCP connectés. Plus il y a de serveurs, plus ils consomment dès le départDésactiver les MCP inutilisés avec /mcp
CLAUDE.md / mémoireInstructions de projet/globales, mémoire automatique. Toujours chargéesÉviter le gonflement ; vérifier avec /doctor
System promptInstructions de comportement fondamentales. Toujours présent, fixe, intouchable(Impossible à réduire. Réduisez le reste)

Le point clé : « l'historique de la conversation, les lectures de fichiers, les résultats d'outils » sont des facteurs dynamiques qui croissent, tandis que « les définitions MCP, CLAUDE.md, le system prompt » sont des facteurs fixes présents dès le départ. L'astuce, c'est qu'un subagent dispose de SA PROPRE fenêtre — déléguez la lecture d'un fichier gigantesque ou une investigation à un subagent et son résultat (les données brutes lourdes) n'entre jamais dans votre fenêtre principale. Voyez exactement ce qui consomme la fenêtre avec /context. Pour la discipline consistant à concevoir le contexte de manière délibérée, voir l'ingénierie de contexte.

3. Tailles de fenêtre — 200K et 1M

« Quel est le maximum » dépend du modèle. Voici le panorama de 2026 (les valeurs précises pouvant être révisées, confirmez la dernière liste officielle).

200K vs 1M

La fenêtre peut varier d'un facteur 5

Standard 200K tokens
Sonnet 4.5, Haiku 4.5, Opus 4.5, etc. Le « 200000 maximum » que vous voyez dans l'erreur, c'est cela. Largement suffisant pour la plupart du travail quotidien, mais déborde facilement sur les énormes bases de code ou les longues sessions.
1M tokens
Opus 4.8/4.7/4.6, Sonnet 4.6, etc. 5 fois le standard. En 2026, c'est disponible au tarif standard (pas de surcoût pour le long contexte actuellement). Dans Claude Code, cela apparaît avec un suffixe [1m].
Attention : 1M n'est pas une panacée
(1) Sur les abonnements, un modèle [1m] peut nécessiter des crédits d'usage. (2) Les modèles plus récents utilisent un tokenizer modifié qui consomme environ 30 à 35 % de tokens en plus pour le même texte (si bien que même 1M contient moins que ce qu'on imagine). Avant d'élargir la fenêtre, le réflexe de base est de ne pas l'encombrer.

Les tailles de fenêtre, la prise en charge du 1M et les tarifs sont révisés au fil du temps. Ne mémorisez pas des valeurs figées — confirmez dans la dernière liste officielle des modèles.

On est tenté de penser « passer à un modèle 1M résout tout », mais une fenêtre plus grande est une échappatoire, pas toujours une solution. Élargissez la fenêtre tout en gardant une conversation encombrée, des lectures de fichiers entiers inutiles et des MCP non utilisés, et vous ne ferez qu'augmenter le coût et ralentir les réponses. L'approche habile consiste à d'abord ranger la fenêtre (compact, clear, subagents), et à n'utiliser le 1M que pour les tâches réellement volumineuses qui en ont encore besoin.

4. Comment la corriger tout de suite

Les actions à mener au moment où l'erreur apparaît, par ordre de priorité. Choisissez selon la situation (historique gonflé / vous avez introduit un fichier gigantesque).

FIXES

Comment libérer la fenêtre

1) /compact (en premier)
Résumer l'historique pour libérer de la place. Vous pouvez le cibler : /compact focus on the auth bug. Conserve le contexte tout en l'allégeant.
2) /clear (nouvelle tâche)
Effacer la conversation. CLAUDE.md et les informations du projet restent. Le plus rapide quand on passe à un travail sans rapport.
3) Déléguer les grosses lectures
Lire les fichiers gigantesques par plage de lignes, ou faire en sorte qu'un subagent enquête et ne renvoie que la conclusion (il utilise sa propre fenêtre).
4) Réduire la charge fixe
Utilisez /context pour voir la répartition, puis désactivez les MCP inutilisés et allégez CLAUDE.md. /doctor signale le gonflement.
5) Un modèle 1M si c'est vraiment énorme
Uniquement quand vous en avez réellement besoin (par ex. pour traiter une grande base de code entière), basculez avec /model vers un modèle à contexte 1M. Mais faites d'abord le rangement (1-4). Ne désactivez pas l'auto-compact (laissez-le activé par défaut).

Par défaut : 1) /compact puis 2) /clear. Si le débordement est surtout une « grosse lecture », utilisez 3). S'il est chronique, réduisez la charge fixe avec 4).

À noter : /compact peut lui-même échouer avec « Conversation too long. Press esc twice... » — cela signifie que la fenêtre est déjà si pleine qu'il n'y a même plus de place pour insérer un résumé. Dans ce cas, appuyez deux fois sur Échap pour remonter de quelques messages, ou /clear pour redémarrer. Pour une économie de tokens systématique, voir l'économie de tokens dans Claude Code.

5. Distinguer trois erreurs faciles à confondre

La famille « trop long / bloqué » compte plusieurs membres, et les corrections peuvent être opposées. Distinguez ces trois (+ une) pour ne pas les confondre.

SymptômeCe dont il s'agit réellementCorrection principale
Prompt is too long / N tokens > M maximumLe sujet de cet article. L'entrée a dépassé la fenêtre de contexte/compact, /clear, déléguer les grosses lectures à un subagent, modèle 1M
Réponse coupée (stop_reason: max_tokens)La sortie a été tronquée au max_tokens que vous avez défini dans la requête (ce n'est pas un problème de fenêtre)Augmenter max_tokens / demander de continuer
usage limit reachedLe quota d'usage de votre forfait est épuisé (sans rapport avec la fenêtre de tokens)Attendre la réinitialisation ; corrections de l'usage limit
Usage credits required for 1M contextUne question de droit d'accès. Vous avez choisi un modèle [1m] non inclus dans votre forfait (ni débordement, ni quota)Activer les crédits, ou /model vers une fenêtre standard

Le critère : si vous voyez des chiffres comme « N tokens > M maximum », c'est un débordement d'entrée = cet article. Une réponse proprement tronquée est le plafond de sortie (max_tokens). « reset at [heure] » est une usage limit. « credits required for 1M » est une question de droit d'accès (forfait). Pour les autres erreurs courantes de Claude Code, voir le tour d'horizon des erreurs.

6. Liste de prévention

Des habitudes pour empêcher la fenêtre de déborder.

(1) Gardez l'auto-compact activé par défaut (ne le désactivez pas avec DISABLE_AUTO_COMPACT). (2) /clear aux limites de tâches ; /compact souvent en cours de conversation. (3) Lisez les fichiers gigantesques par plage de lignes ou via un subagent ; ne les collez pas en entier. (4) Désactivez les MCP inutilisés et ne laissez pas CLAUDE.md gonfler (vérifiez avec /doctor). (5) Vérifiez la répartition avec /context avant un travail lourd. (6) N'utilisez un modèle 1M que pour des tâches réellement volumineuses ; le reste du temps, travaillez sur la fenêtre standard + rangement.

Résumé

Le « Prompt is too long » de Claude Code / l'API signifie que l'entrée (historique de la conversation + fichiers + définitions d'outils, etc.) a dépassé la fenêtre de contexte du modèle. Via l'API, le plafond est même affiché sous la forme N tokens > M maximum. Ce n'est ni une usage limit (quota), ni un plafond de sortie (max_tokens) — c'est « l'entrée est physiquement trop volumineuse ». Claude Code l'évite généralement grâce à l'auto-compact, donc lorsqu'elle apparaît, c'est que vous avez soit dépassé la fenêtre d'un coup, soit désactivé l'auto-compact.

La fenêtre est remplie par l'historique de la conversation, les lectures de fichiers, les résultats d'outils (dynamiques) + les définitions MCP, CLAUDE.md, le system prompt (fixes). Les corrections les plus rapides sont (1) /compact -> (2) /clear -> (3) déléguer les grosses lectures à un subagent -> (4) réduire la charge fixe avec /context -> (5) un modèle 1M seulement si c'est vraiment nécessaire. Les tailles de fenêtre sont le standard 200K et le 1M ; le 1M est au tarif standard en 2026, mais notez que les abonnements peuvent nécessiter des crédits et que le nouveau tokenizer consomme davantage. La règle de base : avant d'élargir la fenêtre, arrêtez de l'encombrer. À lire aussi : Qu'est-ce qu'une fenêtre de contexte, l'ingénierie de contexte, corrections de l'usage limit.

FAQ

Q. « Prompt is too long » et « usage limit reached » sont-ils la même chose ?
A. Complètement différents. « Prompt is too long » signifie qu'une seule entrée a dépassé la fenêtre de contexte (la limite de tokens). « usage limit reached » signifie que vous avez épuisé le quota d'usage de votre forfait — sans rapport avec la fenêtre de tokens. La première se corrige instantanément en libérant la fenêtre avec /compact ou /clear ; la seconde exige d'attendre une réinitialisation ou une action sur le forfait.

Q. Elle n'apparaît jamais normalement, puis surgit soudainement. Pourquoi ?
A. Claude Code a l'auto-compact activé par défaut, qui résume automatiquement l'historique pour l'éviter à mesure que la fenêtre approche de la saturation. Si elle apparaît malgré tout, c'est généralement parce que (1) vous avez introduit un fichier gigantesque ou une énorme quantité de données d'un coup et dépassé la fenêtre, ou (2) vous avez désactivé l'auto-compact avec DISABLE_AUTO_COMPACT. Corrigez le premier cas par un découpage / des lectures par plage de lignes / un subagent, le second en réactivant l'auto-compact.

Q. J'ai lancé /compact et obtenu « Conversation too long » — il ne peut même pas résumer.
A. La fenêtre est déjà si pleine qu'il n'y a même plus de place pour insérer un résumé. Appuyez deux fois sur Échap pour remonter de quelques messages et réessayez, ou /clear pour redémarrer la conversation. À partir de là, faites /compact avant qu'elle ne se remplisse et déléguez les grosses lectures à un subagent pour éviter que cela ne se reproduise.

Q. Passer à un modèle à contexte 1M résoudra-t-il le problème ?
A. Cela aide pour les tâches volumineuses, mais ce n'est pas une panacée. Élargir la fenêtre tout en gardant un historique encombré, des lectures de fichiers entiers inutiles et des MCP non utilisés ne fait qu'augmenter le coût et ralentir les réponses. De plus, les modèles plus récents utilisent un tokenizer modifié qui consomme environ 30 à 35 % de tokens en plus pour le même texte, si bien qu'il contient moins que ce qu'on imagine. Le bon réflexe est de ranger d'abord (compact/clear/subagent), puis de n'utiliser le 1M que lorsque c'est vraiment nécessaire. Notez que les abonnements peuvent nécessiter des crédits pour [1m].

Q. Je veux savoir ce qui consomme la fenêtre.
A. Le /context de Claude Code affiche la répartition — system prompt, CLAUDE.md, définitions d'outils MCP, historique de la conversation, fichiers lus, etc. Dans la plupart des cas, l'historique de la conversation en perpétuelle croissance et les lectures de gros fichiers sont les principaux coupables. /doctor signale aussi un CLAUDE.md ou des définitions de subagent surdimensionnés. Si la charge fixe (définitions MCP, CLAUDE.md) est importante, c'est efficace de la réduire.