Sommaire
Avez-vous déjà été stoppé net par cette erreur dans Claude Code ou via l'API ?
Prompt is too long
# On the API, more specifically:
prompt is too long: 233153 tokens > 200000 maximum
« Le prompt est trop long » — autrement dit, l'entrée que vous tentez d'envoyer (historique de la conversation + fichiers joints + définitions d'outils, etc.) dépasse la fenêtre de contexte du modèle (la limite d'entrée). Via l'API, on vous indique même « combien de tokens, par rapport à quel maximum » comme dans 233153 tokens > 200000 maximum. C'est différent d'une usage limit — vous n'avez pas épuisé votre quota ; c'est simplement qu'une seule entrée est physiquement trop volumineuse.
Trois points clés d'emblée. (1) La cause est « l'entrée ne tient pas dans la fenêtre ». Ce n'est pas le plafond de sortie max_tokens, ni le quota usage limit. (2) Claude Code l'évite normalement automatiquement grâce à l'auto-compact (résumé automatique), donc lorsque vous la voyez, c'est que vous avez soit « dépassé la fenêtre d'un coup », soit désactivé l'auto-compact. (3) Les corrections les plus rapides sont /compact pour résumer l'historique, /clear pour repartir de zéro, et déléguer les lectures volumineuses à un subagent. Cet article couvre ce qui remplit la fenêtre, les tailles de fenêtre (200K et 1M), comment la corriger, et comment la distinguer des erreurs prêtant à confusion — à partir des informations officielles.
Jusqu'à ce que la « fenêtre » soit pleine
— ce qui remplit le contexte, et quand il déborde
tout s'empile jusqu'à 100 %, puis...
too long
Normalement, auto-compact
résume avant le débordement
Cela signifie que la « fenêtre d'entrée » est pleine — ce n'est pas une usage limit (quota), ni un plafond de sortie (max_tokens).
Les proportions empilées sont illustratives. Vérifiez la répartition réelle avec /context.
1. Ce que cette erreur veut dire
Les modèles d'IA ont une limite d'entrée appelée « fenêtre de contexte » (context window). C'est « la quantité maximale d'informations qu'on peut lire en un seul échange », comptée en tokens (en gros, des fragments de mots). Prompt is too long signifie que le total de tokens de l'entrée que vous avez essayé d'envoyer dépasse cette fenêtre. Via l'API, on affiche même les chiffres : 233153 tokens > 200000 maximum (vous avez envoyé 233 153 tokens ; la limite est de 200 000).
Le point essentiel, c'est que cela concerne le côté entrée. La fenêtre de contexte additionne l'historique de la conversation, les fichiers joints/lus, les résultats d'exécution d'outils, le system prompt et les définitions d'outils MCP. Poursuivez une longue conversation, lisez un fichier gigantesque en entier, ou empilez beaucoup de sorties d'outils, et la fenêtre se remplit progressivement et finit par déborder. Pour la notion elle-même, voir Qu'est-ce qu'une fenêtre de contexte.
À noter que Claude Code a généralement l'auto-compact (résumé automatique) activé par défaut, qui résume automatiquement l'historique pour libérer de la place à mesure que la fenêtre approche de la saturation. Donc normalement, vous ne voyez jamais cette erreur. Si elle apparaît malgré tout, c'est généralement parce que (1) une seule entrée a dépassé la fenêtre d'un coup (par ex. en collant un fichier gigantesque), ou (2) vous avez désactivé l'auto-compact (DISABLE_AUTO_COMPACT).
2. Ce qui remplit la fenêtre de contexte
« Elle déborde plus vite que prévu » parce que des éléments invisibles consomment eux aussi la fenêtre. Voici la répartition principale d'après la documentation officielle de Claude Code.
| Ce qui remplit la fenêtre | Contenu | Comment l'alléger |
|---|---|---|
| Historique de la conversation | Chaque tour utilisateur/assistant. Le facteur le plus important — il ne cesse de croître tant qu'on ne l'efface pas | /compact pour résumer, /clear pour redémarrer |
| Fichiers lus | Chaque fichier que vous lisez (Read) entre dans la fenêtre. Lire un fichier gigantesque en entier est lourd | Lire par plages de lignes ; déléguer les grosses lectures à un subagent |
| Résultats d'outils | Sorties de commandes, résultats de recherche, etc. s'accumulent aussi | Éviter les sorties volumineuses inutiles ; compacter souvent |
| Définitions d'outils MCP | Définitions d'outils des serveurs MCP connectés. Plus il y a de serveurs, plus ils consomment dès le départ | Désactiver les MCP inutilisés avec /mcp |
| CLAUDE.md / mémoire | Instructions de projet/globales, mémoire automatique. Toujours chargées | Éviter le gonflement ; vérifier avec /doctor |
| System prompt | Instructions de comportement fondamentales. Toujours présent, fixe, intouchable | (Impossible à réduire. Réduisez le reste) |
Le point clé : « l'historique de la conversation, les lectures de fichiers, les résultats d'outils » sont des facteurs dynamiques qui croissent, tandis que « les définitions MCP, CLAUDE.md, le system prompt » sont des facteurs fixes présents dès le départ. L'astuce, c'est qu'un subagent dispose de SA PROPRE fenêtre — déléguez la lecture d'un fichier gigantesque ou une investigation à un subagent et son résultat (les données brutes lourdes) n'entre jamais dans votre fenêtre principale. Voyez exactement ce qui consomme la fenêtre avec /context. Pour la discipline consistant à concevoir le contexte de manière délibérée, voir l'ingénierie de contexte.
3. Tailles de fenêtre — 200K et 1M
« Quel est le maximum » dépend du modèle. Voici le panorama de 2026 (les valeurs précises pouvant être révisées, confirmez la dernière liste officielle).
La fenêtre peut varier d'un facteur 5
[1m].[1m] peut nécessiter des crédits d'usage. (2) Les modèles plus récents utilisent un tokenizer modifié qui consomme environ 30 à 35 % de tokens en plus pour le même texte (si bien que même 1M contient moins que ce qu'on imagine). Avant d'élargir la fenêtre, le réflexe de base est de ne pas l'encombrer.Les tailles de fenêtre, la prise en charge du 1M et les tarifs sont révisés au fil du temps. Ne mémorisez pas des valeurs figées — confirmez dans la dernière liste officielle des modèles.
On est tenté de penser « passer à un modèle 1M résout tout », mais une fenêtre plus grande est une échappatoire, pas toujours une solution. Élargissez la fenêtre tout en gardant une conversation encombrée, des lectures de fichiers entiers inutiles et des MCP non utilisés, et vous ne ferez qu'augmenter le coût et ralentir les réponses. L'approche habile consiste à d'abord ranger la fenêtre (compact, clear, subagents), et à n'utiliser le 1M que pour les tâches réellement volumineuses qui en ont encore besoin.
4. Comment la corriger tout de suite
Les actions à mener au moment où l'erreur apparaît, par ordre de priorité. Choisissez selon la situation (historique gonflé / vous avez introduit un fichier gigantesque).
Comment libérer la fenêtre
/compact focus on the auth bug. Conserve le contexte tout en l'allégeant./context pour voir la répartition, puis désactivez les MCP inutilisés et allégez CLAUDE.md. /doctor signale le gonflement./model vers un modèle à contexte 1M. Mais faites d'abord le rangement (1-4). Ne désactivez pas l'auto-compact (laissez-le activé par défaut).Par défaut : 1) /compact puis 2) /clear. Si le débordement est surtout une « grosse lecture », utilisez 3). S'il est chronique, réduisez la charge fixe avec 4).
À noter : /compact peut lui-même échouer avec « Conversation too long. Press esc twice... » — cela signifie que la fenêtre est déjà si pleine qu'il n'y a même plus de place pour insérer un résumé. Dans ce cas, appuyez deux fois sur Échap pour remonter de quelques messages, ou /clear pour redémarrer. Pour une économie de tokens systématique, voir l'économie de tokens dans Claude Code.
5. Distinguer trois erreurs faciles à confondre
La famille « trop long / bloqué » compte plusieurs membres, et les corrections peuvent être opposées. Distinguez ces trois (+ une) pour ne pas les confondre.
| Symptôme | Ce dont il s'agit réellement | Correction principale |
|---|---|---|
| Prompt is too long / N tokens > M maximum | Le sujet de cet article. L'entrée a dépassé la fenêtre de contexte | /compact, /clear, déléguer les grosses lectures à un subagent, modèle 1M |
| Réponse coupée (stop_reason: max_tokens) | La sortie a été tronquée au max_tokens que vous avez défini dans la requête (ce n'est pas un problème de fenêtre) | Augmenter max_tokens / demander de continuer |
| usage limit reached | Le quota d'usage de votre forfait est épuisé (sans rapport avec la fenêtre de tokens) | Attendre la réinitialisation ; corrections de l'usage limit |
| Usage credits required for 1M context | Une question de droit d'accès. Vous avez choisi un modèle [1m] non inclus dans votre forfait (ni débordement, ni quota) | Activer les crédits, ou /model vers une fenêtre standard |
Le critère : si vous voyez des chiffres comme « N tokens > M maximum », c'est un débordement d'entrée = cet article. Une réponse proprement tronquée est le plafond de sortie (max_tokens). « reset at [heure] » est une usage limit. « credits required for 1M » est une question de droit d'accès (forfait). Pour les autres erreurs courantes de Claude Code, voir le tour d'horizon des erreurs.
6. Liste de prévention
Des habitudes pour empêcher la fenêtre de déborder.
(1) Gardez l'auto-compact activé par défaut (ne le désactivez pas avec DISABLE_AUTO_COMPACT). (2) /clear aux limites de tâches ; /compact souvent en cours de conversation. (3) Lisez les fichiers gigantesques par plage de lignes ou via un subagent ; ne les collez pas en entier. (4) Désactivez les MCP inutilisés et ne laissez pas CLAUDE.md gonfler (vérifiez avec /doctor). (5) Vérifiez la répartition avec /context avant un travail lourd. (6) N'utilisez un modèle 1M que pour des tâches réellement volumineuses ; le reste du temps, travaillez sur la fenêtre standard + rangement.
Résumé
Le « Prompt is too long » de Claude Code / l'API signifie que l'entrée (historique de la conversation + fichiers + définitions d'outils, etc.) a dépassé la fenêtre de contexte du modèle. Via l'API, le plafond est même affiché sous la forme N tokens > M maximum. Ce n'est ni une usage limit (quota), ni un plafond de sortie (max_tokens) — c'est « l'entrée est physiquement trop volumineuse ». Claude Code l'évite généralement grâce à l'auto-compact, donc lorsqu'elle apparaît, c'est que vous avez soit dépassé la fenêtre d'un coup, soit désactivé l'auto-compact.
La fenêtre est remplie par l'historique de la conversation, les lectures de fichiers, les résultats d'outils (dynamiques) + les définitions MCP, CLAUDE.md, le system prompt (fixes). Les corrections les plus rapides sont (1) /compact -> (2) /clear -> (3) déléguer les grosses lectures à un subagent -> (4) réduire la charge fixe avec /context -> (5) un modèle 1M seulement si c'est vraiment nécessaire. Les tailles de fenêtre sont le standard 200K et le 1M ; le 1M est au tarif standard en 2026, mais notez que les abonnements peuvent nécessiter des crédits et que le nouveau tokenizer consomme davantage. La règle de base : avant d'élargir la fenêtre, arrêtez de l'encombrer. À lire aussi : Qu'est-ce qu'une fenêtre de contexte, l'ingénierie de contexte, corrections de l'usage limit.
FAQ
Q. « Prompt is too long » et « usage limit reached » sont-ils la même chose ?
A. Complètement différents. « Prompt is too long » signifie qu'une seule entrée a dépassé la fenêtre de contexte (la limite de tokens). « usage limit reached » signifie que vous avez épuisé le quota d'usage de votre forfait — sans rapport avec la fenêtre de tokens. La première se corrige instantanément en libérant la fenêtre avec /compact ou /clear ; la seconde exige d'attendre une réinitialisation ou une action sur le forfait.
Q. Elle n'apparaît jamais normalement, puis surgit soudainement. Pourquoi ?
A. Claude Code a l'auto-compact activé par défaut, qui résume automatiquement l'historique pour l'éviter à mesure que la fenêtre approche de la saturation. Si elle apparaît malgré tout, c'est généralement parce que (1) vous avez introduit un fichier gigantesque ou une énorme quantité de données d'un coup et dépassé la fenêtre, ou (2) vous avez désactivé l'auto-compact avec DISABLE_AUTO_COMPACT. Corrigez le premier cas par un découpage / des lectures par plage de lignes / un subagent, le second en réactivant l'auto-compact.
Q. J'ai lancé /compact et obtenu « Conversation too long » — il ne peut même pas résumer.
A. La fenêtre est déjà si pleine qu'il n'y a même plus de place pour insérer un résumé. Appuyez deux fois sur Échap pour remonter de quelques messages et réessayez, ou /clear pour redémarrer la conversation. À partir de là, faites /compact avant qu'elle ne se remplisse et déléguez les grosses lectures à un subagent pour éviter que cela ne se reproduise.
Q. Passer à un modèle à contexte 1M résoudra-t-il le problème ?
A. Cela aide pour les tâches volumineuses, mais ce n'est pas une panacée. Élargir la fenêtre tout en gardant un historique encombré, des lectures de fichiers entiers inutiles et des MCP non utilisés ne fait qu'augmenter le coût et ralentir les réponses. De plus, les modèles plus récents utilisent un tokenizer modifié qui consomme environ 30 à 35 % de tokens en plus pour le même texte, si bien qu'il contient moins que ce qu'on imagine. Le bon réflexe est de ranger d'abord (compact/clear/subagent), puis de n'utiliser le 1M que lorsque c'est vraiment nécessaire. Notez que les abonnements peuvent nécessiter des crédits pour [1m].
Q. Je veux savoir ce qui consomme la fenêtre.
A. Le /context de Claude Code affiche la répartition — system prompt, CLAUDE.md, définitions d'outils MCP, historique de la conversation, fichiers lus, etc. Dans la plupart des cas, l'historique de la conversation en perpétuelle croissance et les lectures de gros fichiers sont les principaux coupables. /doctor signale aussi un CLAUDE.md ou des définitions de subagent surdimensionnés. Si la charge fixe (définitions MCP, CLAUDE.md) est importante, c'est efficace de la réduire.