¿Alguna vez te has quedado bloqueado de golpe por este error en Claude Code o en la API?

Prompt is too long

# On the API, more specifically:
prompt is too long: 233153 tokens > 200000 maximum

"The prompt is too long" (el prompt es demasiado largo) — es decir, la entrada que intentas enviar (historial de conversación + archivos adjuntos + definiciones de herramientas, etc.) supera la ventana de contexto del modelo (el límite de entrada). En la API incluso te indica "cuántos tokens, frente a qué máximo", como en 233153 tokens > 200000 maximum. Esto es distinto de un límite de uso (usage limit): no es que hayas agotado tu cuota; simplemente una sola entrada es físicamente demasiado grande.

Tres ideas clave por adelantado. (1) La causa es "la entrada no cabe en la ventana". No es el corte de salida de max_tokens, ni la cuota del usage limit. (2) Claude Code normalmente lo evita de forma automática mediante auto-compact (auto-resumen), así que cuando lo ves, o bien "superaste la ventana de golpe" o tienes auto-compact desactivado. (3) Las soluciones más rápidas son /compact para resumir el historial, /clear para empezar de cero, y derivar las lecturas enormes a un subagent. Este artículo cubre qué llena la ventana, los tamaños de ventana (200K y 1M), cómo solucionarlo y cómo distinguirlo de errores que se confunden, basándose en información oficial.

CLAUDE CODE · CONTEXT WINDOW

Hasta que la "ventana" se llena

— qué llena el contexto, y cuándo se desborda

system prompt
CLAUDE.md
definiciones MCP
archivos leídos
resultados de herramientas
conversación (crece)

se acumulan hasta el 100%, y entonces...

100%
= 200K / 1M tokens
Prompt is
too long

Normalmente auto-compact
resume antes del desbordamiento

Esto significa que la "ventana de entrada" está llenano es un límite de uso (cuota), ni un corte de salida (max_tokens).
Las proporciones de la pila son ilustrativas. Comprueba el desglose real con /context.

1. Qué te está diciendo este error

Los modelos de IA tienen un límite de entrada llamado "ventana de contexto" (context window). Es "la cantidad máxima de información que se puede leer en un solo intercambio", medida en tokens (a grandes rasgos, fragmentos de palabras). Prompt is too long significa que el total de tokens de la entrada que intentaste enviar supera esa ventana. En la API incluso imprime las cifras: 233153 tokens > 200000 maximum (enviaste 233.153 tokens; el límite es 200.000).

El punto clave es que esto tiene que ver con el lado de la entrada. La ventana de contexto suma el historial de conversación, los archivos adjuntos/leídos, los resultados de ejecución de herramientas, el system prompt y las definiciones de herramientas de MCP. Mantén una conversación larga, lee un archivo gigante entero o acumula mucha salida de herramientas, y la ventana se llena poco a poco y en algún momento se desborda. Para el concepto en sí, consulta Qué es una ventana de contexto.

Ten en cuenta que Claude Code normalmente tiene auto-compact (auto-resumen) activado por defecto, lo cual resume automáticamente el historial para liberar espacio a medida que la ventana se acerca al límite. Por eso normalmente nunca ves este error. Si aun así aparece, suele ser porque (1) una sola entrada superó la ventana de golpe (por ejemplo, pegar un archivo gigante), o (2) desactivaste auto-compact (DISABLE_AUTO_COMPACT).

2. Qué llena la ventana de contexto

"Se desborda más rápido de lo esperado" porque hay elementos invisibles que también consumen la ventana. Aquí tienes el desglose principal según la documentación oficial de Claude Code.

Qué llena la ventanaContenidoCómo aligerarlo
Historial de conversaciónCada turno de usuario/asistente. El mayor factor: sigue creciendo hasta que se borra/compact para resumir, /clear para reiniciar
Archivos leídosCada archivo que lees (Read) entra en la ventana. Leer un archivo gigante entero pesa muchoLee por rangos de líneas; deriva las lecturas grandes a un subagent
Resultados de herramientasSalida de comandos, resultados de búsqueda, etc. también se acumulanEvita salidas enormes innecesarias; haz compact a menudo
Definiciones de herramientas MCPDefiniciones de herramientas de los servidores MCP conectados. Cuantos más servidores, más consumen desde el inicioDesactiva los MCP no usados con /mcp
CLAUDE.md / memoriaInstrucciones de proyecto/globales, memoria automática. Siempre cargadasEvita que se hinche; revisa con /doctor
System promptInstrucciones de comportamiento básico. Siempre presente, fijo, intocable(No se puede recortar. Reduce el resto)

La idea: "historial de conversación, lecturas de archivos, resultados de herramientas" son factores dinámicos que crecen, mientras que "definiciones MCP, CLAUDE.md, system prompt" son factores fijos presentes desde el inicio. El truco está en que un subagent tiene su PROPIA ventana: deriva una lectura de archivo gigante o una investigación a un subagent y su resultado (los datos brutos pesados) nunca entra en tu ventana principal. Comprueba exactamente qué se está comiendo la ventana con /context. Para la disciplina de diseñar el contexto de forma deliberada, consulta context engineering.

3. Tamaños de ventana — 200K y 1M

"Cuál es el máximo" depende del modelo. Aquí está el panorama general de 2026 (los valores concretos pueden revisarse, así que confirma la lista oficial más reciente).

200K vs 1M

La ventana puede variar 5 veces

Estándar 200K tokens
Sonnet 4.5, Haiku 4.5, Opus 4.5, etc. El "200000 maximum" que ves en el error es este. Más que suficiente para la mayoría del trabajo diario, pero se desborda con facilidad en bases de código enormes o sesiones largas.
1M tokens
Opus 4.8/4.7/4.6, Sonnet 4.6, etc. 5 veces el estándar. A fecha de 2026 está disponible a precio estándar (actualmente sin recargo por contexto largo). En Claude Code aparece con el sufijo [1m].
Atención: 1M no es una panacea
(1) En suscripciones, un modelo [1m] puede requerir créditos de uso. (2) Los modelos más recientes usan un tokenizador modificado que consume aproximadamente un 30-35% más de tokens para el mismo texto (así que incluso 1M cabe menos de lo que parece). Antes de ampliar la ventana, lo básico es no abarrotarla.

Los tamaños de ventana, el soporte de 1M y los precios se revisan con el tiempo. No memorices valores fijos — confírmalos en la lista oficial de modelos más reciente.

Es tentador pensar "cambiar a un modelo de 1M lo resuelve todo", pero una ventana más grande es una vía de escape, no siempre una solución. Amplía la ventana manteniendo una conversación abarrotada, lecturas inútiles de archivos enteros y MCP no usados, y solo aumentarás el coste y ralentizarás las respuestas. El enfoque hábil es primero ordenar la ventana (compact, clear, subagents) y usar 1M solo para las tareas genuinamente grandes que aún lo necesiten.

4. Cómo solucionarlo ahora mismo

Movimientos para el momento en que aparece el error, por orden de prioridad. Elige según la situación (el historial se hinchó / metiste un archivo gigante).

FIXES

Cómo liberar la ventana

1) /compact (primero)
Resume el historial para liberar espacio. Puedes enfocarlo: /compact focus on the auth bug. Mantiene el contexto a la vez que adelgaza.
2) /clear (tarea nueva)
Borra la conversación. CLAUDE.md y la información del proyecto permanecen. Lo más rápido cuando pasas a un trabajo no relacionado.
3) Deriva las lecturas grandes
Lee los archivos gigantes por rango de líneas, o haz que un subagent investigue y devuelva solo la conclusión (usa su propia ventana).
4) Recorta la carga fija
Usa /context para ver el desglose, luego desactiva los MCP no usados y adelgaza CLAUDE.md. /doctor señala lo hinchado.
5) Un modelo 1M si de verdad es enorme
Solo cuando lo necesites de verdad (por ejemplo, manejar una base de código grande entera), cambia con /model a un modelo de contexto 1M. Pero haz primero el ordenado (1-4). No desactives auto-compact (déjalo activado por defecto).

Por defecto: 1) /compact y luego 2) /clear. Si el desbordamiento es principalmente una "lectura grande", usa 3). Si es crónico, recorta la carga fija con 4).

Nota: /compact en sí puede fallar con "Conversation too long. Press esc twice..." — eso significa que la ventana ya está tan llena que no hay sitio ni para insertar un resumen. En ese caso, pulsa Esc dos veces para subir unos mensajes, o usa /clear para reiniciar. Para un ahorro sistemático de tokens, consulta Ahorro de tokens en Claude Code.

5. Distinguir tres errores que se confunden

La familia "demasiado largo / atascado" tiene varios miembros, y las soluciones pueden ser opuestas. Distingue estos tres (+ uno) para no confundirlos.

SíntomaQué es en realidadSolución principal
Prompt is too long / N tokens > M maximumEl tema de este artículo. La entrada superó la ventana de contexto/compact, /clear, derivar las lecturas grandes a un subagent, modelo 1M
Respuesta cortada (stop_reason: max_tokens)La salida se truncó en el max_tokens que fijaste en la petición (no es un problema de ventana)Sube max_tokens / pídele que continúe
usage limit reachedHas gastado la cuota de uso de tu plan (no tiene relación con la ventana de tokens)Espera al reinicio; soluciones de usage limit
Usage credits required for 1M contextUna cuestión de autorización. Elegiste un modelo [1m] no incluido en tu plan (ni desbordamiento, ni cuota)Activa créditos, o usa /model para pasar a una ventana estándar

El eje: si ves cifras como "N tokens > M maximum", es desbordamiento de entrada = este artículo. Una respuesta truncada limpiamente es el tope de salida (max_tokens). "reset at [hora]" es un usage limit. "credits required for 1M" es una cuestión de autorización (plan). Para otros errores comunes de Claude Code, consulta el resumen de errores.

6. Lista de prevención

Hábitos para evitar que la ventana se desborde.

(1) Mantén auto-compact activado por defecto (no lo desactives con DISABLE_AUTO_COMPACT). (2) Haz /clear en los límites de tarea; /compact a menudo a mitad de conversación. (3) Lee los archivos gigantes por rango de líneas o mediante un subagent; no los pegues enteros. (4) Desactiva los MCP no usados y no dejes que CLAUDE.md se hinche (revisa con /doctor). (5) Comprueba el desglose con /context antes del trabajo pesado. (6) Usa un modelo 1M solo para tareas genuinamente grandes; el resto del tiempo trabaja con la ventana estándar + ordenado.

Resumen

El "Prompt is too long" de Claude Code / la API significa que la entrada (historial de conversación + archivos + definiciones de herramientas, etc.) superó la ventana de contexto del modelo. En la API incluso muestra el tope como N tokens > M maximum. No es ni un límite de uso (cuota) ni un corte de salida (max_tokens) — es "la entrada es físicamente demasiado grande". Claude Code normalmente lo evita mediante auto-compact, así que cuando aparece o bien superaste la ventana de golpe o desactivaste auto-compact.

La ventana se llena con el historial de conversación, las lecturas de archivos, los resultados de herramientas (dinámicos) + las definiciones MCP, CLAUDE.md, el system prompt (fijos). Las soluciones más rápidas son (1) /compact -> (2) /clear -> (3) derivar las lecturas grandes a un subagent -> (4) recortar la carga fija con /context -> (5) un modelo 1M solo si de verdad hace falta. Los tamaños de ventana son el estándar 200K y 1M; 1M está a precio estándar a fecha de 2026, pero ten en cuenta que las suscripciones pueden requerir créditos y el nuevo tokenizador consume más. La regla básica: antes de ampliar la ventana, deja de abarrotarla. Relacionado: Qué es una ventana de contexto, context engineering, soluciones de usage limit.

FAQ

Q. ¿Son lo mismo "Prompt is too long" y "usage limit reached"?
A. Completamente distintos. "Prompt is too long" significa que una sola entrada superó la ventana de contexto (el límite de tokens). "usage limit reached" significa que gastaste la cuota de uso de tu plan — no tiene relación con la ventana de tokens. El primero se soluciona al instante liberando la ventana con /compact o /clear; el segundo requiere esperar a un reinicio o una acción sobre el plan.

Q. Normalmente no aparece, y de repente surgió. ¿Por qué?
A. Claude Code tiene auto-compact activado por defecto, que auto-resume el historial para evitarlo a medida que la ventana se acerca al límite. Si aun así aparece, suele ser porque (1) metiste un archivo gigante o una cantidad enorme de datos de golpe y superaste la ventana, o (2) desactivaste auto-compact con DISABLE_AUTO_COMPACT. Soluciona lo primero dividiendo / leyendo por rangos de líneas / con un subagent, y lo segundo reactivando auto-compact.

Q. Ejecuté /compact y me salió "Conversation too long" — ni siquiera puede resumir.
A. La ventana ya está tan llena que no hay sitio ni para insertar un resumen. Pulsa Esc dos veces para subir unos mensajes y reintenta, o usa /clear para reiniciar la conversación. A partir de ahí, haz /compact antes de que se llene y deriva las lecturas grandes a un subagent para prevenir que se repita.

Q. ¿Cambiar a un modelo de contexto 1M lo resolverá?
A. Ayuda en tareas grandes, pero no es una panacea. Ampliar la ventana manteniendo un historial abarrotado, lecturas inútiles de archivos enteros y MCP no usados solo aumenta el coste y ralentiza las respuestas. Además, los modelos más recientes usan un tokenizador modificado que usa aproximadamente un 30-35% más de tokens para el mismo texto, así que cabe menos de lo que parece. La jugada inteligente es ordenar primero (compact/clear/subagent), y usar 1M solo cuando de verdad haga falta. Ten en cuenta que las suscripciones pueden requerir créditos para [1m].

Q. Quiero saber qué se está comiendo la ventana.
A. El /context de Claude Code muestra el desglose — system prompt, CLAUDE.md, definiciones de herramientas MCP, historial de conversación, archivos leídos, etc. En la mayoría de los casos, el historial de conversación en constante crecimiento y las lecturas de archivos grandes son los principales culpables. /doctor también señala un CLAUDE.md hinchado o definiciones de subagent. Si la carga fija (definiciones MCP, CLAUDE.md) es grande, recortar eso es eficaz.