Índice
- 1. Cinco modelos de 1M de tokens en un año, pero solo uno lee de verdad todo el contenido
- 2. ¿Qué es el contexto? — Separa el contenedor de su contenido
- 3. Modelos principales en mayo de 2026 — Tamaños del contenedor
- 4. Tres razones por las que "más grande es mejor" no se sostiene
- 5. La trampa del coste — OpenAI duplica por encima de 272K, Anthropic mantiene tarifa plana
- 6. Cinco tácticas de ahorro — Ordenadas por impacto real para devs en solitario
- Resumen
- Preguntas frecuentes
En 2023, una ventana de contexto de 32K tokens parecía "espaciosa". En mayo de 2026, 1 millón de tokens (1M) se ha convertido en el estándar de la industria. Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.5, Gemini 3.1 Pro, DeepSeek V4-Pro: todos los modelos frontera principales soportan 1M. Gemini 3.1 Ultra ha alcanzado los 2M.
"Un millón de tokens" equivale aproximadamente a entre 8 y 10 libros de bolsillo en inglés, o decenas de miles de líneas de código fuente. Ahora podemos mantener todo eso "a la vista" dentro de una sola sesión. Pero hay una trampa: solo uno de estos modelos aprovecha realmente ese contenedor hasta el final. Los benchmarks independientes (multi-needle NIAH, detallados más abajo) muestran que únicamente el modo Gemini 3 Deep Think mantiene la precisión a lo largo del 1M completo. Los demás empiezan a perder precisión entre los 200K y los 400K: esa es la realidad de campo honesta de 2026.
Permíteme adelantar mi opinión: la era de elegir un modelo solo por el tamaño del contenedor ha terminado. Lo que importa ahora es el trío "contexto efectivo × coste × estrategia", y el movimiento de Anthropic hacia la tarifa plana de 1M es el matiz más interesante del año. Este artículo recorre qué es realmente el contexto, el catálogo de modelos en mayo de 2026, por qué el tamaño no basta por sí solo, las diferencias en estructura de costes y cinco tácticas prácticas de ahorro de contexto que los desarrolladores en solitario y los equipos pequeños pueden aplicar hoy mismo, respaldadas por cifras de benchmarks independientes.
El contenedor creció 250x en tres años
— Una cronología de cómo el 1M pasó de lujo a estándar
Pero "soportar" y "leer realmente hasta el final" son cosas distintas. Solo Gemini 3 Deep Think mantiene la precisión en todo el 1M en los benchmarks multi-needle NIAH;
los demás empiezan a degradarse entre 200K y 400K (Digital Applied, Zylos 2026).
1. Cinco modelos de 1M de tokens en un año, pero solo uno lee de verdad todo el contenido
Cuando OpenAI anunció GPT-5.5 en abril de 2026, la web lo celebró: "OpenAI por fin llega al 1M". Ese mismo mes, Google lanzó Gemini 3.1 Ultra con 2M. Anthropic había introducido el año anterior la tarifa plana de 1M en Claude Opus 4.6 y la reforzó con la 4.7. El V4-Pro de DeepSeek también llega a 1M. Cinco proveedores frontera pueden ahora escribir legítimamente "1M+ tokens" en su ficha técnica.
Esto debería haber sido un evento mayor. Hace apenas tres años, 32K parecía impresionante. Desde entonces hemos visto un salto de más de 30x en el tamaño de la ventana. La carrera por el tamaño del contenedor parecía ganada.
Después, los evaluadores independientes Digital Applied y Zylos Research ejecutaron en 2026 una prueba multi-needle Needle-in-a-Haystack (NIAH): incrustar varios datos en documentos largos y pedir a los modelos que los recuperaran todos correctamente. Esto es lo que encontraron:
- Gemini 3 Deep Think: mantiene la precisión anunciada a lo largo de todo el 1M
- Claude Opus 4.7 / GPT-5.5 / DeepSeek V4-Pro: la precisión cae a partir de los 200K–400K aproximadamente
Así que, aunque el "soporte de 1M" es universal, solo un modelo aprovecha realmente ese 1M hasta el final en condiciones equivalentes a producción. Con los demás modelos frontera, pedirles que integren múltiples datos empieza a mostrar tensiones entre los 200K y los 400K. Esa es la realidad de 2026.
No leas esto como "Claude o GPT son malos". Los casos de uso que necesitan realmente todo el 1M son raros. Si puedes leer 300K (≈ 2–3 libros de bolsillo) de forma fiable, casi cualquier tarea de programación, investigación o resumen sale adelante. La trampa es elegir un modelo solo por el titular del "soporte de 1M": eso induce a error en la decisión.
2. ¿Qué es el contexto? — Separa el contenedor de su contenido
Terminología rápida. En este ámbito tres palabras se mezclan.
Token, Ventana, Contexto
En resumen: "ventana = tamaño del contenedor", "contexto = contenido", "token = unidad".
Un contenedor grande con un contenido desordenado seguirá dándote respuestas desordenadas.
Además: no confundas "contexto" con "memoria". El contexto vive dentro de la sesión: cierras el chat y desaparece. Funciones como ChatGPT Memory o Claude Memory son, en cambio, un mecanismo de retención entre sesiones distinto. El contenido de la memoria acaba inyectándose en la ventana de contexto, pero desde el punto de vista del usuario es almacenamiento persistente frente a espacio de trabajo efímero.
3. Modelos principales en mayo de 2026 — Tamaños del contenedor
Con las definiciones claras, aquí están los tamaños de contenedor que publican hoy los principales proveedores. Todos los números provienen de las especificaciones oficiales a fecha de mayo de 2026.
| Modelo | Límite de entrada | Límite de salida | Notas |
|---|---|---|---|
| Claude Opus 4.7 | 1.000.000 | 128.000 | 1M plano al precio estándar, sin necesidad de cabecera beta |
| Claude Sonnet 4.6 | 1.000.000 | 64.000 | Misma tarifa plana |
| Claude Haiku 4.5 | 200.000 | 64.000 | Modelo ligero, sin nivel 1M |
| GPT-5.5 | 922.000 | 128.000 | Total API ~1M; precio de entrada x2 por encima de 272K |
| GPT-5.4 | 1.000.000 | 128.000 | Mismo recargo de contexto largo |
| Gemini 3.1 Pro | 1.000.000 | 65.535 | Disponible vía Vertex AI / AI Studio |
| Gemini 3.1 Ultra | 2.000.000 | 65.535 | Nivel 2M: actualmente el único modelo comercial de 2M |
| Grok 4 | 256.000 | 32.000 | Especificación oficial de xAI; conservadora entre los frontera |
| DeepSeek V4-Pro | 1.000.000 | 96.000 | El mayor del nivel open-weight |
Si te quedas solo con la tabla, concluirías "Gemini Ultra gana, fin de la historia". Pero hay un dato que merece ser destacado: Anthropic ofrece 1M con tarifa plana en Opus 4.6/4.7 y Sonnet 4.6, mientras que OpenAI duplica el precio de entrada de GPT-5.5 por encima de los 272K tokens. No es solo una palanca de precios: es una postura estratégica sobre cómo deben gestionarse las cargas de contexto largo. Profundizaremos en las matemáticas del coste en una sección posterior.
Personalmente, mantengo Claude Opus 4.7 como mi caballo de batalla para trabajo de formato largo. Tres razones: tarifa plana, precisión estable hasta la franja de los 200K y la calidad de la documentación de Anthropic. Para documentos que superan realmente los 300K, cambio a Gemini 3 Deep Think. Mezclar modelos según el caso de uso es el movimiento correcto en 2026.
4. Tres razones por las que "más grande es mejor" no se sostiene
La tabla anterior solo listaba tamaños físicos del contenedor. La pregunta más difícil es si los modelos aprovechan realmente lo que anuncian. Respuesta corta: salvo Gemini 3 Deep Think, el panorama es desolador. Tres razones.
Razón ①: Lost in the Middle
Documentado por primera vez por Stanford en 2023 y reproducido en cada generación de modelos desde entonces. La IA pondera mucho el inicio y el final de la entrada y resta peso al medio (la zona posicional del 30–70%). La información colocada cerca del centro de un contexto de 100K se recupera con una precisión de 5 a 15 puntos porcentuales menor que la misma información situada al inicio o al final.
El síntoma cotidiano: "pegas un PDF largo, preguntas '¿cuál es la cifra de X?' y el modelo informa mal del número que está justo en el medio". Eso es Lost in the Middle. Tres años después del artículo original de Stanford, ni siquiera los modelos frontera han cerrado del todo la brecha.
Razón ②: Context Rot
Cuanto más larga es una conversación, más se desvanecen las instrucciones iniciales. Dijiste "responde en inglés formal" al principio; veinte turnos después, el modelo ha vuelto a un fraseo informal: eso es Context Rot.
Dos causas. ① Las instrucciones iniciales quedan relativamente antiguas y se ponderan con menos peso en el historial. ② Con un historial largo, la atención se dispersa y se vuelve más difícil referenciar tokens específicos. En 2026, Anthropic ha empezado a enmarcar esto como "context engineering": una habilidad deliberada para gestionar estos efectos.
Razón ③: Contexto anunciado ≠ Contexto efectivo
Así es como se ven realmente los benchmarks más recientes de 2026 (multi-needle NIAH, en condiciones equivalentes a producción).
Contexto efectivo (integración multi-dato)
Fuentes: Digital Applied "Long-Context Retrieval 2026" / Zylos Research "LLM Context Window Management 2026."
En NIAH single-needle (un solo dato a recuperar) todos los modelos pasan el 1M, pero la integración multi-dato cuenta otra historia.
Para insistir: esto no significa "Claude Opus 4.7 está roto". 200K–400K siguen equivaliendo a 2 o 3 novelas de bolsillo de capacidad. La mayoría de las tareas reales (revisión de código, escritura de formato largo, resúmenes de reuniones, síntesis de investigación) se completan holgadamente dentro de esa franja. El problema es la suposición de que "como es de 1M, basta con meterle 1M": esa estrategia solo funciona en Gemini Deep Think.
5. La trampa del coste — OpenAI duplica por encima de 272K, Anthropic mantiene tarifa plana
Acabamos de establecer que "lo efectivo está en 200K–400K". Súmale la segunda trampa: las entradas de contexto largo disparan la factura. Anthropic y OpenAI han adoptado estrategias opuestas en este punto.
| Modelo | Precio de entrada estándar | Recargo por contexto largo |
|---|---|---|
| Claude Opus 4.7 | 5,00 $ / 1M tokens | Plano hasta 1M, sin recargo |
| Claude Sonnet 4.6 | 3,00 $ / 1M tokens | Igual: sin recargo |
| GPT-5.5 | 5,00 $ / 1M tokens | Por encima de 272K: x2 entrada, x1,5 salida |
| GPT-5.4 | Comparable | Mismo recargo de contexto largo |
Cuentas concretas. 500K tokens de entrada + 50K tokens de salida, una sola ida y vuelta: el caso canónico de resumir una base de código grande o un informe anual de una sola pasada.
- Claude Opus 4.7: 5,00 $ × 0,5 + 25,00 $ × 0,05 = 3,75 $
- GPT-5.5 (con el recargo por exceder los 272K): 10,00 $ × 0,5 + 45,00 $ × 0,05 = 7,25 $
Eso son 3,50 $ por llamada. Ejecútalo 100 veces al día y la diferencia es de 10.500 $ al mes. Para equipos que ejecutan agentes de larga duración, la brecha alcanza fácilmente cifras de cinco dígitos al mes. El mismo patrón estructural que cubrimos en Ahorro de coste en tokens y sesiones de IA.
6. Cinco tácticas de ahorro — Ordenadas por impacto real para devs en solitario
"El contenedor es de 1M, pero lo efectivo es ~300K, y usarlo a fondo sale caro". Eso ya lo hemos cubierto. Entonces, ¿qué puedes hacer realmente sobre el terreno? Aquí van cinco tácticas que uso día a día, ordenadas por la que da mayor rendimiento.
Ahorro de contexto — Orden de prioridad
/compact o inicia una sesión nueva.
De las cinco, la táctica ① "Corta la sesión" da la mayor mejora visible. Solo con cortar el chat se reducen notablemente las alucinaciones.
La táctica ④ es para desarrolladores de API: las interfaces (claude.ai / ChatGPT) gestionan la caché automáticamente.
Mi mejor práctica personal: solo con aplicar ① y ② de forma consistente, la precisión percibida cambia notablemente. Incluso con Claude Code, en lugar de empujar una única sesión larga, pulsar /compact o iniciar una sesión nueva en cada cambio de tema mantiene estable la calidad del resultado final.
Resumen
Recapitulemos:
- Ventana de contexto = el máximo de tokens que una IA puede manejar en un intercambio. El tamaño del contenedor.
- A fecha de mayo de 2026, Claude Opus 4.7 / Sonnet 4.6 / GPT-5.5 / Gemini 3.1 Pro / DeepSeek V4-Pro soportan todos 1M; Gemini 3.1 Ultra alcanza los 2M.
- Los benchmarks independientes (multi-needle NIAH) muestran que solo Gemini 3 Deep Think mantiene la precisión a lo largo del 1M completo; los demás empiezan a desvanecerse en los 200K–400K.
- En coste, Anthropic mantiene tarifa plana mientras que OpenAI aplica un recargo por encima de 272K. Una divergencia estratégica clara.
- Las cinco tácticas — cortar la sesión, enviar extractos, reiterar al final, cachear, direccionar de forma explícita — y las tácticas ① y ② son las que más pesan.
Aunque los contenedores sean mayores, el trabajo real sigue siendo decidir qué enviar y qué dejar fuera. La habilidad con la IA en 2026 no consiste en "meterlo todo dentro". Consiste en el criterio para enviar solo lo necesario, con precisión: eso es lo que se mantiene útil a largo plazo. Tras ver a cinco proveedores autoproclamarse "1M" este año, esa es mi conclusión.
Preguntas frecuentes
OpenAI ofrece la librería tiktoken; Anthropic expone una API equivalente a countTokens() en su SDK oficial. Regla práctica: ~0,75 palabras en inglés por token, ~1–1,5 tokens por carácter CJK. El código varía según el tokenizador, así que mide antes de enviar entradas largas.
El contexto vive solo dentro de la sesión: cierras el chat y desaparece. La memoria (ChatGPT Memory / Claude Memory) es un mecanismo distinto de retención entre sesiones. El contenido de la memoria acaba inyectándose en la ventana de contexto, pero desde el punto de vista del usuario es persistente frente a efímero.
RAG es el patrón de "traer dinámicamente al contexto solo la información necesaria". Incluso con una ventana de 1M, volcarlo todo lo vuelve lento, pesado y caro, así que recuperar y luego cargar (RAG) sigue siendo el enfoque dominante. Más en Qué es RAG.
El desajuste entre las longitudes de secuencia en entrenamiento y en inferencia, los límites de la codificación posicional del mecanismo de atención y la explosión de cómputo necesaria para integrar múltiples datos se acumulan. "Soportado" y "precisión mantenida en todo el rango" son problemas distintos.
Sí. MCP es un mecanismo de obtención bajo demanda mediante herramientas, así que no necesitas cargar todo en el contexto desde el principio. Cambia el modelo mental de "pegar el archivo entero" a "deja que vaya a leer el archivo".