Em 2023, uma janela de contexto de 32K tokens parecia "espaçosa". Em maio de 2026, 1 milhão de tokens (1M) virou o padrão da indústria. Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.5, Gemini 3.1 Pro, DeepSeek V4-Pro — todos os principais modelos de fronteira suportam 1M. O Gemini 3.1 Ultra chegou a 2M.

"Um milhão de tokens" se traduz aproximadamente em 8 a 10 livros de bolso em inglês, ou dezenas de milhares de linhas de código-fonte. Agora podemos manter tudo isso "à vista" em uma única sessão. Mas tem um detalhe: apenas um desses modelos realmente usa esse recipiente até o fim. Benchmarks independentes (multi-needle NIAH, detalhados adiante) mostram que somente o modo Gemini 3 Deep Think mantém a precisão por todo o 1M. Os outros começam a perder precisão entre 200K e 400K — essa é a realidade honesta de campo em 2026.

Deixo minha avaliação clara desde já: a era de escolher um modelo apenas pelo tamanho do recipiente acabou. O que importa agora é o trio "contexto efetivo × custo × estratégia", e a jogada da Anthropic com o preço plano de 1M é a reviravolta mais interessante do ano. Este artigo percorre o que é realmente o contexto, o lineup de modelos de maio de 2026, por que tamanho sozinho não basta, as diferenças de estrutura de custos e cinco táticas práticas de economia de contexto que devs solo e pequenos times podem aplicar hoje — embasadas em números de benchmarks independentes.

CONTEXT WINDOW · 2023→2026

O recipiente cresceu 250x em três anos

— Uma linha do tempo de como 1M passou de luxo a padrão

2023
4K–32K
GPT-3.5, GPT-4 inicial. Mal cabe um único artigo de pesquisa.
2024
128K–200K
Claude 3 / GPT-4 Turbo. Dez artigos ou um romance completo.
2025
1M–2M
Claude 4.6 / Gemini 1.5 Pro abrem 1M. Gemini Ultra atinge 2M.
2026
1M = padrão
Opus 4.7, Sonnet 4.6, GPT-5.5, Gemini 3.1, DeepSeek V4 — todos dentro.

Mas "suporta" e "realmente lê até o fim" são coisas diferentes. Apenas o Gemini 3 Deep Think mantém a precisão por todo o 1M nos benchmarks multi-needle NIAH;
os outros começam a se degradar entre 200K e 400K (Digital Applied, Zylos 2026).

1. Cinco modelos de 1M de tokens em um ano — mas só um realmente lê tudo

Quando a OpenAI anunciou o GPT-5.5 em abril de 2026, a web vibrou: "OpenAI finalmente chegou a 1M". No mesmo mês, o Google lançou o Gemini 3.1 Ultra com 2M. A Anthropic havia introduzido o preço plano de 1M no Claude Opus 4.6 no ano anterior e reforçou isso com o 4.7. O V4-Pro da DeepSeek também é 1M. Cinco fornecedores de fronteira agora podem legitimamente escrever "1M+ tokens" na ficha técnica.

Isso deveria ter sido um grande evento. Apenas três anos atrás, 32K parecia impressionante. Vimos um salto de mais de 30x no tamanho da janela desde então. A corrida por tamanho de recipiente parecia vencida.

Então os avaliadores independentes Digital Applied e Zylos Research rodaram em 2026 um teste multi-needle Needle-in-a-Haystack (NIAH) — embutindo múltiplos fatos em documentos longos e pedindo aos modelos para recuperá-los todos corretamente. Eis o que descobriram:

  • Gemini 3 Deep Think: mantém a precisão anunciada por todo o 1M
  • Claude Opus 4.7 / GPT-5.5 / DeepSeek V4-Pro: a precisão cai a partir de cerca de 200K–400K

Então, mesmo que "suporte a 1M" seja universal, apenas um modelo realmente usa esse 1M até o fim em condições equivalentes a produção. Com outros modelos de fronteira, pedir que integrem múltiplos fatos começa a mostrar tensão entre 200K e 400K. Essa é a realidade de 2026.

Não interprete isso como "Claude ou GPT são ruins". Casos de uso que genuinamente precisam dos 1M completos são raros. Se você consegue ler 300K (≈ 2–3 livros de bolso) com confiabilidade, quase toda tarefa de programação, pesquisa ou sumarização é concluída. A armadilha é escolher um modelo apenas pela manchete do "suporte a 1M" — isso distorce a decisão.

2. O que é contexto? — Separe o recipiente do conteúdo

Terminologia rápida. Três palavras se misturam nesse espaço.

Três termos

Token, janela, contexto

① TOKEN — unidade de texto
A menor unidade na qual a IA processa texto. ~4 caracteres em inglês por token (ou ~0,75 de uma palavra); idiomas CJK rodam aproximadamente 1–1,5 tokens por caractere.
② WINDOW — tamanho do recipiente
O número máximo de tokens que um modelo consegue manipular numa única troca. Entrada mais saída combinadas. Tudo além disso é cortado pela ponta mais antiga.
③ CONTEXT — o conteúdo
O que está atualmente carregado na janela. Inclui o prompt do sistema, histórico da conversa, anexos, saídas de ferramentas — tudo.

Resumindo: "janela = tamanho do recipiente", "contexto = conteúdo", "token = unidade".
Um recipiente grande com conteúdo bagunçado ainda dá respostas bagunçadas.

E também: não confunda "contexto" com "memória". O contexto vive dentro da sessão — feche o chat e ele desaparece. Recursos como o ChatGPT Memory ou o Claude Memory, por outro lado, são um mecanismo separado de retenção entre sessões. O conteúdo da memória acaba sendo injetado na janela de contexto, mas, da perspectiva do usuário, é armazenamento persistente vs. espaço de trabalho efêmero.

Equívoco comum: "Janela de contexto maior = IA mais inteligente" está errado. O tamanho da janela é só o limite superior do que pode estar à vista. Capacidade de raciocínio, profundidade de conhecimento e precisão em seguir instruções são medidas separadamente. Cada lançamento de modelo abre com "1M de contexto!" como manchete, mas isso é só uma faceta da capacidade.

3. Principais modelos em maio de 2026 — tamanhos do recipiente

Com as definições claras, aqui estão os tamanhos de recipiente que os principais fornecedores publicam hoje. Todos os números vêm das especificações oficiais de maio de 2026.

ModeloLimite de entradaLimite de saídaNotas
Claude Opus 4.71.000.000128.0001M plano no preço padrão, sem necessidade de beta header
Claude Sonnet 4.61.000.00064.000Mesmo preço plano
Claude Haiku 4.5200.00064.000Modelo leve, sem nível de 1M
GPT-5.5922.000128.000Total da API ~1M; preço de entrada 2x acima de 272K
GPT-5.41.000.000128.000Mesma sobretaxa de contexto longo
Gemini 3.1 Pro1.000.00065.535Disponível via Vertex AI / AI Studio
Gemini 3.1 Ultra2.000.00065.535Nível de 2M — atualmente o único modelo comercial de 2M
Grok 4256.00032.000Spec oficial da xAI; conservador entre os de fronteira
DeepSeek V4-Pro1.000.00096.000O maior no nível open-weight

Lendo só a tabela, você concluiria "Gemini Ultra vence, fim de papo". Mas há um fato que merece destaque: a Anthropic oferece 1M como tarifa plana no Opus 4.6/4.7 e no Sonnet 4.6, enquanto a OpenAI dobra o preço de entrada no GPT-5.5 acima de 272K tokens. Isso não é só um botão de precificação — é uma postura estratégica sobre como cargas de trabalho de contexto longo devem ser tratadas. Vamos detalhar a matemática de custo numa seção mais adiante.

Pessoalmente, mantenho o Claude Opus 4.7 como meu cavalo de batalha para trabalho de longo formato. Três motivos: preço plano, precisão estável até a faixa de 200K e a qualidade da documentação da Anthropic. Para documentos que genuinamente excedem 300K, troco para o Gemini 3 Deep Think. Misturar modelos por caso de uso é a jogada certa em 2026.

4. Três razões pelas quais "maior é melhor" não se sustenta

A tabela anterior só listou tamanhos físicos de recipiente. A pergunta mais difícil é se os modelos realmente usam o que anunciam. Resposta curta: fora o Gemini 3 Deep Think, o cenário é sombrio. Três razões.

Razão ①: Lost in the Middle (perdido no meio)

Documentado pela primeira vez por Stanford em 2023 e reproduzido em todas as gerações de modelos desde então. A IA pondera fortemente o início e o fim da entrada, ao mesmo tempo em que desvaloriza o meio (a faixa posicional de 30–70%). Informação colocada perto do centro de um contexto de 100K é recuperada com precisão de 5 a 15 pontos percentuais menor do que a mesma informação no início ou no fim.

O sintoma cotidiano: "colar um PDF longo, perguntar 'qual é o número de X?' e o modelo informar errado o número que está bem no meio." Isso é Lost in the Middle. Três anos após o artigo original de Stanford, mesmo modelos de fronteira não fecharam totalmente essa lacuna.

Razão ②: Context Rot (apodrecimento do contexto)

Quanto mais longa a conversa, mais suas instruções iniciais se desvanecem. Você disse "responda em inglês formal" no começo; vinte turnos depois, o modelo voltou a usar uma linguagem casual — isso é Context Rot.

Duas causas. ① Instruções iniciais ficam relativamente antigas e são ponderadas mais levemente no histórico. ② Com histórico longo, a atenção se dispersa e tokens específicos ficam mais difíceis de referenciar. A Anthropic, em 2026, começou a enquadrar isso como "context engineering" — uma habilidade deliberada para gerenciar esses efeitos.

Razão ③: Contexto anunciado ≠ contexto efetivo

Eis como os benchmarks mais recentes de 2026 (multi-needle NIAH, condições equivalentes a produção) realmente se parecem.

Multi-Needle NIAH × 4 modelos

Contexto efetivo (integração de múltiplos fatos)

Gemini 3 Deep Think ~1M completo
Claude Opus 4.7 ~200K–400K
GPT-5.5 ~200K–400K
DeepSeek V4-Pro ~200K–400K

Fontes: Digital Applied "Long-Context Retrieval 2026" / Zylos Research "LLM Context Window Management 2026."
No NIAH single-needle (um fato a recuperar) todos os modelos passam de 1M, mas a integração de múltiplos fatos conta uma história diferente.

Para repetir: isso não é "Claude Opus 4.7 está quebrado". 200K–400K ainda equivale a 2–3 romances de bolso de capacidade. A maioria das tarefas do mundo real (revisão de código, escrita longa, resumos de reuniões, síntese de pesquisa) termina dentro dessa faixa. O problema é a suposição de que "como é 1M, basta jogar 1M" — essa estratégia só funciona no Gemini Deep Think.

5. A armadilha de custo — OpenAI dobra acima de 272K, Anthropic mantém plano

Acabamos de estabelecer que "o efetivo é de 200K–400K". Some a isso a segunda armadilha: entradas de contexto longo fazem a conta saltar. Anthropic e OpenAI adotaram estratégias opostas aqui.

ModeloPreço padrão de entradaSobretaxa de contexto longo
Claude Opus 4.7US$ 5,00 / 1M tokensPlano por todo o 1M, sem sobretaxa
Claude Sonnet 4.6US$ 3,00 / 1M tokensIgual — sem sobretaxa
GPT-5.5US$ 5,00 / 1M tokensAcima de 272K: 2x na entrada, 1,5x na saída
GPT-5.4ComparávelMesma sobretaxa de contexto longo

Conta concreta. Entrada de 500K tokens + saída de 50K tokens, uma ida e volta — o caso canônico de resumir uma grande base de código ou um relatório anual em uma única passagem.

  • Claude Opus 4.7: US$ 5,00 × 0,5 + US$ 25,00 × 0,05 = US$ 3,75
  • GPT-5.5 (com a sobretaxa do excedente de 272K): US$ 10,00 × 0,5 + US$ 45,00 × 0,05 = US$ 7,25

São US$ 3,50 por chamada. Rode 100 vezes por dia e a diferença chega a US$ 10.500 por mês. Para times que rodam agentes de longa duração, a diferença alcança facilmente a casa dos cinco dígitos médios mensais. O mesmo padrão estrutural que cobrimos em Economizando custos de tokens e sessões de IA.

Nota: o preço plano de 1M da Anthropic foi enquadrado como "diferenciação intencional" na análise da Finout de abril de 2026. Onde a OpenAI está monetizando usuários de contexto longo, a Anthropic posiciona "use contexto longo sem hesitação" como um valor de marca.

6. Cinco táticas de economia — ranqueadas por impacto real para devs solo

"O recipiente é de 1M, mas o efetivo é de ~300K, e usá-lo por muito tempo fica caro." Já cobrimos isso. Então, o que dá para fazer de fato no campo? Eis cinco táticas que uso no dia a dia, ranqueadas pelo que dá o maior retorno.

Cinco dicas práticas

Economia de contexto — ordem de prioridade

① Encerre a sessão
Quando o tópico mudar, abra um novo chat. Só impedir que o contexto antigo continue elimina o Context Rot. No Claude Code, use /compact ou inicie uma nova sessão.
② Envie trechos, não textos completos
Colar um PDF de 100 páginas inteiro é a pior jogada. Use grep / busca para extrair as seções relevantes, comprima para 3–5 páginas e então envie. A mentalidade RAG, aplicada solo.
③ Repita instruções-chave no fim
Contramedida ao Lost-in-the-Middle. Reafirme a regra do topo em uma linha no final: "Considerando o acima, gere a saída no formato X."
④ Prompt caching
Se você reutiliza o mesmo prompt do sistema repetidamente, o recurso de caching da Anthropic / OpenAI reduz o preço de entrada em até 90%. Se está usando a API, configure isso primeiro.
⑤ Torne explícitos os endereços de arquivo
Especificar "arquivo N, linha X" aumenta a precisão de recuperação em contextos longos. Pense nisso como entregar à IA um índice com entradas de catálogo.

Das cinco, a tática ① "Encerre a sessão" dá o maior ganho visível. Só cortar o chat reduz alucinações de forma perceptível.
A tática ④ é para desenvolvedores de API — UIs (claude.ai / ChatGPT) lidam com o caching automaticamente.

Minha melhor prática pessoal: só fazer ① e ② de forma consistente já desloca a precisão percebida de forma notável. Mesmo com o Claude Code, em vez de empurrar uma sessão longa, acionar /compact ou iniciar uma sessão nova a cada mudança de tópico mantém a qualidade do output final estável.

Resumo

Recapitulando:

  • Janela de contexto = o máximo de tokens que uma IA consegue manipular numa única troca. O tamanho do recipiente.
  • Em maio de 2026, Claude Opus 4.7 / Sonnet 4.6 / GPT-5.5 / Gemini 3.1 Pro / DeepSeek V4-Pro todos suportam 1M; o Gemini 3.1 Ultra chega a 2M.
  • Benchmarks independentes (multi-needle NIAH) mostram que apenas o Gemini 3 Deep Think mantém a precisão por todo o 1M; os outros começam a esmaecer entre 200K e 400K.
  • No custo, a Anthropic mantém o preço plano enquanto a OpenAI aplica sobretaxa acima de 272K. Divergência estratégica clara.
  • As cinco táticas — encerrar a sessão, enviar trechos, reafirmar no fim, cachear, endereçar explicitamente — e as táticas ① e ② carregam o maior peso.

Mesmo com recipientes maiores, o trabalho real ainda é decidir o que enviar e o que deixar de fora. A habilidade de IA em 2026 não é "enfiar tudo dentro". É o discernimento de enviar somente o necessário, com precisão — isso é o que continua útil a longo prazo. Depois de assistir cinco fornecedores se coroarem "1M" este ano, essa é a minha conclusão.

FAQ

Q1. Como conto tokens antes de enviar?

A OpenAI oferece a biblioteca tiktoken; a Anthropic expõe uma API equivalente a countTokens() no SDK oficial. Regra geral: ~0,75 palavra em inglês por token, ~1–1,5 tokens por caractere CJK. Código varia conforme o tokenizador, então meça antes de enviar entradas longas.

Q2. Como a "memória" se diferencia do contexto?

O contexto vive somente dentro da sessão — feche o chat e ele desaparece. A memória (ChatGPT Memory / Claude Memory) é um mecanismo separado de retenção entre sessões. O conteúdo da memória acaba sendo injetado na janela de contexto, mas, da perspectiva do usuário, é persistente vs. efêmero.

Q3. Como o RAG se relaciona com a janela de contexto?

RAG é o padrão de "buscar dinamicamente apenas a informação necessária para o contexto". Mesmo com uma janela de 1M, despejar tudo deixa o sistema lento, pesado e caro, então recuperar e então carregar (RAG) continua sendo a abordagem dominante. Veja O que é RAG para mais.

Q4. Por que a precisão cai em 300K se 1M é suportado?

Descompasso entre o comprimento de sequência no treinamento e na inferência, limites da codificação posicional do mecanismo de atenção e a explosão de computação necessária para integrar múltiplos fatos se acumulam. "Suportado" e "precisão mantida em toda a faixa" são problemas diferentes.

Q5. Servidores MCP economizam contexto?

Sim. MCP é um mecanismo de busca sob demanda via ferramentas, então você não precisa carregar tudo no contexto de antemão. Mude o modelo mental de "colar o arquivo inteiro" para "deixar que ele vá ler o arquivo".