Índice
- 1. Cinco modelos de 1M de tokens em um ano — mas só um realmente lê tudo
- 2. O que é contexto? — Separe o recipiente do conteúdo
- 3. Principais modelos em maio de 2026 — tamanhos do recipiente
- 4. Três razões pelas quais "maior é melhor" não se sustenta
- 5. A armadilha de custo — OpenAI dobra acima de 272K, Anthropic mantém plano
- 6. Cinco táticas de economia — ranqueadas por impacto real para devs solo
- Resumo
- FAQ
Em 2023, uma janela de contexto de 32K tokens parecia "espaçosa". Em maio de 2026, 1 milhão de tokens (1M) virou o padrão da indústria. Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.5, Gemini 3.1 Pro, DeepSeek V4-Pro — todos os principais modelos de fronteira suportam 1M. O Gemini 3.1 Ultra chegou a 2M.
"Um milhão de tokens" se traduz aproximadamente em 8 a 10 livros de bolso em inglês, ou dezenas de milhares de linhas de código-fonte. Agora podemos manter tudo isso "à vista" em uma única sessão. Mas tem um detalhe: apenas um desses modelos realmente usa esse recipiente até o fim. Benchmarks independentes (multi-needle NIAH, detalhados adiante) mostram que somente o modo Gemini 3 Deep Think mantém a precisão por todo o 1M. Os outros começam a perder precisão entre 200K e 400K — essa é a realidade honesta de campo em 2026.
Deixo minha avaliação clara desde já: a era de escolher um modelo apenas pelo tamanho do recipiente acabou. O que importa agora é o trio "contexto efetivo × custo × estratégia", e a jogada da Anthropic com o preço plano de 1M é a reviravolta mais interessante do ano. Este artigo percorre o que é realmente o contexto, o lineup de modelos de maio de 2026, por que tamanho sozinho não basta, as diferenças de estrutura de custos e cinco táticas práticas de economia de contexto que devs solo e pequenos times podem aplicar hoje — embasadas em números de benchmarks independentes.
O recipiente cresceu 250x em três anos
— Uma linha do tempo de como 1M passou de luxo a padrão
Mas "suporta" e "realmente lê até o fim" são coisas diferentes. Apenas o Gemini 3 Deep Think mantém a precisão por todo o 1M nos benchmarks multi-needle NIAH;
os outros começam a se degradar entre 200K e 400K (Digital Applied, Zylos 2026).
1. Cinco modelos de 1M de tokens em um ano — mas só um realmente lê tudo
Quando a OpenAI anunciou o GPT-5.5 em abril de 2026, a web vibrou: "OpenAI finalmente chegou a 1M". No mesmo mês, o Google lançou o Gemini 3.1 Ultra com 2M. A Anthropic havia introduzido o preço plano de 1M no Claude Opus 4.6 no ano anterior e reforçou isso com o 4.7. O V4-Pro da DeepSeek também é 1M. Cinco fornecedores de fronteira agora podem legitimamente escrever "1M+ tokens" na ficha técnica.
Isso deveria ter sido um grande evento. Apenas três anos atrás, 32K parecia impressionante. Vimos um salto de mais de 30x no tamanho da janela desde então. A corrida por tamanho de recipiente parecia vencida.
Então os avaliadores independentes Digital Applied e Zylos Research rodaram em 2026 um teste multi-needle Needle-in-a-Haystack (NIAH) — embutindo múltiplos fatos em documentos longos e pedindo aos modelos para recuperá-los todos corretamente. Eis o que descobriram:
- Gemini 3 Deep Think: mantém a precisão anunciada por todo o 1M
- Claude Opus 4.7 / GPT-5.5 / DeepSeek V4-Pro: a precisão cai a partir de cerca de 200K–400K
Então, mesmo que "suporte a 1M" seja universal, apenas um modelo realmente usa esse 1M até o fim em condições equivalentes a produção. Com outros modelos de fronteira, pedir que integrem múltiplos fatos começa a mostrar tensão entre 200K e 400K. Essa é a realidade de 2026.
Não interprete isso como "Claude ou GPT são ruins". Casos de uso que genuinamente precisam dos 1M completos são raros. Se você consegue ler 300K (≈ 2–3 livros de bolso) com confiabilidade, quase toda tarefa de programação, pesquisa ou sumarização é concluída. A armadilha é escolher um modelo apenas pela manchete do "suporte a 1M" — isso distorce a decisão.
2. O que é contexto? — Separe o recipiente do conteúdo
Terminologia rápida. Três palavras se misturam nesse espaço.
Token, janela, contexto
Resumindo: "janela = tamanho do recipiente", "contexto = conteúdo", "token = unidade".
Um recipiente grande com conteúdo bagunçado ainda dá respostas bagunçadas.
E também: não confunda "contexto" com "memória". O contexto vive dentro da sessão — feche o chat e ele desaparece. Recursos como o ChatGPT Memory ou o Claude Memory, por outro lado, são um mecanismo separado de retenção entre sessões. O conteúdo da memória acaba sendo injetado na janela de contexto, mas, da perspectiva do usuário, é armazenamento persistente vs. espaço de trabalho efêmero.
3. Principais modelos em maio de 2026 — tamanhos do recipiente
Com as definições claras, aqui estão os tamanhos de recipiente que os principais fornecedores publicam hoje. Todos os números vêm das especificações oficiais de maio de 2026.
| Modelo | Limite de entrada | Limite de saída | Notas |
|---|---|---|---|
| Claude Opus 4.7 | 1.000.000 | 128.000 | 1M plano no preço padrão, sem necessidade de beta header |
| Claude Sonnet 4.6 | 1.000.000 | 64.000 | Mesmo preço plano |
| Claude Haiku 4.5 | 200.000 | 64.000 | Modelo leve, sem nível de 1M |
| GPT-5.5 | 922.000 | 128.000 | Total da API ~1M; preço de entrada 2x acima de 272K |
| GPT-5.4 | 1.000.000 | 128.000 | Mesma sobretaxa de contexto longo |
| Gemini 3.1 Pro | 1.000.000 | 65.535 | Disponível via Vertex AI / AI Studio |
| Gemini 3.1 Ultra | 2.000.000 | 65.535 | Nível de 2M — atualmente o único modelo comercial de 2M |
| Grok 4 | 256.000 | 32.000 | Spec oficial da xAI; conservador entre os de fronteira |
| DeepSeek V4-Pro | 1.000.000 | 96.000 | O maior no nível open-weight |
Lendo só a tabela, você concluiria "Gemini Ultra vence, fim de papo". Mas há um fato que merece destaque: a Anthropic oferece 1M como tarifa plana no Opus 4.6/4.7 e no Sonnet 4.6, enquanto a OpenAI dobra o preço de entrada no GPT-5.5 acima de 272K tokens. Isso não é só um botão de precificação — é uma postura estratégica sobre como cargas de trabalho de contexto longo devem ser tratadas. Vamos detalhar a matemática de custo numa seção mais adiante.
Pessoalmente, mantenho o Claude Opus 4.7 como meu cavalo de batalha para trabalho de longo formato. Três motivos: preço plano, precisão estável até a faixa de 200K e a qualidade da documentação da Anthropic. Para documentos que genuinamente excedem 300K, troco para o Gemini 3 Deep Think. Misturar modelos por caso de uso é a jogada certa em 2026.
4. Três razões pelas quais "maior é melhor" não se sustenta
A tabela anterior só listou tamanhos físicos de recipiente. A pergunta mais difícil é se os modelos realmente usam o que anunciam. Resposta curta: fora o Gemini 3 Deep Think, o cenário é sombrio. Três razões.
Razão ①: Lost in the Middle (perdido no meio)
Documentado pela primeira vez por Stanford em 2023 e reproduzido em todas as gerações de modelos desde então. A IA pondera fortemente o início e o fim da entrada, ao mesmo tempo em que desvaloriza o meio (a faixa posicional de 30–70%). Informação colocada perto do centro de um contexto de 100K é recuperada com precisão de 5 a 15 pontos percentuais menor do que a mesma informação no início ou no fim.
O sintoma cotidiano: "colar um PDF longo, perguntar 'qual é o número de X?' e o modelo informar errado o número que está bem no meio." Isso é Lost in the Middle. Três anos após o artigo original de Stanford, mesmo modelos de fronteira não fecharam totalmente essa lacuna.
Razão ②: Context Rot (apodrecimento do contexto)
Quanto mais longa a conversa, mais suas instruções iniciais se desvanecem. Você disse "responda em inglês formal" no começo; vinte turnos depois, o modelo voltou a usar uma linguagem casual — isso é Context Rot.
Duas causas. ① Instruções iniciais ficam relativamente antigas e são ponderadas mais levemente no histórico. ② Com histórico longo, a atenção se dispersa e tokens específicos ficam mais difíceis de referenciar. A Anthropic, em 2026, começou a enquadrar isso como "context engineering" — uma habilidade deliberada para gerenciar esses efeitos.
Razão ③: Contexto anunciado ≠ contexto efetivo
Eis como os benchmarks mais recentes de 2026 (multi-needle NIAH, condições equivalentes a produção) realmente se parecem.
Contexto efetivo (integração de múltiplos fatos)
Fontes: Digital Applied "Long-Context Retrieval 2026" / Zylos Research "LLM Context Window Management 2026."
No NIAH single-needle (um fato a recuperar) todos os modelos passam de 1M, mas a integração de múltiplos fatos conta uma história diferente.
Para repetir: isso não é "Claude Opus 4.7 está quebrado". 200K–400K ainda equivale a 2–3 romances de bolso de capacidade. A maioria das tarefas do mundo real (revisão de código, escrita longa, resumos de reuniões, síntese de pesquisa) termina dentro dessa faixa. O problema é a suposição de que "como é 1M, basta jogar 1M" — essa estratégia só funciona no Gemini Deep Think.
5. A armadilha de custo — OpenAI dobra acima de 272K, Anthropic mantém plano
Acabamos de estabelecer que "o efetivo é de 200K–400K". Some a isso a segunda armadilha: entradas de contexto longo fazem a conta saltar. Anthropic e OpenAI adotaram estratégias opostas aqui.
| Modelo | Preço padrão de entrada | Sobretaxa de contexto longo |
|---|---|---|
| Claude Opus 4.7 | US$ 5,00 / 1M tokens | Plano por todo o 1M, sem sobretaxa |
| Claude Sonnet 4.6 | US$ 3,00 / 1M tokens | Igual — sem sobretaxa |
| GPT-5.5 | US$ 5,00 / 1M tokens | Acima de 272K: 2x na entrada, 1,5x na saída |
| GPT-5.4 | Comparável | Mesma sobretaxa de contexto longo |
Conta concreta. Entrada de 500K tokens + saída de 50K tokens, uma ida e volta — o caso canônico de resumir uma grande base de código ou um relatório anual em uma única passagem.
- Claude Opus 4.7: US$ 5,00 × 0,5 + US$ 25,00 × 0,05 = US$ 3,75
- GPT-5.5 (com a sobretaxa do excedente de 272K): US$ 10,00 × 0,5 + US$ 45,00 × 0,05 = US$ 7,25
São US$ 3,50 por chamada. Rode 100 vezes por dia e a diferença chega a US$ 10.500 por mês. Para times que rodam agentes de longa duração, a diferença alcança facilmente a casa dos cinco dígitos médios mensais. O mesmo padrão estrutural que cobrimos em Economizando custos de tokens e sessões de IA.
6. Cinco táticas de economia — ranqueadas por impacto real para devs solo
"O recipiente é de 1M, mas o efetivo é de ~300K, e usá-lo por muito tempo fica caro." Já cobrimos isso. Então, o que dá para fazer de fato no campo? Eis cinco táticas que uso no dia a dia, ranqueadas pelo que dá o maior retorno.
Economia de contexto — ordem de prioridade
/compact ou inicie uma nova sessão.
Das cinco, a tática ① "Encerre a sessão" dá o maior ganho visível. Só cortar o chat reduz alucinações de forma perceptível.
A tática ④ é para desenvolvedores de API — UIs (claude.ai / ChatGPT) lidam com o caching automaticamente.
Minha melhor prática pessoal: só fazer ① e ② de forma consistente já desloca a precisão percebida de forma notável. Mesmo com o Claude Code, em vez de empurrar uma sessão longa, acionar /compact ou iniciar uma sessão nova a cada mudança de tópico mantém a qualidade do output final estável.
Resumo
Recapitulando:
- Janela de contexto = o máximo de tokens que uma IA consegue manipular numa única troca. O tamanho do recipiente.
- Em maio de 2026, Claude Opus 4.7 / Sonnet 4.6 / GPT-5.5 / Gemini 3.1 Pro / DeepSeek V4-Pro todos suportam 1M; o Gemini 3.1 Ultra chega a 2M.
- Benchmarks independentes (multi-needle NIAH) mostram que apenas o Gemini 3 Deep Think mantém a precisão por todo o 1M; os outros começam a esmaecer entre 200K e 400K.
- No custo, a Anthropic mantém o preço plano enquanto a OpenAI aplica sobretaxa acima de 272K. Divergência estratégica clara.
- As cinco táticas — encerrar a sessão, enviar trechos, reafirmar no fim, cachear, endereçar explicitamente — e as táticas ① e ② carregam o maior peso.
Mesmo com recipientes maiores, o trabalho real ainda é decidir o que enviar e o que deixar de fora. A habilidade de IA em 2026 não é "enfiar tudo dentro". É o discernimento de enviar somente o necessário, com precisão — isso é o que continua útil a longo prazo. Depois de assistir cinco fornecedores se coroarem "1M" este ano, essa é a minha conclusão.
FAQ
A OpenAI oferece a biblioteca tiktoken; a Anthropic expõe uma API equivalente a countTokens() no SDK oficial. Regra geral: ~0,75 palavra em inglês por token, ~1–1,5 tokens por caractere CJK. Código varia conforme o tokenizador, então meça antes de enviar entradas longas.
O contexto vive somente dentro da sessão — feche o chat e ele desaparece. A memória (ChatGPT Memory / Claude Memory) é um mecanismo separado de retenção entre sessões. O conteúdo da memória acaba sendo injetado na janela de contexto, mas, da perspectiva do usuário, é persistente vs. efêmero.
RAG é o padrão de "buscar dinamicamente apenas a informação necessária para o contexto". Mesmo com uma janela de 1M, despejar tudo deixa o sistema lento, pesado e caro, então recuperar e então carregar (RAG) continua sendo a abordagem dominante. Veja O que é RAG para mais.
Descompasso entre o comprimento de sequência no treinamento e na inferência, limites da codificação posicional do mecanismo de atenção e a explosão de computação necessária para integrar múltiplos fatos se acumulam. "Suportado" e "precisão mantida em toda a faixa" são problemas diferentes.
Sim. MCP é um mecanismo de busca sob demanda via ferramentas, então você não precisa carregar tudo no contexto de antemão. Mude o modelo mental de "colar o arquivo inteiro" para "deixar que ele vá ler o arquivo".