Índice
- 1. O Opus 4.8 em três linhas
- 2. Especificações principais e disponibilidade
- 3. Benchmarks frente a frente (4.8 vs 4.7)
- 4. Preços e fast mode — velocidade 3x mais barata
- 5. Novidade nº 1: o parâmetro effort e o raciocínio adaptativo
- 6. Novidade nº 2: dynamic workflows (research preview)
- 7. Novidade nº 3: entradas system na Messages API
- 8. O maior salto é a honestidade — 10x menos excesso de confiança
- 9. Ressalvas e regressões (contadas com honestidade)
- 10. Quem deve migrar agora mesmo
- Resumo
- FAQ
Em 28 de maio de 2026, a Anthropic lançou o Claude Opus 4.8 — pouco mais de dois meses depois do Opus 4.7. O ritmo das atualizações está claramente acelerando. Mas o destaque desta vez não são alguns pontos percentuais em um benchmark. A primeira coisa que a própria Anthropic ressaltou foi "um julgamento mais apurado, mais honestidade sobre o próprio progresso e a capacidade de trabalhar de forma independente por mais tempo do que seus antecessores." Um lançamento que abre com "ficou mais honesto" antes de "ficou mais inteligente" é algo incomum.
Eis o resumo: a programação melhorou de forma sólida (SWE-bench Pro 64.3% → 69.2%), a matemática deu um salto enorme (USAMO 2026 de 69.3% para 96.7%) e o rastreamento de contexto longo quase dobrou (GraphWalks com 1M tokens 40.3% → 68.1%). Além disso, o fast mode ficou cerca de 2.5x mais rápido e efetivamente custa um terço do preço, e três recursos voltados para desenvolvedores chegam de uma vez: o parâmetro effort, os dynamic workflows e as entradas system na Messages API. Ao mesmo tempo, nem tudo melhorou — a robustez contra prompt injection na verdade regrediu. Este artigo analisa os números, os novos recursos e as ressalvas, com base no anúncio oficial e no system card da Anthropic.
O Claude Opus 4.8 num relance
— uma flagship que prioriza a "honestidade" em vez da inteligência bruta
(4.7 era 64.3%)
(4.7 era 69.3%)
$10 / $50 por Mtok
vs Opus 4.7
O preço padrão é mantido igual ao do 4.7 ($5 / $25 por Mtok), o contexto continua em 1M tokens.
O ID do modelo é claude-opus-4-8, disponível desde o primeiro dia na Claude API, Bedrock, Vertex AI e Microsoft Foundry.
* Os números deste artigo baseiam-se no anúncio oficial, na página do modelo e no system card da Anthropic, além de reportagens de diversos veículos de tecnologia (em 28 de maio de 2026). Eles podem ser atualizados à medida que surgirem mais verificações.
1. O Opus 4.8 em três linhas
Para o leitor ocupado, primeiro o essencial.
- Desempenho: a programação está consistentemente mais forte; a matemática (USAMO) e o rastreamento de contexto longo (GraphWalks) melhoram drasticamente. Por outro lado, o GPQA Diamond cai ligeiramente, e as tarefas multilíngues ficam atrás do Gemini 3.1 Pro / GPT-5.5.
- Preço: o padrão é mantido igual ao do 4.7. O maior impacto econômico é que o fast mode ficou ~2.5x mais rápido e efetivamente custa um terço do preço.
- Filosofia: "mais honesto" antes de "mais inteligente". É o primeiro Claude a marcar 0% em relatar resultados falhos sem crítica, e o excesso de confiança caiu 10x em relação ao 4.7. Os novos dynamic workflows e o parâmetro effort dão suporte a trabalho autônomo mais longo.
2. Especificações principais e disponibilidade
Vamos começar pelos fatos imutáveis: as especificações do Opus 4.8 e onde você pode usá-lo.
| Item | Detalhe |
|---|---|
| Data de lançamento | 28 de maio de 2026 (cerca de 2 meses depois do 4.7) |
| ID do modelo na API | claude-opus-4-8 |
| Janela de contexto | 1.000.000 tokens (igual ao 4.7) |
| Saída máxima | 128.000 tokens por resposta |
| Preço padrão | $5 entrada / $25 saída (por 1M tokens, igual ao 4.7) |
| Reduções de custo | Até 90% de desconto com prompt caching, 50% de desconto com processamento em lote |
| Preço do fast mode | $10 entrada / $50 saída (por 1M tokens, ~2.5x mais rápido) |
| Disponibilidade | Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry (desde o primeiro dia) |
O ponto-chave é que preço e contexto são mantidos iguais, e só a substância ficou mais forte. Se você está no 4.7, trocar o ID do modelo para claude-opus-4-8 garante os ganhos de desempenho sem custo extra (as ressalvas da migração estão na seção 9). Apenas note que a inferência exclusiva nos EUA tem um multiplicador de preço de 1.1x.
3. Benchmarks frente a frente (4.8 vs 4.7)
Vimos as especificações. Então, quanto cresceu a capacidade real? Aqui estão os principais benchmarks publicados alinhados contra o 4.7. Em negrito estão os maiores ganhos.
| Benchmark | Claude Opus 4.8 | Claude Opus 4.7 | Diferença |
|---|---|---|---|
| SWE-bench Verified (correções de código reais) | 88.6% | 87.6% | +1.0 |
| SWE-bench Pro (programação difícil) | 69.2% | 64.3% | +4.9 |
| SWE-bench Multilingual | 84.4% | 80.5% | +3.9 |
| USAMO 2026 (olimpíada de matemática) | 96.7% | 69.3% | +27.4 |
| GraphWalks (contexto longo de 1M tokens, F1) | 68.1% | 40.3% | +27.8 |
| GPQA Diamond (ciência de nível de pós-graduação) | 93.6% | 94.2% | −0.6 |
| Online-Mind2Web (uso de navegador) | 84% | — | — |
Uma observação sobre como ler a tabela. Os +4.9 pontos no SWE-bench Pro parecem modestos, mas importam: o Pro reúne tarefas de programação mais realistas e difíceis, então um ganho ali se traduz diretamente em "menos momentos em que você fica travado no trabalho real". Mas o que realmente se destaca são os saltos de +27 pontos no USAMO e no GraphWalks.
O que significam os dois saltos
Além disso, o CursorBench supera todo Opus anterior em todos os níveis de effort,
no benchmark Super-Agent ele se tornou o único modelo a concluir todos os casos de ponta a ponta, e o benchmark Legal Agent registrou a primeira pontuação acima de 10% no critério de aprovação total.
Dito isso, nem tudo subiu. O GPQA Diamond caiu de 94.2% para 93.6%. Pode-se dizer que está dentro da margem de erro, mas o fato de o 4.7 estar marginalmente à frente em "questionários de puro conhecimento científico" vale a pena ter em mente. Mais na seção 9.
4. Preços e fast mode — velocidade 3x mais barata
Falamos bastante de desempenho, mas o que realmente pesa mais no seu bolso desta vez é a mudança de preço do fast mode. O preço padrão é completamente mantido igual ao do 4.7, então vamos colocar os dois lado a lado.
Modo padrão (mantido igual)
- Entrada: $5 / 1M tokens
- Saída: $25 / 1M tokens
- Prompt caching: até 90% de desconto
- Processamento em lote: 50% de desconto
→ Nem um centavo diferente do 4.7. Custo de troca zero.
Fast mode (grande mudança)
- Entrada: $10 / 1M tokens
- Saída: $50 / 1M tokens
- Velocidade: cerca de 2.5x a do padrão
- Um terço do preço do fast mode anterior
→ "Rápido = caro" não vale mais. Ótimo para UIs de chat e processamento em massa.
Isso é maior do que parece. O dilema de "quero velocidade, mas o fast mode é caro" atingia exatamente os casos de uso — respostas em UI de chat, revisão de código em massa em CI/CD, execuções de agentes com muitas etapas — em que agora você pode ter velocidade e preço ao mesmo tempo. Combinado com o preço padrão mantido igual, a lição econômica desta vez é "o mesmo orçamento, porém mais rápido e mais inteligente." Para o panorama completo de preços, veja a comparação de preços Claude Opus / Sonnet / Haiku.
5. Novidade nº 1: o parâmetro effort e o raciocínio adaptativo
Depois do preço, os recursos que os desenvolvedores tocam diretamente. Primeiro, o parâmetro effort. Esse é um botão que permite especificar explicitamente "quão profundamente pensar" em quatro níveis.
Escolha a profundidade do raciocínio em quatro níveis
O ponto crucial: o padrão HIGH usa aproximadamente a mesma contagem de tokens do padrão do 4.7, com apenas o desempenho subindo.
Em outras palavras, mesmo sem nenhuma configuração, você obtém resultados melhores pelo mesmo custo.
A contrapartida do effort é o raciocínio adaptativo: o modelo ajusta automaticamente a computação que usa de acordo com a complexidade da tarefa. Rápido em perguntas simples, mais profundo por conta própria nas difíceis. Você define o teto e a política com o effort, e o raciocínio adaptativo otimiza a alocação real — um design de duas camadas que entrega "nenhum token de raciocínio desperdiçado, profundidade só onde importa."
6. Novidade nº 2: dynamic workflows (research preview)
O recurso mais ambicioso desta vez é este. Os dynamic workflows são um recurso em research preview utilizável no Claude Code (CLI, Desktop, extensão do VS Code), um mecanismo para entregar ao Claude um "grande trabalho" por inteiro.
Concretamente, o Claude escreve seus próprios scripts de orquestração e gera dezenas a centenas de subagentes paralelos para atacar um problema simultaneamente. Ele inclusive emprega agentes de verificação adversária para checar criticamente os resultados, e itera até a convergência. Ele coordena fora do fio principal da conversa, e seu estado é retomável, mantendo-se ao longo de uma execução de vários dias.
Para o que serve
Os casos de uso pretendidos são caças a bugs em toda a base de código, migrações em larga escala, auditorias de segurança e tarefas críticas de verificação — o tipo de trabalho que "levaria vários dias para uma equipe de humanos."
Disponibilidade: planos Max, Team e Enterprise (habilitado pelo administrador), além de via API, Bedrock, Vertex e Foundry. Por segurança, ele exige confirmação explícita no primeiro acionamento. Como é uma research preview, o comportamento pode mudar.
Em termos de posicionamento, é um passo rumo a fazer com que o próprio modelo projete e execute, na hora, a "orquestração paralela de muitos agentes" que antes você tinha de construir sozinho com o Claude Agent SDK. Para grandes refatorações e investigações transversais, expande-se o alcance que ele pode conduzir sem direcionamento humano passo a passo.
7. Novidade nº 3: entradas system na Messages API
Uma mudança sutil, mas bem-vinda para desenvolvedores: a Messages API agora aceita entradas system dentro do array messages.
Antes, o prompt do sistema (instruções de sistema) era colocado uma única vez no início da conversa. Com essa mudança, você pode injetar instruções de sistema no meio da conversa — e fazê-lo sem quebrar o prompt cache nem exigir um turno do usuário.
// Exemplo: atualizando "permissões, orçamento, ambiente" no meio do workflow
messages: [
{ role: "system", content: "Você é um agente de CI. Sem operações destrutivas." },
{ role: "user", content: "Atualize as dependências" },
{ role: "assistant", content: "..." },
// Atualiza a política no meio da execução (sem quebrar o cache)
{ role: "system", content: "O orçamento de tokens está baixo. Use effort=low, apenas os pontos principais." },
{ role: "user", content: "Continue" }
]
Isso se mostra valioso em execuções de agentes longas e com várias etapas. "Trocar a política dinamicamente" durante a execução — apertando permissões, sinalizando o orçamento de tokens, atualizando o contexto do ambiente (em qual branch você está, etc.) — agora funciona preservando a eficiência do cache. É um design que combina bem com execuções autônomas de longa duração, como os dynamic workflows.
8. O maior salto é a honestidade — 10x menos excesso de confiança
Esta é a parte que eu mais quero transmitir. O verdadeiro diferencial do Opus 4.8 não são os números dos benchmarks — é a "honestidade sobre o próprio trabalho." O que a Anthropic e os testadores enfatizaram repetidamente é que este modelo sinaliza proativamente sua própria incerteza e tem menos probabilidade de fazer afirmações sem fundamento.
A honestidade em números
Além disso, a taxa de deixar passar falhas no próprio código sem comentar é cerca de um quarto da do 4.7.
Ele parou de "fingir que funciona" — e isso é decisivo para a operação de agentes.
Por que isso importa? O maior risco em deixar um agente de IA rodar de forma autônoma por muito tempo é "relatar uma falha como sucesso e, então, empilhar mais trabalho sobre esse erro." Dizer "corrigido" enquanto os testes ainda falham; afirmar palpites incertos em tom confiante — esse tipo de "excesso de confiança" mina a confiabilidade da automação na raiz. O fato de o Opus 4.8 agora sinalizar sua incerteza por conta própria é, na prática, mais valioso do que alguns pontos de benchmark. Pessoalmente, acho que este único ponto é o mais louvável desta atualização.
9. Ressalvas e regressões (contadas com honestidade)
Olhamos os ganhos. Mas, como este é um artigo que elogia a "honestidade", também serei honesto — aqui estão, sem disfarces, os pontos que regrediram ou que merecem cautela no 4.8.
| Ressalva | Detalhe | Como lidar com isso |
|---|---|---|
| Menor robustez contra prompt injection | No red-teaming do Gray Swan, o sucesso dos ataques subiu de 6.0% (4.7) para 9.6% (4.8) | Para agentes que lidam com entrada externa, reforce a sanitização da entrada e a separação de privilégios. Revise o seu design de permissões |
| Leve queda no GPQA Diamond | 94.2% → 93.6% (−0.6). Em questionários de puro conhecimento científico, o 4.7 está marginalmente à frente | Dentro da margem de erro. Faça testes A/B nas suas tarefas reais se isso importar |
| Não é o líder em multilíngue | As tarefas multilíngues ficam atrás do Gemini 3.1 Pro / GPT-5.5 | Se o multilíngue é o seu campo de batalha, considere combinar com / comparar outros modelos |
| Os dynamic workflows são uma research preview | O comportamento pode mudar. Depender totalmente dele para trabalho crítico em produção é prematuro | Valide em trabalho não crítico antes de adotar |
A queda na robustez contra prompt injection, em particular, não pode ser ignorada. O sucesso dos ataques subindo cerca de 1.6x significa que, para agentes que leem entrada externa (páginas web, e-mail, posts de usuários) e agem de forma autônoma, simplesmente migrar para o 4.8 pode torná-los relativamente mais fracos em segurança em alguns cenários. Ficar mais inteligente não significa superar o 4.7 em todos os eixos de segurança — entenda essa assimetria corretamente.
10. Quem deve migrar agora mesmo
Então, você deve mudar para o claude-opus-4-8 agora mesmo? Vamos detalhar por tipo.
✅ Migre agora
- Programação / operação de agentes é seu uso principal
- Você quer delegar tarefas autônomas longas
- Você usa muito o fast mode (agora 3x mais barato)
- Você trabalha com bases de código enormes / contextos longos
- "Relatos errôneos por excesso de confiança" seriam fatais no seu cenário
⚠ Pense com cuidado
- Agentes públicos que lidam com entrada externa (menor robustez contra injection)
- O processamento multilíngue é o seu campo de batalha (outros podem liderar)
- QA científico puro é central (leve queda no GPQA)
- Colocar os dynamic workflows direto em produção crítica
Como o custo de troca em si é quase zero (basta mudar o ID do modelo; o preço padrão é mantido igual), o caminho ideal é primeiro mudar para o claude-opus-4-8 em um ambiente não crítico e medir nas suas próprias tarefas. Os passos concretos de migração a partir do 4.7 se aplicam diretamente conforme o raciocínio do guia de migração do Opus 4.7. Para a comparação com o GPT-5.5 e outros, veja a comparação GPT-5.5 vs Claude Opus.
Resumo
O Claude Opus 4.8 (lançado em 28 de maio de 2026, claude-opus-4-8) é uma flagship que fortaleceu a substância mantendo preço e contexto iguais. A programação melhorou de forma consistente (SWE-bench Pro +4.9); a matemática (USAMO 96.7%) e o rastreamento de contexto longo (GraphWalks 68.1%) melhoraram drasticamente. O fast mode ficou ~2.5x mais rápido e efetivamente custa um terço do preço, e os recursos práticos — o parâmetro effort, os dynamic workflows e as entradas system na Messages API — chegaram todos juntos.
Mas a essência não são os números. Uma taxa de 0% em deixar passar falhas sem crítica, o excesso de confiança caindo mais de 10x — este lançamento, que prioriza a "honestidade" em vez da "inteligência", aponta na direção certa para uma era de IA autônoma de longa duração. Ao mesmo tempo, a robustez contra prompt injection na verdade regrediu; ele não supera o modelo antigo em todos os eixos. É por isso que — apropriadamente, no espírito da própria virtude deste modelo — a forma mais inteligente de se engajar é não ter excesso de confiança e medir nas suas próprias tarefas antes de decidir.
Leitura relacionada: análise do lançamento do Claude Opus 4.7, guia de migração do Opus 4.7, comparação de preços Opus / Sonnet / Haiku, comparação GPT-5.5 vs Claude Opus e o que é o Claude Agent SDK.
FAQ
P. Migrar do Opus 4.7 para o 4.8 é difícil?
R. Quase não dá trabalho. Basta mudar o ID do modelo na API para claude-opus-4-8; o preço padrão e a janela de contexto (1M tokens) são mantidos iguais. O padrão effort=HIGH usa aproximadamente a mesma contagem de tokens do padrão do 4.7, com apenas o desempenho subindo, então você se beneficia sem mudanças de configuração. Apenas fique atento à queda na robustez contra injection (abaixo) para agentes que lidam com entrada externa.
P. O que significa o fast mode "3x mais barato"?
R. Significa que o preço do fast mode ($10 entrada / $50 saída por 1M tokens) é efetivamente um terço do fast mode do modelo anterior. A velocidade é cerca de 2.5x a do padrão. O dilema "quero velocidade, mas o fast mode é caro" é muito atenuado, facilitando o uso em UIs de chat e processamento em lote em massa.
P. Qualquer um pode usar os dynamic workflows?
R. Eles estão em research preview, utilizáveis a partir do Claude Code (CLI, Desktop, extensão do VS Code). A disponibilidade é nos planos Max, Team e Enterprise (habilitado pelo administrador) e via API, Bedrock, Vertex e Foundry. Por segurança, o primeiro acionamento exige confirmação explícita. O comportamento pode mudar, então o mais seguro é experimentar primeiro em trabalho não crítico.
P. O 4.8 é melhor que o 4.7 em todos os aspectos?
R. Não. O GPQA Diamond caiu ligeiramente (94.2% → 93.6%), as tarefas multilíngues ficam atrás do Gemini 3.1 Pro / GPT-5.5, e a robustez contra prompt injection na verdade piorou (sucesso dos ataques 6.0% → 9.6%). Ele está claramente à frente em programação, matemática, contexto longo e honestidade, mas, para alguns usos, o 4.7 ou outros modelos podem ser mais adequados.
P. Qual é o benefício concreto de mais "honestidade"?
R. Ao rodar agentes de IA de forma autônoma, o maior risco é "relatar erroneamente uma falha como sucesso e empilhar trabalho sobre ela." Como o 4.8 reduziu o relato de resultados falhos sem crítica para 0% e cortou o excesso de confiança em mais de 10x, ele para de "fingir que funciona" e diz que está incerto quando está. Para automação de longa duração, CI e revisão de código, a confiabilidade melhora em um nível prático.