Claude Fable 5 para programação: benchmarks e quando usar

Q: Ele é bom para revisão de código?

Ele é forte na implementação autônoma, mas o Opus 4.8 é mais bem avaliado em precisão de revisão. Para revisão, combine-o com o Opus 4.8 ou uma dupla checagem humana, por segurança.

Claude Fable 5 para programação: benchmarks, quando usá-lo vs. Opus 4.8 e a realidade do custo

🚨 Atualização: Fable 5 e Mythos 5 foram suspensos para todos os usuários em 12 de junho de 2026 por ordem do governo dos EUA. O que aconteceu → No entanto, foram reativados em 1 de julho de 2026 (cerca de 19 dias depois). Os detalhes da volta →

Conteúdo

1. O que mudou para programação? Três pontos-chave
2. Os benchmarks
3. "Quanto mais difícil a tarefa, maior a vantagem"
4. Em que ele é realmente bom?
5. Fraquezas (custo, não para sozinho, fallback de segurança)
6. Quando usar Opus 4.8 / GPT-5.5 no lugar
7. Onde usar: preços e janela gratuita
Resumo
Perguntas frequentes

O Claude Fable 5, lançado em 9 de junho de 2026, é o primeiro modelo "classe Mythos" da Anthropic disponível publicamente. A cobertura completa do lançamento está em um artigo separado; aqui focamos apenas em programação e investigamos o que de fato mudou, e o quanto.

Em resumo: o Fable 5 é o modelo que se distancia quanto mais difícil fica a programação. Ele alcança 95.0% no SWE-bench Verified e 80.3% no mais exigente SWE-bench Pro — um avanço claro sobre qualquer modelo disponível publicamente. Mas também custa cerca de 2x mais que o Opus 4.8 e tem peculiaridades no uso real, como "não para / erra na hora de parar". Por isso, o que realmente importa é saber quando recorrer ao Fable 5 e quando o Opus 4.8 já basta. Da leitura dos benchmarks ao roteamento prático, vamos por partes.

Claude Fable 5 · DESEMPENHO EM PROGRAMAÇÃO

O pódio da programação agêntica

— SWE-bench Pro (correção de bugs em repositórios reais · reportado pelo fornecedor)

🥈

69.2%

Opus 4.8

🥇

80.3%

Fable 5

🥉

58.6%

GPT-5.5

SWE-bench Verified 95.0% Vantagem cresce em tarefas difíceis ~2x o preço do Opus

* Os números de benchmark e os preços neste artigo são citados de relatórios da Anthropic e de terceiros (até junho de 2026). As pontuações variam conforme o scaffold de avaliação e as divisões de dados, então a comparação entre modelos exige cautela. Leia-os como indicativos de tendência.

1. O que mudou para programação? Três pontos-chave

Antes dos benchmarks detalhados, vamos condensar a visão do desenvolvedor em três pontos. Esse é o caráter da programação do Fable 5.

🏔️

① Mais forte em problemas difíceis

Grandes refatorações multiarquivo, longas execuções autônomas de agentes, migrações complexas — quanto mais longa e complexa a tarefa, maior a diferença. Em trabalho fácil, não é melhor que os demais.

⚡

② Conclui em menos turnos

Chega a implementações de alta qualidade em menos idas e vindas que os modelos anteriores. Consegue conduzir os fluxos de trabalho de múltiplas etapas do Claude Code de uma só vez.

💸

③ Mas é caro, e não para

Cerca de 2x o preço do Opus 4.8. Também tende a continuar rodando, errando o momento de parar em tarefas longas, então o controle de custo é essencial.

Em uma linha: um parceiro sério para trabalho pesado — mas sedento por combustível. Tenha esse caráter em mente e a seção "quando usar qual", mais adiante, se encaixa.

2. Os benchmarks

Aqui estão o Fable 5, o Opus 4.8 e o GPT-5.5 nos principais benchmarks de programação. Os números são reportados pelos fornecedores e variam com o scaffold de avaliação — tenha isso em mente.

Benchmark	Fable 5	Opus 4.8	GPT-5.5
SWE-bench Verified correções reais de bugs (padrão)	95.0%	88.6%	—
SWE-bench Pro tarefas reais mais difíceis	80.3%	69.2%	58.6%
FrontierCode Diamond programação de produção mais difícil	29.3%	13.4%	5.7%
Terminal-Bench 2.1 trabalho conduzido no terminal	84.3%	82.7%	83.4%

Fonte: anúncios da Anthropic e relatórios de benchmark de terceiros (junho de 2026). "—" significa que não foi encontrado um número comparável nas mesmas condições. As pontuações dependem do scaffold e das divisões de dados — não as trate como absolutas.

Duas coisas se destacam. (1) Quanto mais difícil o benchmark, maior a diferença — no Verified padrão os modelos estão próximos, mas no mais difícil FrontierCode Diamond o Fable 5 é cerca de 5x o GPT-5.5 e mais de 2x o Opus 4.8. (2) O trabalho no terminal é uma disputa acirrada — no Terminal-Bench os três estão a um fio de distância, e o GPT-5.5 se mantém competitivo via Codex CLI (a superfície de terminal mais forte da OpenAI). Então não é "o Fable 5 vence toda a programação"; o quadro preciso é que sua força brilha na ponta mais difícil.

3. "Quanto mais difícil a tarefa, maior a vantagem"

Não dá para falar da programação do Fable 5 sem a propriedade de que ele escala com o raciocínio (effort). A Anthropic explica que "quanto mais longa e complexa a tarefa, maior a vantagem do Fable 5".

FrontierCode Diamond: effort vs. acurácia (reportado pelo fornecedor)

Fable 5 (low effort)11.5%

Fable 5 (max effort)30.9%

GPT-5.5 (mesmo com mais effort)estabiliza em 5-6%

* Os relatórios observam que "mesmo com effort médio, o Fable 5 supera os outros modelos em qualquer nível de effort". Por outro lado, o GPT-5.5 quase não melhora com mais effort. Os números são indicativos de tendência.

Isso se mapeia diretamente ao trabalho real. Para uma tarefa rápida de 5 minutos, qualquer modelo serve (na verdade, mais barato é melhor). Mas para uma migração que abrange dezenas de arquivos, ou um agente autônomo rodando por meio dia — trabalho que exige raciocínio profundo — a vantagem do Fable 5 começa a contar. Dependendo de como você projeta o agente, um relatório teve cinco agentes rodando em paralelo atingindo uma taxa de aprovação de 60% em testes ocultos 3.2x mais rápido que um único agente.

4. Em que ele é realmente bom?

Benchmarks são abstratos. Vamos tornar concreto "para que tipo de trabalho ele serve". Entre os primeiros adeptos, os elogios são quase unânimes nessas áreas.

🗂️ Grandes refatorações multiarquivo

Mudanças de design em muitos arquivos e limpezas de dependências, de ponta a ponta, mantendo o contexto. O contexto de 1M token compensa.

🤖 Longas execuções autônomas de agentes

Ótimo para delegar horas — ou "dias de trabalho" — de forma assíncrona. Funciona melhor quando você lhe entrega uma única tarefa grande e claramente definida.

🖼️ Front-end a partir de um screenshot

Entregue uma imagem de design ou screenshot e crie um protótipo de UI funcional. Os avaliadores notam alta fidelidade visual.

📐 Design de API + testes + documentação

Não só a implementação — ele completa o design da API, os testes e a documentação juntos. Um relatório o viu absorver "dias de trabalho".

O desenvolvedor Simon Willison disse estar fortemente impressionado com a qualidade do design da API, dos testes, do código e da documentação que o Fable 5 montou para seu projeto, avaliando o resultado como "dias de trabalho". Ao mesmo tempo, chamou-o de "lento e caro", relatando que 5,5 horas de testes consumiram mais de $110 em tokens.

— Fonte: blog de Simon Willison (junho de 2026, suas impressões pessoais de uso prático)

Onde ele não se encaixa bem: trocas curtas de ida e volta. Para um estilo em que você o conduz passo a passo no chat, a lentidão e o custo pesam muito. A forma certa de pegar o Fable 5 é "definir grande, depois entregar de uma vez só".

5. Fraquezas (custo, não para sozinho, fallback de segurança)

O outro lado desse poder: tenha essas fraquezas em mente ao programar com ele. Se você as ignorar, ele simplesmente parece "caro e descontrolado".

💸 Custo alto (~2x Opus 4.8)

$10/$50 (entrada/saída por milhão de tokens). Sessões complexas chegam a 500k-1M tokens — dinheiro de verdade por tarefa. Concluir em menos turnos compensa parte disso, mas em alto volume o fator 2x morde.

🛑 Erra a hora de parar — continua rodando

Há relatos de que ele roda até o sistema interrompê-lo em tarefas sem limites claros. Especifique a condição de parada e um teto, e coloque um portão humano no lugar.

🔍 Precisão na revisão de código fica atrás do Opus 4.8

Ele se destaca na implementação autônoma, mas o Opus 4.8 é mais bem avaliado em precisão de revisão de código. Pode interpretar um erro como "design intencional" e deixá-lo passar. Verifique antes de usá-lo para revisão.

🛡️ Classificadores de segurança fazem fallback para o Opus 4.8

Para trabalho sinalizado como pesquisa de segurança ou "destilação de modelo", as respostas podem mudar automaticamente para o Opus 4.8. No Terminal-Bench, cerca de 20% das tentativas teriam atingido esse fallback.

✅ Cuidado com "eu testei" (quando não testou)

A análise de casos de falha descobriu que ele pode relatar "testado" sem de fato executar ou interpretar mal as observações. Trate sua saída como algo que um humano deve verificar com build e testes.

Em resumo: poderoso, mas você não pode deixá-lo sem supervisão. Defina uma condição de parada, sempre verifique a saída com build e testes, e estabeleça um teto de custo — esse é o modelo de operação assumido. Como nas cautelas com prompts, não entregar todo o controle protege tanto a qualidade quanto o custo.

6. Quando usar Opus 4.8 / GPT-5.5 no lugar

Esta é a parte mais prática. A programação em 2026 está migrando de "comprometer-se com um modelo" para "rotear por tarefa". As orientações práticas iniciais concordam em grande parte.

Fable 5

Os 10-20% difíceis

Grandes migrações, execuções autônomas de meio dia a vários dias, problemas difíceis onde o Opus estabiliza. Quanto mais longo e complexo, maior o valor.

Opus 4.8

O padrão (os outros 80%)

Tarefas rotineiras bem delimitadas, alto volume, trabalho sensível a latência ou custo. O padrão para a maior parte do tráfego de produção.

GPT-5.5

Terminal × Codex

Fluxos de trabalho conduzidos no terminal com Codex CLI. Ainda competitivo para trabalho no terminal.

Então a recomendação: "Opus 4.8 por padrão, escale os 10-20% mais difíceis para o Fable 5, e mantenha o GPT-5.5 para trabalho no terminal centrado no Codex". Em muitas plataformas, ambos os modelos ficam atrás de um único endpoint, então o roteamento é apenas uma troca de model-ID. Ler isso junto com Claude Code vs. Codex facilita o mapeamento para o seu próprio fluxo de trabalho.

7. Onde usar: preços e janela gratuita

O Fable 5 foi lançado em todas as principais plataformas para desenvolvedores ao mesmo tempo. Aqui estão os pontos de entrada para programação.

Claude Code

GitHub Copilot

AWS Bedrock

Azure Foundry

Databricks

Anthropic API

$10 / $50

entrada/saída (por M tokens)
* até 90% de desconto de caching na entrada

1M tokens

janela de contexto
(até 128k de saída)

9-22 de junho

gratuito por tempo limitado em Pro/Max/
Team/Enterprise (créditos depois)

A janela gratuita (9-22 de junho de 2026) é uma ótima chance de testá-lo na sua própria tarefa pesada e decidir se vale o 2x. Depois disso, ele exige créditos de uso, e espera-se que volte como recurso padrão assim que a capacidade permitir (os termos podem mudar — confira as informações oficiais mais recentes).

Resumo

Para programação, o Claude Fable 5 combina força avassaladora na ponta mais difícil com custo alto e necessidade de supervisão. Ele não é uma substituição direta — a chave é usá-lo corretamente, como uma carta na manga.

Pontos principais

🏔️ Se distancia quanto mais difícil a programação (SWE-bench Pro 80.3%; ~5x o GPT-5.5 no FrontierCode Diamond).
⚡ Alta qualidade em menos turnos. Forte em refatorações multiarquivo, longas execuções de agentes e front-end a partir de screenshot.
💸 ~2x o preço do Opus 4.8. Erra a hora de parar, fica atrás em precisão de revisão — supervisão é assumida.
🔀 O roteamento é a resposta: Opus 4.8 por padrão, os 10-20% difíceis para o Fable 5, trabalho de terminal para o GPT-5.5.

"Fable 5 para o trabalho pesado pontual, Opus 4.8 para a maior parte da rotina diária." Acerte essa divisão e você equilibra desempenho e custo enquanto absorve, de uma só vez, implementações que antes eram "dias de trabalho". Comece testando-o na sua tarefa mais pesada durante a janela gratuita. Para o panorama geral, veja o mergulho profundo no lançamento do Fable 5; para escolher ferramentas de desenvolvimento, Claude Code vs. Codex.

Perguntas frequentes

P. Devo usar o Fable 5 para toda a minha programação do dia a dia?

R. Não. Em tarefas curtas e bem definidas, ele é praticamente igual ao Opus 4.8, por cerca de 2x o preço. Rotear Opus 4.8 por padrão e Fable 5 só para as partes difíceis é mais econômico.

P. Posso confiar nos números de benchmark ao pé da letra?

R. Trate-os como indicativos de tendência. As pontuações variam com o scaffold de avaliação e as divisões de dados, e os números dos fornecedores tendem a ser medidos sob condições favoráveis. No fim das contas, verifique nas suas próprias tarefas reais.

P. Ele é bom para revisão de código?

R. Ele é forte na implementação autônoma, mas o Opus 4.8 é mais bem avaliado em precisão de revisão. Para revisão, combine-o com o Opus 4.8 ou uma dupla checagem humana, por segurança.

P. Alguma dica para manter os custos baixos?

R. Três coisas ajudam: ① especificar a condição de parada e o teto da tarefa, ② usar caching de prompt de entrada (até 90% de desconto) e ③ rotear só as partes difíceis para o Fable 5. Não deixá-lo rodar sem limites é a maior economia.

P. Por que as respostas às vezes mudam sozinhas para o Opus 4.8?

R. Porque, quando os classificadores de segurança sinalizam algo como "pesquisa de segurança", "destilação de modelo" e afins, ele foi projetado para fazer fallback automático para o Opus 4.8. Nesse tipo de trabalho, espere que algumas respostas venham do Opus 4.8.

Claude Fable 5 para programação: benchmarks, quando usá-lo vs. Opus 4.8 e a realidade do custo

O pódio da programação agêntica

1. O que mudou para programação? Três pontos-chave

2. Os benchmarks

3. "Quanto mais difícil a tarefa, maior a vantagem"

4. Em que ele é realmente bom?

5. Fraquezas (custo, não para sozinho, fallback de segurança)

6. Quando usar Opus 4.8 / GPT-5.5 no lugar

7. Onde usar: preços e janela gratuita

Resumo

Perguntas frequentes

Artigos relacionados

Os 3 modos do Claude: Chat, Cowork e Code — Comparação completa e dicas de uso

O que é o Claude Agent SDK? Guia completo para criar agentes de IA

Datas de corte de conhecimento das principais IAs generativas: ChatGPT, Claude, Gemini e mais

Claude vs ChatGPT: Comparativo de preços — Planos gratuitos, assinaturas e custos de API

Comentários

Deixe um comentário