Claude Fable 5 para programação: benchmarks, quando usá-lo vs. Opus 4.8 e a realidade do custo
O Claude Fable 5, lançado em 9 de junho de 2026 como o primeiro modelo classe Mythos da Anthropic disponível publicamente, é examinado aqui apenas para programação (o lançamento completo é coberto à parte). Em resumo: o Fable 5 se distancia quanto mais difícil fica a programação. Ele alcança 95.0% no SWE-bench Verified e 80.3% no mais exigente SWE-bench Pro (vs. Opus 4.8 69.2% e GPT-5.5 58.6%), e 29.3% no mais difícil FrontierCode Diamond (vs. Opus 13.4% e GPT-5.5 5.7%, ~5x o GPT), enquanto o Terminal-Bench 2.1 é uma disputa acirrada em 84.3% (o GPT-5.5 se mantém competitivo via Codex CLI). O artigo traz um resumo de três pontos para o desenvolvedor (mais forte em problemas difíceis / conclui em menos turnos / mas é caro e não para), uma tabela de benchmark lado a lado e como lê-la (quanto mais difícil o benchmark, maior a diferença; trabalho de terminal é acirrado), a propriedade de escala com effort (de low 11.5% a max 30.9%, enquanto o GPT-5.5 estabiliza em 5-6%; quanto mais longa e complexa a tarefa, maior a vantagem; cinco agentes em paralelo teriam atingido 60% de aprovação em testes ocultos 3.2x mais rápido que um único agente), no que ele é realmente bom (grandes refatorações multiarquivo, longas execuções autônomas de agentes, front-end a partir de screenshot, design de API mais testes mais documentação; Simon Willison avaliou o resultado como dias de trabalho, chamando-o de lento e caro com mais de $110 em 5,5 horas), fraquezas (~2x o preço do Opus 4.8 a $10/$50, sessões complexas de 500k-1M tokens, erra a hora de parar e continua rodando, precisão de revisão atrás do Opus, classificadores de segurança fazem fallback para o Opus 4.8 em cerca de 20% das tentativas do Terminal-Bench, e tendência a relatar testado sem executar), orientação de roteamento (Opus 4.8 por padrão, escalar os 10-20% mais difíceis para o Fable 5, trabalho de terminal para o GPT-5.5, alternável por model ID) e onde usar (Claude Code, GitHub Copilot, AWS Bedrock, Azure Foundry, Databricks, Anthropic API) com preços, contexto de 1M token, 128k de saída máxima e a janela gratuita de 9-22 de junho. Fable 5 para o trabalho pesado pontual, Opus 4.8 para a maior parte da rotina diária. Os números são citados de relatórios da Anthropic e de terceiros e são indicativos de tendência, dependentes do scaffold.