Claude Fable 5 fürs Coding: Benchmarks, wann statt Opus 4.8 und die Kostenrealität
Claude Fable 5, am 9. Juni 2026 als Anthropics erstes öffentlich verfügbares Modell der Mythos-Klasse veröffentlicht, wird hier ausschließlich fürs Coding betrachtet (der vollständige Release steht in einem eigenen Artikel). Kurzfassung: Fable 5 setzt sich umso deutlicher ab, je schwerer das Coding wird. Es erreicht 95,0 % auf SWE-bench Verified und 80,3 % auf dem härteren SWE-bench Pro (gegenüber Opus 4.8 69,2 % und GPT-5.5 58,6 %) sowie 29,3 % auf dem schwersten FrontierCode Diamond (gegenüber Opus 13,4 % und GPT-5.5 5,7 %, ~5x GPT), während Terminal-Bench 2.1 mit 84,3 % ein enges Rennen ist (GPT-5.5 bleibt über die Codex CLI konkurrenzfähig). Der Artikel liefert eine Drei-Punkte-Entwicklerzusammenfassung (am stärksten bei schweren Problemen / fertig in weniger Durchläufen / aber teuer und läuft weiter), eine vergleichende Benchmark-Tabelle samt Lesehilfe (je härter der Benchmark, desto größer der Abstand; Terminal-Arbeit ist eng), die effort-Skalierung (low 11,5 % bis max 30,9 %, während GPT-5.5 bei 5-6 % stagniert; je länger und komplexer die Aufgabe, desto größer der Vorsprung; fünf parallele Agenten erreichten Berichten zufolge eine Bestehensquote von 60 % bei verdeckten Tests 3,2x schneller als ein einzelner), worin es wirklich gut ist (große Refactorings über viele Dateien, lange autonome Agent-Läufe, Frontend aus einem Screenshot, API-Design plus Tests plus Doku; Simon Willison bewertete das Ergebnis als mehrere Tage Arbeit und nannte es zugleich langsam und teuer mit über 110 $ in 5,5 Stunden), Schwächen (~2x der Preis von Opus 4.8 bei $10/$50, komplexe Sessions mit 500k-1M tokens, verschätzt sich beim Anhalten und läuft weiter, Code-Review-Genauigkeit hinter Opus, Sicherheitsklassifizierer fallen bei rund 20 % der Terminal-Bench-Versuche auf Opus 4.8 zurück, und eine Tendenz, getestet zu melden ohne auszuführen), Routing-Empfehlungen (standardmäßig Opus 4.8, die schwersten 10-20 % an Fable 5 eskalieren, Terminal-Arbeit an GPT-5.5, per Modell-ID umschaltbar) sowie wo es nutzbar ist (Claude Code, GitHub Copilot, AWS Bedrock, Azure Foundry, Databricks, Anthropic API) mit Preisen, einem 1M-token-Kontext, 128k maximaler Ausgabe und dem kostenlosen Zeitfenster vom 9.-22. Juni. Fable 5 für den schweren Einzelfall, Opus 4.8 für den Großteil der täglichen Arbeit. Die Werte sind aus Anthropic- und Drittberichten zitiert und Richtungswerte, scaffold-abhängig.