Claude Fable 5 fürs Coding: Benchmarks und Einsatz

Q: Ist es gut für Code-Review?

Es ist stark bei autonomer Implementierung, doch Opus 4.8 wird bei der Review-Genauigkeit höher bewertet. Für Reviews kombiniere es sicherheitshalber mit Opus 4.8 oder einer menschlichen Gegenprüfung.

Claude Fable 5 fürs Coding: Benchmarks, wann statt Opus 4.8 und die Kostenrealität

🚨 Update: Fable 5 und Mythos 5 wurden am 12. Juni 2026 per US-Regierungsanordnung für alle Nutzer gesperrt. Was geschah → Doch am 1. Juli 2026 wurden sie wieder bereitgestellt (rund 19 Tage später). Details zur Rückkehr →

Inhalt

1. Was hat sich beim Coding geändert? Drei Kernpunkte
2. Die Benchmarks
3. „Je schwerer die Aufgabe, desto größer der Vorsprung"
4. Worin ist es wirklich gut?
5. Schwächen (Kosten, läuft nicht von selbst zu Ende, Sicherheits-Fallback)
6. Wann stattdessen Opus 4.8 / GPT-5.5
7. Wo nutzbar: Preise und kostenloses Zeitfenster
Fazit
FAQ

Claude Fable 5, am 9. Juni 2026 veröffentlicht, ist Anthropics erstes öffentlich verfügbares Modell der „Mythos-Klasse". Die vollständige Berichterstattung zum Release steht in einem eigenen Artikel; hier konzentrieren wir uns allein auf das Coding und gehen der Frage nach, was sich tatsächlich geändert hat und um wie viel.

Kurzfassung: Fable 5 ist das Modell, das sich umso deutlicher absetzt, je schwieriger das Coding wird. Es erreicht 95,0 % auf SWE-bench Verified und 80,3 % auf dem härteren SWE-bench Pro — ein klarer Schritt vor jedem öffentlich verfügbaren Modell. Allerdings kostet es auch rund 2x so viel wie Opus 4.8 und hat praktische Eigenheiten wie „läuft nicht von selbst zu Ende / verschätzt sich beim Anhalten". Worauf es deshalb wirklich ankommt: zu wissen, wann man zu Fable 5 greift und wann Opus 4.8 genügt. Vom Lesen der Benchmarks bis zum praktischen Routing — gehen wir es Schritt für Schritt durch.

Claude Fable 5 · CODING-LEISTUNG

Das Treppchen des agentischen Codings

— SWE-bench Pro (Bugfixes in echten Repos · Herstellerangaben)

🥈

69.2%

Opus 4.8

🥇

80.3%

Fable 5

🥉

58.6%

GPT-5.5

SWE-bench Verified 95.0% Vorsprung wächst bei schweren Aufgaben ~2x der Preis von Opus

* Die Benchmark-Werte und Preise in diesem Artikel sind aus Veröffentlichungen von Anthropic und Drittberichten zitiert (Stand Juni 2026). Die Werte verschieben sich mit dem Evaluations-scaffold und den Daten-Splits, daher ist der Vergleich über Modelle hinweg mit Vorsicht zu genießen. Lies sie als Richtungswerte.

1. Was hat sich beim Coding geändert? Drei Kernpunkte

Vor den detaillierten Benchmarks komprimieren wir die Entwicklersicht auf drei Punkte. Das ist der Charakter des Codings von Fable 5.

🏔️

① Am stärksten bei schweren Problemen

Große Refactorings über viele Dateien, lange autonome Agent-Läufe, komplexe Migrationen — je länger und komplexer die Aufgabe, desto größer der Abstand. Bei leichter Arbeit ist es nicht besser als die anderen.

⚡

② Fertig in weniger Durchläufen

Erreicht hochwertige Implementierungen in weniger Hin und Her als frühere Modelle. Es kann die mehrstufigen Workflows von Claude Code in einem Rutsch durchziehen.

💸

③ Aber teuer, und hört nicht auf

Etwa 2x der Preis von Opus 4.8. Außerdem neigt es dazu, bei langen Aufgaben weiterzulaufen und den Zeitpunkt zum Aufhören falsch einzuschätzen — Kostenkontrolle ist daher unverzichtbar.

In einem Satz: ein ernsthafter Partner für schwere Arbeit — aber durstig nach Sprit. Behält man diesen Charakter im Kopf, fügt sich der spätere Abschnitt „wann was einsetzen" wie von selbst ein.

2. Die Benchmarks

Hier stehen Fable 5, Opus 4.8 und GPT-5.5 auf den wichtigsten Coding-Benchmarks nebeneinander. Die Werte sind Herstellerangaben und bewegen sich mit dem Evaluations-scaffold — das vorausgesetzt.

Benchmark	Fable 5	Opus 4.8	GPT-5.5
SWE-bench Verified echte Bugfixes (Standard)	95.0%	88.6%	—
SWE-bench Pro schwerere reale Aufgaben	80.3%	69.2%	58.6%
FrontierCode Diamond schwerstes Produktions-Coding	29.3%	13.4%	5.7%
Terminal-Bench 2.1 terminalgetriebene Arbeit	84.3%	82.7%	83.4%

Quelle: Anthropic-Ankündigungen und Benchmark-Berichte Dritter (Juni 2026). „—" bedeutet, dass kein vergleichbarer Wert unter denselben Bedingungen gefunden wurde. Die Werte hängen vom scaffold und den Daten-Splits ab — nicht als absolut behandeln.

Zwei Dinge stechen heraus. (1) Je härter der Benchmark, desto größer der Abstand — beim Standard-Verified liegen die Modelle nah beieinander, doch beim schwersten FrontierCode Diamond ist Fable 5 rund 5x so gut wie GPT-5.5 und mehr als 2x so gut wie Opus 4.8. (2) Bei Terminal-Arbeit ist es ein enges Rennen — auf Terminal-Bench liegen die drei haarscharf beieinander, und GPT-5.5 bleibt über die Codex CLI (OpenAIs stärkste Terminal-Oberfläche) konkurrenzfähig. Es ist also nicht „Fable 5 gewinnt jedes Coding"; das genaue Bild ist, dass seine Stärke am schweren Ende glänzt.

3. „Je schwerer die Aufgabe, desto größer der Vorsprung"

Über das Coding von Fable 5 lässt sich nicht reden, ohne die Eigenschaft zu nennen, dass es mit dem Nachdenken (effort) skaliert. Anthropic erklärt: „Je länger und komplexer die Aufgabe, desto größer wird der Vorsprung von Fable 5."

FrontierCode Diamond: effort vs. Genauigkeit (Herstellerangaben)

Fable 5 (low effort)11.5%

Fable 5 (max effort)30.9%

GPT-5.5 (selbst mit mehr effort)stagniert bei 5-6%

* Berichte halten fest, dass „Fable 5 selbst bei mittlerem effort die anderen Modelle auf jedem effort-Niveau übertrifft". GPT-5.5 verbessert sich dagegen mit mehr effort kaum. Die Werte sind Richtungswerte.

Das lässt sich direkt auf die Praxis übertragen. Für eine 5-Minuten-Routine ist jedes Modell in Ordnung (billiger ist sogar besser). Aber für eine Migration über Dutzende von Dateien oder einen autonomen Agenten, der einen halben Tag läuft — Arbeit, die tiefes Nachdenken erfordert — beginnt der Vorsprung von Fable 5 zu zählen. Je nachdem, wie man den Agenten auslegt, erreichten in einem Bericht fünf parallel laufende Agenten eine Bestehensquote von 60 % bei verdeckten Tests 3.2x schneller als ein einzelner Agent.

4. Worin ist es wirklich gut?

Benchmarks sind abstrakt. Machen wir konkret, „für welche Art von Arbeit es sich eignet". Unter den frühen Anwendern ist das Lob in diesen Bereichen nahezu einhellig.

🗂️ Große Refactorings über viele Dateien

Designänderungen über viele Dateien hinweg und das Aufräumen von Abhängigkeiten, durchgängig und unter Wahrung des Kontexts. Der 1M-token Kontext zahlt sich aus.

🤖 Lange autonome Agent-Läufe

Ideal, um Stunden — oder „mehrere Tage" — an Arbeit asynchron abzugeben. Am besten, wenn man ihm eine einzige, klar definierte, größere Aufgabe übergibt.

🖼️ Frontend aus einem Screenshot

Übergib ihm ein Design-Bild oder einen Screenshot und es prototypt eine funktionierende UI. Tester heben die hohe visuelle Treue hervor.

📐 API-Design + Tests + Doku

Nicht nur die Implementierung — es rundet API-Design, Tests und Dokumentation gemeinsam ab. In einem Bericht nahm es „mehrere Tage" an Arbeit ab.

Der Entwickler Simon Willison zeigte sich stark beeindruckt von der Qualität des API-Designs, der Tests, des Codes und der Dokumentation, die Fable 5 für sein Projekt zusammenstellte, und bewertete das Ergebnis als Arbeit „im Wert mehrerer Tage". Zugleich nannte er es „langsam und teuer" und berichtete, dass 5,5 Stunden Testen über 110 $ an token verbrannten.

— Quelle: Simon Willisons Blog (Juni 2026, seine persönlichen Praxiseindrücke)

Wofür es sich schlecht eignet: kurzer Austausch im Hin und Her. Bei einem Stil, in dem man es im Chat Schritt für Schritt anstupst, fallen Langsamkeit und Kosten schwer ins Gewicht. Der richtige Griff zu Fable 5 ist: „groß definieren, dann in einem Rutsch übergeben".

5. Schwächen (Kosten, läuft nicht von selbst zu Ende, Sicherheits-Fallback)

Die Kehrseite dieser Stärke: Behalte diese Schwächen im Kopf, wenn du damit codest. Übersieht man sie, fühlt es sich einfach „teuer und außer Kontrolle" an.

💸 Hohe Kosten (~2x Opus 4.8)

$10/$50 (Eingabe/Ausgabe je Million tokens). Komplexe Sessions erreichen 500k-1M tokens — echtes Geld pro Aufgabe. Dass es in weniger Durchläufen fertig wird, gleicht einen Teil davon aus, doch bei hohem Volumen schlägt der Faktor 2 zu.

🛑 Verschätzt sich beim Anhalten — läuft weiter

Es wird berichtet, dass es bei Aufgaben ohne klare Grenzen läuft, bis das System es stoppt. Lege die Abbruchbedingung und eine Obergrenze explizit fest und setze einen menschlichen Kontrollpunkt ein.

🔍 Code-Review-Genauigkeit liegt hinter Opus 4.8

Es glänzt bei autonomer Implementierung, doch Opus 4.8 wird bei der Code-Review-Genauigkeit höher bewertet. Es kann einen Fehler als „beabsichtigtes Design" lesen und ihn übersehen. Prüfe das nach, bevor du es zur Review einsetzt.

🛡️ Sicherheitsklassifizierer fallen auf Opus 4.8 zurück

Bei Arbeit, die als Security-Forschung oder „Modell-Distillation" markiert wird, können Antworten automatisch auf Opus 4.8 umschalten. Auf Terminal-Bench trat dieser Fallback Berichten zufolge bei rund 20 % der Versuche auf.

✅ Vorsicht bei „Ich habe es getestet" (obwohl nicht)

Die Analyse von Fehlerfällen ergab, dass es „getestet" melden kann, ohne tatsächlich auszuführen, oder Beobachtungen falsch deutet. Behandle seine Ausgabe als etwas, das ein Mensch mit Build und Tests verifizieren muss.

Kurz gesagt: mächtig, aber man kann es nicht unbeaufsichtigt lassen. Setze eine Abbruchbedingung, verifiziere die Ausgabe stets mit Build und Tests und setze eine Kostenobergrenze — das ist das angenommene Betriebsmodell. Wie bei den Hinweisen zum Prompting schützt es Qualität und Kosten zugleich, wenn man ihm nicht völlig das Steuer überlässt.

6. Wann stattdessen Opus 4.8 / GPT-5.5

Das ist der praktischste Teil. Coding verschiebt sich 2026 von „sich auf ein Modell festlegen" hin zu „nach Aufgabe routen". Die frühen Praxisempfehlungen stimmen weitgehend überein.

Fable 5

Die schweren 10-20 %

Große Migrationen, autonome Läufe von einem halben bis mehreren Tagen, harte Probleme, bei denen Opus stagniert. Je länger und komplexer, desto mehr Wert.

Opus 4.8

Der Standard (die übrigen 80 %)

Gut abgegrenzte Routineaufgaben, hohes Volumen, latenz- oder kostensensible Arbeit. Der Standard für den Großteil des Produktionsverkehrs.

GPT-5.5

Terminal × Codex

Terminalgetriebene Workflows auf der Codex CLI. Bei Terminal-Arbeit weiterhin konkurrenzfähig.

Die Empfehlung lautet also: „Standardmäßig Opus 4.8, die schwersten 10-20 % an Fable 5 eskalieren und GPT-5.5 für Codex-zentrierte Terminal-Arbeit behalten." Auf vielen Plattformen liegen beide Modelle hinter einem Endpunkt, sodass Routing nur ein Tausch der Modell-ID ist. Liest man es zusammen mit Claude Code vs. Codex, lässt es sich leicht auf den eigenen Workflow übertragen.

7. Wo nutzbar: Preise und kostenloses Zeitfenster

Fable 5 startete gleichzeitig auf den großen Entwicklerplattformen. Hier sind die Einstiegspunkte fürs Coding.

Claude Code

GitHub Copilot

AWS Bedrock

Azure Foundry

Databricks

Anthropic API

$10 / $50

Eingabe/Ausgabe (je M tokens)
* bis zu 90 % Caching-Rabatt auf Eingabe

1M tokens

Kontextfenster
(bis zu 128k Ausgabe)

9.-22. Juni

zeitlich begrenzt kostenlos auf Pro/Max/
Team/Enterprise (danach Credits)

Das kostenlose Zeitfenster (9.-22. Juni 2026) ist eine gute Gelegenheit, es an der eigenen schweren Aufgabe zu testen und zu entscheiden, ob es den Faktor 2 wert ist. Danach werden Nutzungs-Credits benötigt, und es soll, sobald die Kapazität es zulässt, als Standardfunktion zurückkehren (die Konditionen können sich ändern — prüfe die aktuellen offiziellen Informationen).

Fazit

Beim Coding vereint Claude Fable 5 überwältigende Stärke am schweren Ende mit hohen Kosten und dem Bedarf an Aufsicht. Es ist kein Drop-in-Ersatz — der Schlüssel ist, es richtig einzusetzen, als Trumpf.

Die wichtigsten Erkenntnisse

🏔️ Setzt sich umso deutlicher ab, je schwerer das Coding (SWE-bench Pro 80,3 %; ~5x GPT-5.5 auf FrontierCode Diamond).
⚡ Hohe Qualität in weniger Durchläufen. Stark bei Refactorings über viele Dateien, langen Agent-Läufen und Frontend aus einem Screenshot.
💸 ~2x der Preis von Opus 4.8. Verschätzt sich beim Anhalten, liegt bei der Review-Genauigkeit zurück — Aufsicht wird vorausgesetzt.
🔀 Routing ist die Antwort: standardmäßig Opus 4.8, die schweren 10-20 % an Fable 5, Terminal-Arbeit an GPT-5.5.

„Fable 5 für den schweren Einzelfall, Opus 4.8 für den Großteil der täglichen Arbeit." Trifft man diese Aufteilung, balanciert man Leistung und Kosten und nimmt Implementierungen, die früher „Tage an Arbeit" waren, in einem Zug ab. Beginne damit, es während des kostenlosen Zeitfensters an deiner einzigen schwersten Aufgabe zu testen. Für das große Ganze siehe den Fable 5 Release-Deep-Dive; für die Wahl der Dev-Tools Claude Code vs. Codex.

FAQ

Q. Sollte ich Fable 5 für mein gesamtes alltägliches Coding nutzen?

A. Nein. Bei kurzen, klar definierten Aufgaben ist es etwa gleichauf mit Opus 4.8, zu rund dem doppelten Preis. Standardmäßig Opus 4.8 und Fable 5 nur für die schweren Teile zu routen, ist kosteneffizienter.

Q. Kann ich die Benchmark-Zahlen für bare Münze nehmen?

A. Behandle sie als Richtungswerte. Die Werte verschieben sich mit dem Evaluations-scaffold und den Daten-Splits, und Herstellerzahlen werden tendenziell unter günstigen Bedingungen gemessen. Letztlich gilt: an den eigenen realen Aufgaben verifizieren.

Q. Ist es gut für Code-Review?

A. Es ist stark bei autonomer Implementierung, doch Opus 4.8 wird bei der Review-Genauigkeit höher bewertet. Für Reviews kombiniere es sicherheitshalber mit Opus 4.8 oder einer menschlichen Gegenprüfung.

Q. Gibt es Tipps, um die Kosten niedrig zu halten?

A. Drei Dinge helfen: ① die Abbruchbedingung und Obergrenze der Aufgabe explizit festlegen, ② Prompt-Caching der Eingabe nutzen (bis zu 90 % Rabatt) und ③ nur die schweren Teile an Fable 5 routen. Es nicht unbegrenzt laufen zu lassen, ist der größte Sparhebel.

Q. Warum wechseln Antworten manchmal von selbst zu Opus 4.8?

A. Weil das System so ausgelegt ist, dass es automatisch auf Opus 4.8 zurückfällt, sobald Sicherheitsklassifizierer etwas als „Security-Forschung", „Modell-Distillation" und Ähnliches markieren. Bei solcher Arbeit ist damit zu rechnen, dass ein Teil der Antworten von Opus 4.8 stammt.

Claude Fable 5 fürs Coding: Benchmarks, wann statt Opus 4.8 und die Kostenrealität

Das Treppchen des agentischen Codings

1. Was hat sich beim Coding geändert? Drei Kernpunkte

2. Die Benchmarks

3. „Je schwerer die Aufgabe, desto größer der Vorsprung"

4. Worin ist es wirklich gut?

5. Schwächen (Kosten, läuft nicht von selbst zu Ende, Sicherheits-Fallback)

6. Wann stattdessen Opus 4.8 / GPT-5.5

7. Wo nutzbar: Preise und kostenloses Zeitfenster

Fazit

FAQ

Ähnliche Artikel

Die 3 Modi von Claude: Chat, Cowork und Code — Vollständiger Vergleich und Nutzungstipps

Was ist das Claude Agent SDK? Komplettanleitung zur KI-Agenten-Entwicklung

Wissensstichtage generativer KI im Vergleich: ChatGPT, Claude, Gemini & mehr

Claude vs ChatGPT Preisvergleich — Kostenlose und kostenpflichtige Pläne bis hin zu API-Preisen

Kommentare

Kommentar hinterlassen