Inhaltsverzeichnis
- 1. Opus 4.8 in drei Zeilen
- 2. Kernspezifikationen und Verfügbarkeit
- 3. Benchmarks im direkten Vergleich (4.8 vs. 4.7)
- 4. Preise und Fast-Modus — 3x günstigere Geschwindigkeit
- 5. Neue Funktion #1: der effort-Parameter und adaptives Denken
- 6. Neue Funktion #2: dynamische Workflows (Research Preview)
- 7. Neue Funktion #3: system-Einträge in der Messages API
- 8. Der größte Sprung ist Ehrlichkeit — 10x weniger Selbstüberschätzung
- 9. Einschränkungen und Rückschritte (ehrlich benannt)
- 10. Wer jetzt sofort umsteigen sollte
- Fazit
- FAQ
Am 28. Mai 2026 veröffentlichte Anthropic Claude Opus 4.8 — kaum zwei Monate nach Opus 4.7. Die Aktualisierungsfrequenz beschleunigt sich offensichtlich. Doch die Schlagzeile ist diesmal nicht ein paar Prozentpunkte auf einem Benchmark. Das Erste, was Anthropic selbst hervorhob, war „schärferes Urteilsvermögen, mehr Ehrlichkeit über den eigenen Fortschritt und die Fähigkeit, länger eigenständig zu arbeiten als seine Vorgänger." Ein Release, der mit „es wurde ehrlicher" beginnt, bevor „es wurde schlauer" kommt, ist ungewöhnlich.
Hier das Wesentliche: Coding ist solide verbessert (SWE-bench Pro 64.3% → 69.2%), Mathematik macht einen dramatischen Sprung (USAMO 2026 von 69.3% auf 96.7%), und die Nachverfolgung langer Kontexte verdoppelt sich nahezu (GraphWalks bei 1M tokens 40.3% → 68.1%). Darüber hinaus ist der Fast-Modus rund 2.5x schneller und faktisch ein Drittel des Preises, und drei für Entwickler relevante Funktionen kommen auf einen Schlag: der effort-Parameter, dynamische Workflows und system-Einträge in der Messages API. Gleichzeitig wurde nicht alles besser — die Robustheit gegen Prompt-Injection ist tatsächlich zurückgegangen. Dieser Artikel schlüsselt die Zahlen, die neuen Funktionen und die Einschränkungen auf, basierend auf Anthropics offizieller Ankündigung und dem System Card.
Claude Opus 4.8 auf einen Blick
— ein Flaggschiff, das „Ehrlichkeit" über rohe Intelligenz stellt
(4.7 war 64.3%)
(4.7 war 69.3%)
$10 / $50 pro Mtok
vs. Opus 4.7
Der Standardpreis bleibt gleich wie bei 4.7 ($5 / $25 pro Mtok), der Kontext bleibt bei 1M tokens.
Die Modell-ID lautet claude-opus-4-8, ab dem ersten Tag verfügbar auf Claude API, Bedrock, Vertex AI und Microsoft Foundry.
* Die Zahlen in diesem Artikel basieren auf Anthropics offizieller Ankündigung, der Modellseite und dem System Card sowie auf Berichten mehrerer Tech-Medien (Stand 28. Mai 2026). Sie können aktualisiert werden, sobald weitere Verifizierungen vorliegen.
1. Opus 4.8 in drei Zeilen
Für eilige Leser zuerst das Wesentliche.
- Leistung: Coding wird stetig stärker; Mathematik (USAMO) und die Nachverfolgung langer Kontexte (GraphWalks) verbessern sich dramatisch. Andererseits fällt GPQA Diamond leicht ab, und bei mehrsprachigen Aufgaben liegt das Modell hinter Gemini 3.1 Pro / GPT-5.5.
- Preise: Der Standard bleibt gleich wie bei 4.7. Die größte wirtschaftliche Auswirkung ist, dass der Fast-Modus ~2.5x schneller und faktisch ein Drittel des Preises ist.
- Philosophie: „ehrlicher" vor „schlauer". Es ist das erste Claude, das beim unkritischen Melden fehlerhafter Ergebnisse 0% erreicht, und die Selbstüberschätzung ist gegenüber 4.7 um das 10-fache gesunken. Neue dynamische Workflows und der effort-Parameter unterstützen längeres autonomes Arbeiten.
2. Kernspezifikationen und Verfügbarkeit
Beginnen wir mit den unverrückbaren Fakten: den Spezifikationen von Opus 4.8 und wo man es nutzen kann.
| Punkt | Detail |
|---|---|
| Veröffentlichungsdatum | 28. Mai 2026 (etwa 2 Monate nach 4.7) |
| API-Modell-ID | claude-opus-4-8 |
| Kontextfenster | 1.000.000 tokens (gleich wie 4.7) |
| Maximale Ausgabe | 128.000 tokens pro Antwort |
| Standardpreis | $5 Input / $25 Output (pro 1M tokens, gleich wie 4.7) |
| Kostensenkungen | Bis zu 90% Rabatt mit Prompt-Caching, 50% Rabatt mit Batch-Verarbeitung |
| Fast-Modus-Preis | $10 Input / $50 Output (pro 1M tokens, ~2.5x schneller) |
| Verfügbarkeit | Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry (ab dem ersten Tag) |
Der entscheidende Punkt ist, dass Preis und Kontext gleich bleiben und nur die Substanz stärker wurde. Wenn Sie 4.7 nutzen, erhalten Sie durch den bloßen Austausch der Modell-ID gegen claude-opus-4-8 die Leistungsgewinne ohne Mehrkosten (Migrationshinweise finden sich in Abschnitt 9). Beachten Sie nur, dass Inferenz ausschließlich in den USA einen Preismultiplikator von 1.1x trägt.
3. Benchmarks im direkten Vergleich (4.8 vs. 4.7)
Wir haben die Spezifikationen gesehen. Wie stark ist also die tatsächliche Leistungsfähigkeit gewachsen? Hier sind die wichtigsten veröffentlichten Benchmarks im Vergleich zu 4.7 aufgereiht. Fett markiert die größten Zuwächse.
| Benchmark | Claude Opus 4.8 | Claude Opus 4.7 | Differenz |
|---|---|---|---|
| SWE-bench Verified (echte Code-Fixes) | 88.6% | 87.6% | +1.0 |
| SWE-bench Pro (schwieriges Coding) | 69.2% | 64.3% | +4.9 |
| SWE-bench Multilingual | 84.4% | 80.5% | +3.9 |
| USAMO 2026 (Mathematik-Olympiade) | 96.7% | 69.3% | +27.4 |
| GraphWalks (1M-token Langkontext, F1) | 68.1% | 40.3% | +27.8 |
| GPQA Diamond (Wissenschaft auf Hochschulniveau) | 93.6% | 94.2% | −0.6 |
| Online-Mind2Web (Browser-Nutzung) | 84% | — | — |
Ein Hinweis zum Lesen der Tabelle. Die +4.9 Punkte bei SWE-bench Pro wirken bescheiden, sind aber bedeutsam: Pro versammelt realistischere, schwierigere Coding-Aufgaben, sodass ein Zuwachs dort sich direkt in „weniger Momente, in denen man bei echter Arbeit stecken bleibt" übersetzt. Doch was wirklich heraussticht, sind die Sprünge um +27 Punkte bei USAMO und GraphWalks.
Was die zwei Sprünge bedeuten
Darüber hinaus übertrifft CursorBench jeden vorherigen Opus über alle effort-Stufen hinweg,
beim Super-Agent-Benchmark wurde es zum einzigen Modell, das jeden Fall durchgängig löste, und beim Legal-Agent-Benchmark wurde erstmals ein Wert über 10% nach dem All-Pass-Standard erreicht.
Allerdings stieg nicht alles. GPQA Diamond fiel von 94.2% auf 93.6%. Man könnte es als innerhalb der Fehlertoleranz bezeichnen, doch die Tatsache, dass 4.7 bei „reinen wissenschaftlichen Wissens-Quizzen" marginal vorne liegt, ist beachtenswert. Mehr dazu in Abschnitt 9.
4. Preise und Fast-Modus — 3x günstigere Geschwindigkeit
Wir haben uns bei der Leistung aufgehalten, aber was diesmal tatsächlich am stärksten den Geldbeutel trifft, ist die Preisänderung beim Fast-Modus. Der Standardpreis bleibt vollständig gleich wie bei 4.7, also stellen wir beide nebeneinander.
Standardmodus (unverändert)
- Input: $5 / 1M tokens
- Output: $25 / 1M tokens
- Prompt-Caching: bis zu 90% Rabatt
- Batch-Verarbeitung: 50% Rabatt
→ Keinen Cent anders als 4.7. Null Wechselkosten.
Fast-Modus (große Änderung)
- Input: $10 / 1M tokens
- Output: $50 / 1M tokens
- Geschwindigkeit: etwa 2.5x des Standards
- Ein Drittel des Preises des bisherigen Fast-Modus
→ „Schnell = teuer" gilt nicht mehr. Ideal für Chat-UIs und Massenverarbeitung.
Das ist größer, als es aussieht. Das Dilemma „Ich will Geschwindigkeit, aber der Fast-Modus ist teuer" traf genau die Anwendungsfälle — Chat-UI-Antworten, Massen-Code-Review in CI/CD, Agentenläufe mit vielen Schritten —, bei denen man jetzt Geschwindigkeit und Preis zugleich haben kann. Zusammen mit dem unveränderten Standardpreis lautet die wirtschaftliche Erkenntnis diesmal „dasselbe Budget, aber schneller und schlauer." Für das vollständige Preisbild siehe Preisvergleich Claude Opus / Sonnet / Haiku.
5. Neue Funktion #1: der effort-Parameter und adaptives Denken
Nach den Preisen die Funktionen, die Entwickler direkt anfassen. Zuerst der effort-Parameter. Das ist ein Regler, mit dem man explizit über vier Stufen angeben kann, „wie tief gedacht werden soll".
Denktiefe in vier Stufen wählen
Der Kern: das Standard-HIGH nutzt ungefähr dieselbe Token-Anzahl wie der Standard von 4.7, wobei nur die Leistung steigt.
Mit anderen Worten: Schon ohne jede Einstellung erhält man bessere Ergebnisse zu gleichen Kosten.
Das Gegenstück zu effort ist das adaptive Denken: Das Modell passt die genutzte Rechenleistung automatisch an die Aufgabenkomplexität an. Bei einfachen Fragen schnell, bei schwierigen von sich aus tiefer. Mit effort legt man die Obergrenze und die Politik fest, und das adaptive Denken optimiert die tatsächliche Zuteilung — ein zweistufiges Design, das „keine verschwendeten Denk-Tokens, Tiefe nur dort, wo es zählt" liefert.
6. Neue Funktion #2: dynamische Workflows (Research Preview)
Die ehrgeizigste Funktion ist diesmal diese. Dynamische Workflows ist eine Research-Preview-Funktion, nutzbar in Claude Code (CLI, Desktop, VS-Code-Erweiterung), ein Mechanismus, um Claude einen „großen Auftrag" als Ganzes zu übergeben.
Konkret schreibt Claude seine eigenen Orchestrierungsskripte und startet Dutzende bis Hunderte parallele Subagenten, um ein Problem gleichzeitig anzugehen. Es setzt sogar adversariale Verifizierungsagenten ein, um die Ergebnisse kritisch zu prüfen, und iteriert bis zur Konvergenz. Es koordiniert außerhalb des Hauptgesprächsfadens, und sein Zustand ist fortsetzbar und hält über eine mehrtägige Ausführung hinweg.
Wofür es gut ist
Die vorgesehenen Anwendungsfälle sind Codebasis-weite Fehlersuchen, groß angelegte Migrationen, Sicherheitsaudits und kritische Verifizierungsaufgaben — die Art von Arbeit, die „ein Team von Menschen mehrere Tage kosten würde".
Verfügbarkeit: Max-, Team- und Enterprise-Pläne (vom Admin freigeschaltet), außerdem über die API, Bedrock, Vertex und Foundry. Aus Sicherheitsgründen erfordert es beim ersten Auslösen eine ausdrückliche Bestätigung. Als Research Preview kann sich das Verhalten ändern.
In der Positionierung ist es ein Schritt dahin, dass das Modell selbst spontan entwirft und ausführt, was man zuvor mit dem Claude Agent SDK selbst aufbauen musste: die „parallele Orchestrierung vieler Agenten". Für große Refactorings und übergreifende Untersuchungen erweitert sich der Bereich, den es ohne schrittweise menschliche Anleitung steuern kann.
7. Neue Funktion #3: system-Einträge in der Messages API
Eine subtile Änderung, aber eine willkommene für Entwickler: die Messages API akzeptiert jetzt system-Einträge innerhalb des messages-Arrays.
Bisher wurde der System-Prompt (die Systemanweisungen) einmalig am Anfang der Konversation platziert. Mit dieser Änderung kann man Systemanweisungen mitten in der Konversation einfügen — und das ohne den Prompt-Cache zu zerstören oder einen Nutzer-Turn zu erfordern.
// Beispiel: Aktualisierung von „Berechtigungen, Budget, Umgebung" mitten im Workflow
messages: [
{ role: "system", content: "Du bist ein CI-Agent. Keine destruktiven Operationen." },
{ role: "user", content: "Aktualisiere die Abhängigkeiten" },
{ role: "assistant", content: "..." },
// Politik mitten im Lauf aktualisieren (ohne den Cache zu zerstören)
{ role: "system", content: "Das Token-Budget ist knapp. Nutze effort=low, nur die Kernpunkte." },
{ role: "user", content: "Fortsetzen" }
]
Das zahlt sich bei langen, mehrstufigen Agentenläufen aus. Das „dynamische Austauschen der Politik" mitten in der Ausführung — Berechtigungen verschärfen, Token-Budget signalisieren, den Umgebungskontext aktualisieren (auf welchem Branch man ist usw.) — funktioniert nun unter Erhalt der Cache-Effizienz. Es ist ein Design, das gut mit langlaufenden autonomen Läufen wie dynamischen Workflows zusammenpasst.
8. Der größte Sprung ist Ehrlichkeit — 10x weniger Selbstüberschätzung
Das ist der Teil, den ich am meisten vermitteln möchte. Das wahre Unterscheidungsmerkmal von Opus 4.8 sind nicht die Benchmark-Zahlen — es ist „Ehrlichkeit über die eigene Arbeit." Was Anthropic und die Tester wiederholt betonten, ist, dass dieses Modell proaktiv die eigene Unsicherheit kennzeichnet und seltener unbelegte Behauptungen aufstellt.
Ehrlichkeit in Zahlen
Darüber hinaus liegt die Rate, mit der es Fehler im eigenen Code unkommentiert durchgehen lässt, bei etwa einem Viertel von 4.7.
Es hörte auf, „so zu tun, als würde es funktionieren" — und das ist entscheidend für den Agentenbetrieb.
Warum ist das wichtig? Das größte Risiko, eine KI-Agenten lange autonom laufen zu lassen, ist „einen Fehlschlag als Erfolg zu melden und dann weitere Arbeit auf diesem Fehler aufzustapeln." „Behoben" zu sagen, während die Tests noch fehlschlagen; unsichere Vermutungen in einem zuversichtlichen Ton zu äußern — diese Art von „Selbstüberschätzung" untergräbt die Verlässlichkeit der Automatisierung an der Wurzel. Dass Opus 4.8 nun seine Unsicherheit von sich aus kennzeichnet, ist in der Praxis wertvoller als ein paar Benchmark-Punkte. Persönlich halte ich diesen einen Punkt für das Lobenswerteste an diesem Update.
9. Einschränkungen und Rückschritte (ehrlich benannt)
Wir haben uns die Zuwächse angesehen. Doch da dies ein Artikel ist, der „Ehrlichkeit" lobt, will auch ich ehrlich sein — hier sind, unverhüllt, die Punkte, die bei 4.8 zurückgingen oder Vorsicht erfordern.
| Einschränkung | Detail | Wie man damit umgeht |
|---|---|---|
| Geringere Robustheit gegen Prompt-Injection | Beim Red-Teaming von Gray Swan stieg die Angriffserfolgsrate von 6.0% (4.7) auf 9.6% (4.8) | Für Agenten, die externe Eingaben verarbeiten, die Eingabebereinigung und Privilegientrennung härten. Überarbeiten Sie Ihr Berechtigungsdesign |
| Leichter GPQA-Diamond-Rückgang | 94.2% → 93.6% (−0.6). Bei reinen wissenschaftlichen Wissens-Quizzen liegt 4.7 marginal vorne | Innerhalb der Fehlertoleranz. Falls relevant, A/B-Test auf Ihren echten Aufgaben durchführen |
| Nicht führend bei Mehrsprachigkeit | Bei mehrsprachigen Aufgaben hinter Gemini 3.1 Pro / GPT-5.5 | Wenn Mehrsprachigkeit Ihr Schlachtfeld ist, ziehen Sie eine Kombination mit / einen Vergleich mit anderen Modellen in Betracht |
| Dynamische Workflows sind eine Research Preview | Das Verhalten kann sich ändern. Sich für kritische Produktionsarbeit vollständig darauf zu verlassen, ist verfrüht | Vor der Einführung an unkritischer Arbeit validieren |
Insbesondere der Rückgang der Robustheit gegen Prompt-Injection darf nicht übersehen werden. Dass der Angriffserfolg um etwa das 1.6-fache steigt, bedeutet für Agenten, die externe Eingaben (Webseiten, E-Mails, Nutzerbeiträge) lesen und autonom handeln, dass der bloße Umstieg auf 4.8 sie in manchen Szenarien sicherheitstechnisch relativ schwächer machen kann. Schlauer zu werden bedeutet nicht, 4.7 auf jeder Sicherheitsachse zu schlagen — verstehen Sie diese Asymmetrie richtig.
10. Wer jetzt sofort umsteigen sollte
Sollte man also jetzt sofort auf claude-opus-4-8 umsteigen? Schlüsseln wir es nach Typ auf.
✅ Jetzt umsteigen
- Coding / Agentenbetrieb ist Ihr Hauptanwendungsfall
- Sie möchten lange autonome Aufgaben delegieren
- Sie nutzen den Fast-Modus intensiv (jetzt 3x günstiger)
- Sie arbeiten mit riesigen Codebasen / langen Kontexten
- „Selbstüberschätztes Fehlmelden" wäre in Ihrem Umfeld fatal
⚠ Sorgfältig abwägen
- Öffentliche Agenten, die externe Eingaben verarbeiten (geringere Injection-Robustheit)
- Mehrsprachige Verarbeitung ist Ihr Schlachtfeld (andere liegen evtl. vorne)
- Reine wissenschaftliche QA steht im Zentrum (leichter GPQA-Rückgang)
- Dynamische Workflows direkt in kritische Produktion zu setzen
Da die Wechselkosten selbst nahezu null sind (nur die Modell-ID ändern; der Standardpreis bleibt gleich), ist der Königsweg, zunächst in einer unkritischen Umgebung auf claude-opus-4-8 umzustellen und auf den eigenen Aufgaben zu messen. Die konkreten Migrationsschritte von 4.7 übertragen sich direkt aus den Überlegungen im Opus-4.7-Migrationsleitfaden. Für den Vergleich mit GPT-5.5 und anderen siehe GPT-5.5 vs. Claude Opus Vergleich.
Fazit
Claude Opus 4.8 (veröffentlicht am 28. Mai 2026, claude-opus-4-8) ist ein Flaggschiff, das die Substanz stärkte, während Preis und Kontext gleich blieben. Coding verbesserte sich stetig (SWE-bench Pro +4.9); Mathematik (USAMO 96.7%) und die Nachverfolgung langer Kontexte (GraphWalks 68.1%) verbesserten sich dramatisch. Der Fast-Modus wurde ~2.5x schneller und faktisch ein Drittel des Preises, und die praktischen Funktionen — der effort-Parameter, dynamische Workflows und system-Einträge in der Messages API — kamen alle zusammen.
Doch die Essenz sind nicht die Zahlen. Eine Rate von 0% beim unkritischen Durchgehenlassen von Fehlern, Selbstüberschätzung um mehr als das 10-fache gesunken — dieser Release, der „Ehrlichkeit" über „Intelligenz" stellt, weist in die richtige Richtung für eine Ära langlaufender autonomer KI. Gleichzeitig ist die Robustheit gegen Prompt-Injection tatsächlich zurückgegangen; es schlägt das alte Modell nicht auf jeder Achse. Genau deshalb — passenderweise im Geist der Tugend eben dieses Modells — ist der klügste Weg des Umgangs, sich nicht zu überschätzen und auf den eigenen Aufgaben zu messen, bevor man entscheidet.
Weiterführende Lektüre: Claude Opus 4.7 Release-Analyse, Opus-4.7-Migrationsleitfaden, Preisvergleich Opus / Sonnet / Haiku, GPT-5.5 vs. Claude Opus Vergleich und Was ist das Claude Agent SDK.
FAQ
F. Ist die Migration von Opus 4.7 auf 4.8 schwierig?
A. Sie erfordert fast nichts. Ändern Sie einfach die API-Modell-ID in claude-opus-4-8; der Standardpreis und das Kontextfenster (1M tokens) bleiben gleich. Das Standard-effort=HIGH nutzt ungefähr dieselbe Token-Anzahl wie der Standard von 4.7, wobei nur die Leistung steigt, sodass Sie ohne Konfigurationsänderungen profitieren. Achten Sie nur auf den Rückgang der Injection-Robustheit (unten) bei Agenten, die externe Eingaben verarbeiten.
F. Was bedeutet „3x günstiger" beim Fast-Modus?
A. Es bedeutet, dass der Preis des Fast-Modus ($10 Input / $50 Output pro 1M tokens) faktisch ein Drittel des Fast-Modus des vorherigen Modells beträgt. Die Geschwindigkeit ist etwa 2.5x des Standards. Das Dilemma „Ich will Geschwindigkeit, aber der Fast-Modus ist teuer" wird stark gemildert, was den Einsatz für Chat-UIs und Massen-Batch-Verarbeitung erleichtert.
F. Kann jeder dynamische Workflows nutzen?
A. Es befindet sich in der Research Preview, nutzbar aus Claude Code (CLI, Desktop, VS-Code-Erweiterung). Die Verfügbarkeit besteht in den Max-, Team- und Enterprise-Plänen (vom Admin freigeschaltet) sowie über die API, Bedrock, Vertex und Foundry. Aus Sicherheitsgründen erfordert das erste Auslösen eine ausdrückliche Bestätigung. Das Verhalten kann sich ändern, daher ist es am sichersten, es zunächst an unkritischer Arbeit zu erproben.
F. Ist 4.8 in jeder Hinsicht besser als 4.7?
A. Nein. GPQA Diamond fiel leicht ab (94.2% → 93.6%), bei mehrsprachigen Aufgaben liegt es hinter Gemini 3.1 Pro / GPT-5.5, und die Robustheit gegen Prompt-Injection verschlechterte sich tatsächlich (Angriffserfolg 6.0% → 9.6%). Es liegt klar vorne bei Coding, Mathematik, langem Kontext und Ehrlichkeit, doch für manche Anwendungen passen 4.7 oder andere Modelle möglicherweise besser.
F. Was ist der konkrete Nutzen höherer „Ehrlichkeit"?
A. Beim autonomen Betrieb von KI-Agenten ist das größte Risiko „einen Fehlschlag als Erfolg fehlzumelden und darauf weitere Arbeit aufzustapeln." Da 4.8 das unkritische Melden fehlerhafter Ergebnisse auf 0% senkte und die Selbstüberschätzung um mehr als das 10-fache reduzierte, hört es auf, „so zu tun, als würde es funktionieren", und sagt, wenn es unsicher ist. Für langlaufende Automatisierung, CI und Code-Review verbessert sich die Verlässlichkeit auf praktischer Ebene.