Sommaire
- 1. Opus 4.8 en trois lignes
- 2. Spécifications clés et disponibilité
- 3. Benchmarks en face à face (4.8 vs 4.7)
- 4. Tarification et mode rapide — une vitesse 3x moins chère
- 5. Nouveauté n°1 : le paramètre effort et la réflexion adaptative
- 6. Nouveauté n°2 : les workflows dynamiques (aperçu de recherche)
- 7. Nouveauté n°3 : les entrées system dans la Messages API
- 8. Le plus grand bond, c'est l'honnêteté — 10x moins de surconfiance
- 9. Réserves et régressions (dites honnêtement)
- 10. Qui devrait migrer dès maintenant
- Conclusion
- FAQ
Le 28 mai 2026, Anthropic a publié Claude Opus 4.8 — à peine deux mois après Opus 4.7. La cadence des mises à jour s'accélère clairement. Mais cette fois, le titre n'est pas quelques points de pourcentage sur un benchmark. La première chose qu'Anthropic a elle-même mise en avant, c'est « un jugement plus affûté, plus d'honnêteté sur sa propre progression, et la capacité de travailler de façon autonome plus longtemps que ses prédécesseurs ». Une sortie qui met en avant « il est devenu plus honnête » avant « il est devenu plus intelligent » est inhabituelle.
Voici l'essentiel : le code progresse solidement (SWE-bench Pro 64.3% → 69.2%), les maths bondissent spectaculairement (USAMO 2026, de 69.3% à 96.7%), et le suivi du contexte long double presque (GraphWalks à 1M tokens 40.3% → 68.1%). En plus, le mode rapide est environ 2,5x plus véloce et concrètement trois fois moins cher, et trois fonctionnalités destinées aux développeurs arrivent d'un coup : le paramètre effort, les workflows dynamiques et les entrées system dans la Messages API. En même temps, tout ne s'est pas amélioré — la robustesse face à l'injection de prompt a en réalité régressé. Cet article décortique les chiffres, les nouvelles fonctionnalités et les réserves, en s'appuyant sur l'annonce officielle d'Anthropic et la system card.
Claude Opus 4.8 en un coup d'œil
— un modèle phare qui met « l'honnêteté » avant l'intelligence brute
(4.7 était à 64.3%)
(4.7 était à 69.3%)
$10 / $50 par Mtok
vs Opus 4.7
La tarification standard est maintenue au niveau de 4.7 ($5 / $25 par Mtok), le contexte reste à 1M tokens.
L'identifiant du modèle est claude-opus-4-8, disponible dès le premier jour sur Claude API, Bedrock, Vertex AI et Microsoft Foundry.
* Les chiffres de cet article s'appuient sur l'annonce officielle d'Anthropic, la page du modèle et la system card, ainsi que sur les reportages de plusieurs médias spécialisés (au 28 mai 2026). Ils pourront être mis à jour à mesure que davantage de vérifications seront disponibles.
1. Opus 4.8 en trois lignes
Pour le lecteur pressé, l'essentiel d'abord.
- Performance : le code est régulièrement plus fort ; les maths (USAMO) et le suivi du contexte long (GraphWalks) progressent spectaculairement. En revanche, GPQA Diamond recule légèrement, et les tâches multilingues restent derrière Gemini 3.1 Pro / GPT-5.5.
- Tarification : le standard est maintenu au niveau de 4.7. Le plus grand impact économique vient du fait que le mode rapide est ~2,5x plus rapide et concrètement trois fois moins cher.
- Philosophie : « plus honnête » avant « plus intelligent ». C'est le premier Claude à obtenir 0% sur le fait de rapporter sans esprit critique des résultats erronés, et la surconfiance est divisée par 10 par rapport à 4.7. De nouveaux workflows dynamiques et le paramètre effort soutiennent un travail autonome plus long.
2. Spécifications clés et disponibilité
Commençons par les faits immuables : les spécifications d'Opus 4.8 et où vous pouvez l'utiliser.
| Élément | Détail |
|---|---|
| Date de sortie | 28 mai 2026 (environ 2 mois après 4.7) |
| ID du modèle API | claude-opus-4-8 |
| Fenêtre de contexte | 1 000 000 tokens (identique à 4.7) |
| Sortie maximale | 128 000 tokens par réponse |
| Tarification standard | $5 en entrée / $25 en sortie (par 1M tokens, identique à 4.7) |
| Réductions de coût | Jusqu'à 90% de remise avec le prompt caching, 50% de remise avec le traitement par lot |
| Tarification du mode rapide | $10 en entrée / $50 en sortie (par 1M tokens, ~2,5x plus rapide) |
| Disponibilité | Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry (dès le premier jour) |
Le point clé, c'est que le prix et le contexte sont maintenus, et seule la substance s'est renforcée. Si vous êtes sur 4.7, remplacer l'ID du modèle par claude-opus-4-8 vous donne les gains de performance sans coût supplémentaire (les réserves de migration sont en section 9). Notez simplement que l'inférence aux États-Unis uniquement applique un multiplicateur tarifaire de 1,1x.
3. Benchmarks en face à face (4.8 vs 4.7)
Nous avons vu les spécifications. Alors, de combien la capacité réelle a-t-elle grandi ? Voici les principaux benchmarks publiés, alignés face à 4.7. Le gras marque les plus grands gains.
| Benchmark | Claude Opus 4.8 | Claude Opus 4.7 | Écart |
|---|---|---|---|
| SWE-bench Verified (corrections de code réelles) | 88.6% | 87.6% | +1.0 |
| SWE-bench Pro (code difficile) | 69.2% | 64.3% | +4.9 |
| SWE-bench Multilingual | 84.4% | 80.5% | +3.9 |
| USAMO 2026 (olympiade de maths) | 96.7% | 69.3% | +27.4 |
| GraphWalks (contexte long de 1M tokens, F1) | 68.1% | 40.3% | +27.8 |
| GPQA Diamond (science niveau doctorat) | 93.6% | 94.2% | −0.6 |
| Online-Mind2Web (utilisation du navigateur) | 84% | — | — |
Une note pour lire le tableau. Les +4.9 points sur SWE-bench Pro semblent modestes mais comptent : Pro regroupe des tâches de code plus réalistes et plus dures, donc un gain s'y traduit directement par « moins de moments où vous êtes bloqué dans un vrai travail ». Mais ce qui ressort vraiment, ce sont les bonds de +27 points sur USAMO et GraphWalks.
Ce que signifient les deux bonds
En plus de cela, CursorBench dépasse tous les Opus précédents à tous les niveaux d'effort,
le benchmark Super-Agent l'a vu devenir le seul modèle à compléter chaque cas de bout en bout, et le benchmark Legal Agent a enregistré le premier score supérieur à 10% sur le standard tout-réussi.
Cela dit, tout n'a pas augmenté. GPQA Diamond est passé de 94.2% à 93.6%. On pourrait parler de marge d'erreur, mais le fait que 4.7 soit légèrement en tête sur les « quiz de pures connaissances scientifiques » mérite d'être gardé en tête. Plus de détails en section 9.
4. Tarification et mode rapide — une vitesse 3x moins chère
Nous nous sommes attardés sur la performance, mais ce qui touche réellement le plus votre portefeuille cette fois, c'est le changement de prix du mode rapide. La tarification standard est complètement maintenue au niveau de 4.7, alors alignons les deux.
Mode standard (maintenu)
- Entrée : $5 / 1M tokens
- Sortie : $25 / 1M tokens
- Prompt caching : jusqu'à 90% de remise
- Traitement par lot : 50% de remise
→ Pas un centime de différence avec 4.7. Zéro coût de bascule.
Mode rapide (gros changement)
- Entrée : $10 / 1M tokens
- Sortie : $50 / 1M tokens
- Vitesse : environ 2,5x le standard
- Trois fois moins cher que le mode rapide précédent
→ « Rapide = cher » n'est plus vrai. Idéal pour les interfaces de chat et le traitement en masse.
C'est plus important qu'il n'y paraît. Le dilemme « je veux de la vitesse, mais le mode rapide est cher » frappait exactement les cas d'usage — réponses d'interfaces de chat, revue de code en masse en CI/CD, exécutions d'agents en de nombreuses étapes — où vous pouvez désormais avoir à la fois la vitesse et le prix. Combiné à la tarification standard inchangée, l'enseignement économique cette fois est « le même budget, mais plus rapide et plus intelligent ». Pour le tableau complet des tarifs, voir la comparaison des tarifs Claude Opus / Sonnet / Haiku.
5. Nouveauté n°1 : le paramètre effort et la réflexion adaptative
Après la tarification, les fonctionnalités que les développeurs touchent directement. D'abord, le paramètre effort. C'est un curseur qui vous permet de spécifier explicitement « avec quelle profondeur réfléchir » sur quatre niveaux.
Choisissez la profondeur de réflexion sur quatre niveaux
Le point crucial : le HIGH par défaut utilise environ le même nombre de tokens que le défaut de 4.7, seule la performance augmentant.
Autrement dit, même sans aucun réglage, vous obtenez de meilleurs résultats au même coût.
Le pendant de effort est la réflexion adaptative : le modèle ajuste automatiquement le calcul qu'il utilise selon la complexité de la tâche. Rapide sur les questions simples, plus profond de lui-même sur les difficiles. Vous fixez le plafond et la politique avec effort, et la réflexion adaptative optimise l'allocation réelle — une conception à deux niveaux qui offre « aucun token de réflexion gaspillé, de la profondeur seulement là où cela compte ».
6. Nouveauté n°2 : les workflows dynamiques (aperçu de recherche)
La fonctionnalité la plus ambitieuse cette fois, c'est celle-ci. Les workflows dynamiques sont une fonctionnalité en aperçu de recherche utilisable dans Claude Code (CLI, Desktop, extension VS Code), un mécanisme pour confier à Claude un « gros travail » d'un seul tenant.
Concrètement, Claude écrit ses propres scripts d'orchestration et lance des dizaines à des centaines de sous-agents parallèles pour attaquer un problème simultanément. Il déploie même des agents de vérification adversariaux pour contrôler de façon critique les résultats, et itère jusqu'à la convergence. Il se coordonne en dehors du fil de conversation principal, et son état est reprenable, tenant sur une exécution de plusieurs jours.
À quoi cela sert
Les cas d'usage prévus sont les chasses aux bugs à l'échelle de la base de code, les migrations à grande échelle, les audits de sécurité et les tâches de vérification critiques — le genre de travail qui « prendrait plusieurs jours à une équipe d'humains ».
Disponibilité : les plans Max, Team et Enterprise (activé par l'administrateur), ainsi que via l'API, Bedrock, Vertex et Foundry. Par sécurité, il requiert une confirmation explicite au premier déclenchement. En tant qu'aperçu de recherche, le comportement peut changer.
En termes de positionnement, c'est un pas vers le fait que le modèle lui-même conçoive et exécute, sur le moment, « l'orchestration parallèle de nombreux agents » que vous deviez auparavant construire vous-même avec le Claude Agent SDK. Pour les grands refactorings et les investigations transversales, l'amplitude qu'il peut piloter sans direction humaine étape par étape s'élargit.
7. Nouveauté n°3 : les entrées system dans la Messages API
Un changement subtil, mais bienvenu pour les développeurs : la Messages API accepte désormais les entrées system à l'intérieur du tableau messages.
Auparavant, le prompt système (instructions système) était placé une seule fois au début de la conversation. Avec ce changement, vous pouvez injecter des instructions système en cours de conversation — et le faire sans casser le prompt cache ni nécessiter un tour utilisateur.
// Exemple : mettre à jour « permissions, budget, environnement » en cours de workflow
messages: [
{ role: "system", content: "Vous êtes un agent CI. Aucune opération destructive." },
{ role: "user", content: "Mettez à jour les dépendances" },
{ role: "assistant", content: "..." },
// Mettre à jour la politique en cours d'exécution (sans casser le cache)
{ role: "system", content: "Le budget de tokens est faible. Utilisez effort=low, points clés uniquement." },
{ role: "user", content: "Continuez" }
]
Cela paie dans les exécutions d'agents longues et en plusieurs étapes. « Permuter dynamiquement la politique » en cours d'exécution — resserrer les permissions, signaler le budget de tokens, mettre à jour le contexte d'environnement (sur quelle branche vous êtes, etc.) — fonctionne désormais tout en préservant l'efficacité du cache. C'est une conception qui se marie bien avec les exécutions autonomes au long cours comme les workflows dynamiques.
8. Le plus grand bond, c'est l'honnêteté — 10x moins de surconfiance
C'est la partie que je tiens le plus à transmettre. Le véritable facteur différenciant d'Opus 4.8 n'est pas les chiffres des benchmarks — c'est « l'honnêteté à propos de son propre travail ». Ce qu'Anthropic et les testeurs ont souligné à plusieurs reprises, c'est que ce modèle signale de façon proactive sa propre incertitude et est moins susceptible de faire des affirmations non étayées.
L'honnêteté en chiffres
En plus de cela, le taux de laisser passer sans la signaler une faille dans son propre code est environ un quart de celui de 4.7.
Il a cessé de « faire semblant que ça marche » — et c'est décisif pour le fonctionnement des agents.
Pourquoi est-ce important ? Le plus grand risque à laisser un agent IA s'exécuter de façon autonome longtemps, c'est « rapporter un échec comme un succès, puis empiler davantage de travail par-dessus cette erreur ». Dire « corrigé » alors que les tests échouent encore ; énoncer des suppositions incertaines sur un ton assuré — ce genre de « surconfiance » sape la fiabilité de l'automatisation à la racine. Le fait qu'Opus 4.8 signale désormais son incertitude de lui-même est, en pratique, plus précieux que quelques points de benchmark. Personnellement, je pense que ce seul point est la chose la plus louable de cette mise à jour.
9. Réserves et régressions (dites honnêtement)
Nous avons examiné les gains. Mais comme c'est un article qui fait l'éloge de « l'honnêteté », je serai honnête moi aussi — voici, sans déguisement, les points qui ont régressé ou qui appellent à la prudence dans 4.8.
| Réserve | Détail | Comment la gérer |
|---|---|---|
| Robustesse moindre face à l'injection de prompt | Dans le red-teaming de Gray Swan, le taux de succès des attaques est passé de 6.0% (4.7) à 9.6% (4.8) | Pour les agents qui traitent des entrées externes, renforcez l'assainissement des entrées et la séparation des privilèges. Revisitez votre conception des permissions |
| Léger recul sur GPQA Diamond | 94.2% → 93.6% (−0.6). Sur les quiz de pures connaissances scientifiques, 4.7 est légèrement en tête | Dans la marge d'erreur. Testez en A/B sur vos vraies tâches si cela compte |
| Pas le leader sur le multilingue | Les tâches multilingues restent derrière Gemini 3.1 Pro / GPT-5.5 | Si le multilingue est votre terrain de bataille, envisagez de l'associer à / de le comparer avec d'autres modèles |
| Les workflows dynamiques sont un aperçu de recherche | Le comportement peut changer. En dépendre entièrement pour un travail de production critique est prématuré | Validez sur un travail non critique avant d'adopter |
La baisse de la robustesse face à l'injection de prompt en particulier ne peut être négligée. Le succès des attaques augmentant d'environ 1,6x signifie que pour les agents qui lisent des entrées externes (pages web, e-mail, publications d'utilisateurs) et agissent de façon autonome, le simple passage à 4.8 peut les rendre relativement plus faibles sur la sécurité dans certains scénarios. Devenir plus intelligent ne signifie pas battre 4.7 sur tous les axes de la sécurité — comprenez correctement cette asymétrie.
10. Qui devrait migrer dès maintenant
Alors, devriez-vous passer à claude-opus-4-8 dès maintenant ? Décortiquons cela par profil.
✅ Migrez maintenant
- Le code / le fonctionnement d'agents est votre usage principal
- Vous voulez déléguer de longues tâches autonomes
- Vous utilisez intensivement le mode rapide (désormais 3x moins cher)
- Vous travaillez avec d'énormes bases de code / de longs contextes
- Un « rapport erroné par surconfiance » serait fatal dans votre contexte
⚠ Réfléchissez bien
- Agents publics traitant des entrées externes (robustesse à l'injection moindre)
- Le traitement multilingue est votre terrain de bataille (d'autres peuvent mener)
- Le QA scientifique pur est central (léger recul sur GPQA)
- Mettre les workflows dynamiques directement en production critique
Comme le coût de bascule lui-même est quasi nul (changez simplement l'ID du modèle ; la tarification standard est maintenue), la voie royale est de d'abord passer à claude-opus-4-8 dans un environnement non critique et de mesurer sur vos propres tâches. Les étapes concrètes de migration depuis 4.7 se reportent directement à partir du raisonnement du guide de migration Opus 4.7. Pour la comparaison avec GPT-5.5 et d'autres, voir GPT-5.5 vs comparaison Claude Opus.
Conclusion
Claude Opus 4.8 (sorti le 28 mai 2026, claude-opus-4-8) est un modèle phare qui a renforcé la substance tout en maintenant le prix et le contexte. Le code s'est amélioré régulièrement (SWE-bench Pro +4.9) ; les maths (USAMO 96.7%) et le suivi du contexte long (GraphWalks 68.1%) se sont améliorés spectaculairement. Le mode rapide est devenu ~2,5x plus rapide et concrètement trois fois moins cher, et les fonctionnalités pratiques — le paramètre effort, les workflows dynamiques et les entrées system dans la Messages API — sont toutes arrivées ensemble.
Mais l'essence n'est pas dans les chiffres. Un taux de 0% pour laisser passer des failles sans esprit critique, une surconfiance divisée par plus de 10 — cette sortie, qui met « l'honnêteté » avant « l'intelligence », pointe dans la bonne direction pour une ère d'IA autonomes au long cours. En même temps, la robustesse face à l'injection de prompt a en réalité régressé ; elle ne bat pas l'ancien modèle sur tous les axes. C'est pourquoi — à juste titre, dans l'esprit de la vertu même de ce modèle — la manière la plus avisée de l'aborder est de ne pas être trop confiant, et de mesurer sur vos propres tâches avant de décider.
Lectures liées : décryptage de la sortie de Claude Opus 4.7, guide de migration Opus 4.7, comparaison des tarifs Opus / Sonnet / Haiku, GPT-5.5 vs comparaison Claude Opus, et qu'est-ce que le Claude Agent SDK.
FAQ
Q. Migrer d'Opus 4.7 à 4.8 est-il difficile ?
A. Cela ne demande presque rien. Changez simplement l'ID du modèle API en claude-opus-4-8 ; la tarification standard et la fenêtre de contexte (1M tokens) sont maintenues. Le effort=HIGH par défaut utilise environ le même nombre de tokens que le défaut de 4.7, seule la performance augmentant, donc vous en profitez sans changement de configuration. Surveillez simplement la baisse de robustesse à l'injection (ci-dessous) pour les agents qui traitent des entrées externes.
Q. Que signifie un mode rapide « 3x moins cher » ?
A. Cela signifie que le prix du mode rapide ($10 en entrée / $50 en sortie par 1M tokens) est concrètement le tiers de celui du mode rapide du modèle précédent. La vitesse est d'environ 2,5x le standard. Le dilemme « je veux de la vitesse mais le mode rapide est cher » est grandement atténué, ce qui le rend plus facile à utiliser pour les interfaces de chat et le traitement par lot en masse.
Q. N'importe qui peut-il utiliser les workflows dynamiques ?
A. C'est en aperçu de recherche, utilisable depuis Claude Code (CLI, Desktop, extension VS Code). La disponibilité concerne les plans Max, Team et Enterprise (activé par l'administrateur) et via l'API, Bedrock, Vertex et Foundry. Par sécurité, le premier déclenchement requiert une confirmation explicite. Le comportement peut changer, il est donc plus sûr de l'essayer d'abord sur un travail non critique.
Q. 4.8 est-il meilleur que 4.7 à tous égards ?
A. Non. GPQA Diamond a légèrement reculé (94.2% → 93.6%), les tâches multilingues restent derrière Gemini 3.1 Pro / GPT-5.5, et la robustesse face à l'injection de prompt s'est en réalité dégradée (succès des attaques 6.0% → 9.6%). Il est clairement en tête sur le code, les maths, le contexte long et l'honnêteté, mais pour certains usages, 4.7 ou d'autres modèles peuvent mieux convenir.
Q. Quel est le bénéfice concret d'une « honnêteté » accrue ?
A. Quand on exécute des agents IA de façon autonome, le plus grand risque est « rapporter à tort un échec comme un succès et empiler du travail par-dessus ». Parce que 4.8 a abaissé à 0% le rapport sans esprit critique de résultats erronés et réduit la surconfiance de plus de 10x, il cesse de « faire semblant que ça marche » et dit qu'il est incertain quand il l'est. Pour l'automatisation au long cours, la CI et la revue de code, la fiabilité s'améliore à un niveau pratique.