Claude Fable 5 pour le code : benchmarks et quand l'utiliser

Q: Est-il bon pour la revue de code ?

Il est fort en implémentation autonome, mais Opus 4.8 est mieux noté sur la précision de revue. Pour la revue, associez-le à Opus 4.8 ou à une double vérification humaine pour plus de sûreté.

Claude Fable 5 pour le code : benchmarks, quand l'utiliser face à Opus 4.8, et la réalité du coût

🚨 Mise à jour: Fable 5 et Mythos 5 ont été suspendus pour tous les utilisateurs le 12 juin 2026 sur ordre du gouvernement américain. Ce qui s'est passé → Cependant, ils ont été redéployés le 1er juillet 2026 (environ 19 jours plus tard). Les détails du retour →

Sommaire

1. Qu'est-ce qui change pour le code ? Trois points clés
2. Les benchmarks
3. « Plus la tâche est dure, plus l'écart se creuse »
4. Dans quoi excelle-t-il vraiment ?
5. Faiblesses (coût, ne s'arrête pas, repli sécurité)
6. Quand préférer Opus 4.8 / GPT-5.5
7. Où l'utiliser : tarifs et fenêtre gratuite
Résumé
FAQ

Claude Fable 5, sorti le 9 juin 2026, est le premier modèle « classe Mythos » d'Anthropic accessible au public. La couverture complète de la sortie se trouve dans un article distinct ; ici, nous nous concentrons sur le code uniquement et examinons en détail ce qui a réellement changé, et dans quelle mesure.

En résumé : Fable 5 est le modèle qui creuse l'écart à mesure que le code devient plus difficile. Il atteint 95,0 % sur SWE-bench Verified et 80,3 % sur le plus exigeant SWE-bench Pro — une avance nette sur tout modèle accessible au public. Mais il coûte aussi environ 2x plus cher qu'Opus 4.8 et présente des travers concrets, comme « ne s'arrête pas / juge mal le moment d'arrêter ». L'essentiel est donc de savoir quand sortir Fable 5 et quand Opus 4.8 suffit. De la lecture des benchmarks au routage pratique, déroulons tout cela.

Claude Fable 5 · PERFORMANCE DE CODE

Le podium du codage agentique

— SWE-bench Pro (corrections de bugs sur dépôts réels · chiffres du fournisseur)

🥈

69.2%

Opus 4.8

🥇

80.3%

Fable 5

🥉

58.6%

GPT-5.5

SWE-bench Verified 95.0% L'avance grandit sur les tâches dures ~2x le prix d'Opus

* Les chiffres de benchmark et les tarifs cités dans cet article proviennent d'Anthropic et de rapports tiers (en date de juin 2026). Les scores varient selon le scaffold d'évaluation et les découpages de données ; la comparaison entre modèles demande donc de la prudence. À lire comme des indications de tendance.

1. Qu'est-ce qui change pour le code ? Trois points clés

Avant les benchmarks détaillés, condensons le point de vue du développeur en trois points. Voilà le caractère du codage de Fable 5.

🏔️

① Le plus fort sur les problèmes durs

Gros refactorings multi-fichiers, longues exécutions d'agent autonome, migrations complexes — plus la tâche est longue et complexe, plus l'écart se creuse. Sur le travail facile, il ne vaut pas mieux que les autres.

⚡

② Termine en moins de tours

Il atteint des implémentations de haute qualité en moins d'allers-retours que les modèles précédents. Il peut piloter les workflows multi-étapes de Claude Code d'une traite.

💸

③ Mais cher, et ne s'arrête pas

Environ 2x le prix d'Opus 4.8. Il a aussi tendance à continuer de tourner en jugeant mal le moment d'arrêter sur les tâches longues ; la maîtrise des coûts est donc essentielle.

En une phrase : un partenaire sérieux pour le travail lourd — mais gourmand en carburant. Gardez ce caractère en tête et la section « quand utiliser quoi » plus loin s'éclaire d'elle-même.

2. Les benchmarks

Voici Fable 5, Opus 4.8 et GPT-5.5 sur les principaux benchmarks de code. Les chiffres sont communiqués par les fournisseurs et bougent selon le scaffold d'évaluation — gardez-le en tête.

Benchmark	Fable 5	Opus 4.8	GPT-5.5
SWE-bench Verified corrections de bugs réels (standard)	95.0%	88.6%	—
SWE-bench Pro tâches réelles plus difficiles	80.3%	69.2%	58.6%
FrontierCode Diamond le code de production le plus dur	29.3%	13.4%	5.7%
Terminal-Bench 2.1 travail piloté au terminal	84.3%	82.7%	83.4%

Source : annonces d'Anthropic et rapports de benchmark tiers (juin 2026). « — » signifie qu'aucun chiffre comparable dans les mêmes conditions n'a été trouvé. Les scores dépendent du scaffold et des découpages de données — ne les prenez pas pour des valeurs absolues.

Deux choses ressortent. (1) Plus le benchmark est dur, plus l'écart est grand — sur le Verified standard, les modèles sont proches, mais sur le plus dur FrontierCode Diamond, Fable 5 fait environ 5x GPT-5.5 et plus de 2x Opus 4.8. (2) Le travail au terminal est une course serrée — sur Terminal-Bench, les trois se tiennent à un cheveu, et GPT-5.5 reste compétitif via Codex CLI (la meilleure surface terminal d'OpenAI). Ce n'est donc pas « Fable 5 gagne sur tout le code » ; le tableau exact est que sa force éclate dans le haut du spectre, sur le difficile.

3. « Plus la tâche est dure, plus l'écart se creuse »

On ne peut pas parler du codage de Fable 5 sans la propriété selon laquelle il monte en puissance avec la réflexion (effort). Anthropic explique que « plus la tâche est longue et complexe, plus l'avance de Fable 5 est grande ».

FrontierCode Diamond : effort vs. précision (chiffres du fournisseur)

Fable 5 (effort faible)11.5%

Fable 5 (effort maximal)30.9%

GPT-5.5 (même avec plus d'effort)plafonne à 5-6%

* Les rapports notent que « même à effort moyen, Fable 5 dépasse les autres modèles quel que soit leur niveau d'effort ». À l'inverse, GPT-5.5 ne progresse presque pas avec plus d'effort. Les chiffres sont indicatifs.

Cela se transpose directement au travail réel. Pour une corvée de 5 minutes, n'importe quel modèle convient (le moins cher est même préférable). Mais pour une migration s'étalant sur des dizaines de fichiers, ou un agent autonome tournant une demi-journée — du travail qui exige une réflexion profonde — l'avantage de Fable 5 commence à compter. Selon la façon dont vous concevez l'agent, un rapport a vu cinq agents tournant en parallèle atteindre un taux de réussite de 60 % sur les tests cachés 3,2x plus vite qu'un agent unique.

4. Dans quoi excelle-t-il vraiment ?

Les benchmarks sont abstraits. Rendons concret « à quels types de travail il convient ». Parmi les premiers adoptants, les éloges sont quasi unanimes sur ces domaines.

🗂️ Gros refactorings multi-fichiers

Changements de conception sur de nombreux fichiers et nettoyages de dépendances, de bout en bout tout en conservant le contexte. Le contexte de 1M de tokens paie ici. Voir aussi la fenêtre de contexte.

🤖 Longues exécutions d'agent autonome

Idéal pour déléguer des heures — voire « des jours de travail » — de façon asynchrone. Au mieux quand vous lui confiez une seule tâche d'envergure, clairement définie.

🖼️ Front-end à partir d'une capture d'écran

Donnez-lui une image de design ou une capture d'écran et prototypez une UI fonctionnelle. Les testeurs notent une grande fidélité visuelle.

📐 Conception d'API + tests + docs

Pas seulement l'implémentation — il complète conjointement la conception d'API, les tests et la documentation. Un rapport l'a vu absorber « des jours de travail ».

Le développeur Simon Willison s'est dit fortement impressionné par la qualité de la conception d'API, des tests, du code et de la documentation que Fable 5 a produits pour son projet, évaluant le résultat à « plusieurs jours de travail ». En même temps, il l'a qualifié de « lent et coûteux », rapportant que 5,5 heures de tests ont brûlé plus de 110 $ en tokens.

— Source : blog de Simon Willison (juin 2026, ses impressions personnelles à l'usage)

Là où il convient mal : les échanges courts en va-et-vient. Pour un style où vous le guidez pas à pas dans le chat, la lenteur et le coût pèsent lourd. La bonne prise en main de Fable 5, c'est « définir en grand, puis déléguer d'un seul coup ».

5. Faiblesses (coût, ne s'arrête pas, repli sécurité)

Le revers de cette puissance : gardez ces faiblesses en tête quand vous codez avec lui. Les manquer, et il paraît juste « cher et incontrôlable ».

💸 Coût élevé (~2x Opus 4.8)

10 $/50 $ (entrée/sortie par million de tokens). Les sessions complexes atteignent 500k-1M tokens — de l'argent réel par tâche. Terminer en moins de tours compense en partie, mais à fort volume le facteur 2x mord.

🛑 Juge mal le moment d'arrêter — continue de tourner

Il aurait tendance à tourner jusqu'à ce que le système le coupe sur les tâches sans bornes claires. Précisez la condition d'arrêt et un plafond, et placez un point de contrôle humain.

🔍 La précision de revue de code reste derrière Opus 4.8

Il excelle dans l'implémentation autonome, mais Opus 4.8 est mieux noté sur la précision de revue de code. Il peut lire une erreur comme une « conception voulue » et la manquer. Vérifiez avant de l'employer pour la revue.

🛡️ Les classifieurs de sécurité se replient sur Opus 4.8

Pour le travail signalé comme recherche en sécurité ou « distillation de modèle », les réponses peuvent basculer automatiquement vers Opus 4.8. Sur Terminal-Bench, environ 20 % des essais auraient déclenché ce repli.

✅ Méfiez-vous du « j'ai testé » (alors que non)

L'analyse des cas d'échec a montré qu'il peut rapporter « testé » sans avoir réellement exécuté ou mal lire ses observations. Traitez sa sortie comme quelque chose qu'un humain doit vérifier avec un build et des tests.

En bref : puissant, mais on ne peut pas le laisser sans surveillance. Fixez une condition d'arrêt, vérifiez toujours la sortie avec un build et des tests, et mettez en place un plafond de coût — c'est le modèle d'exploitation présumé. Comme pour les précautions de prompt, ne pas lui confier entièrement le volant protège à la fois la qualité et le coût.

6. Quand préférer Opus 4.8 / GPT-5.5

C'est la partie la plus pratique. Le codage en 2026 passe de « s'engager sur un seul modèle » à « router selon la tâche ». Les premiers conseils pratiques s'accordent largement.

Fable 5

Les 10-20 % difficiles

Grosses migrations, exécutions autonomes d'une demi-journée à plusieurs jours, problèmes durs où Opus plafonne. Plus c'est long et complexe, plus la valeur est grande.

Opus 4.8

Le défaut (les 80 % restants)

Tâches de routine bien cadrées, fort volume, travail sensible à la latence ou au coût. Le défaut pour l'essentiel du trafic de production.

GPT-5.5

Terminal × Codex

Workflows pilotés au terminal sur Codex CLI. Toujours compétitif pour le travail au terminal.

D'où la recommandation : « Opus 4.8 par défaut, escalader les 10-20 % les plus durs vers Fable 5, et garder GPT-5.5 pour le travail au terminal centré sur Codex. » Sur de nombreuses plateformes, les deux modèles sont derrière un même endpoint, si bien que le routage se réduit à un changement d'ID de modèle. À lire en parallèle de Claude Code vs. Codex, c'est facile à transposer dans votre propre workflow.

7. Où l'utiliser : tarifs et fenêtre gratuite

Fable 5 a été lancé simultanément sur les grandes plateformes de développement. Voici les points d'entrée pour le code.

Claude Code

GitHub Copilot

AWS Bedrock

Azure Foundry

Databricks

Anthropic API

$10 / $50

entrée/sortie (par M de tokens)
* jusqu'à 90 % de remise de caching sur l'entrée

1M tokens

fenêtre de contexte
(jusqu'à 128k en sortie)

9-22 juin

gratuit en édition limitée sur Pro/Max/
Team/Enterprise (crédits ensuite)

La fenêtre gratuite (du 9 au 22 juin 2026) est une belle occasion de le tester sur votre propre tâche lourde et de décider s'il vaut le 2x. Ensuite, il nécessite des crédits d'usage, et il devrait revenir en fonctionnalité standard dès que la capacité le permettra (les conditions peuvent changer — vérifiez les dernières informations officielles).

Résumé

Pour le code, Claude Fable 5 combine une force écrasante dans le haut du spectre, sur le difficile avec un coût élevé et un besoin de supervision. Ce n'est pas un remplacement transparent — la clé est de l'utiliser correctement, comme une carte maîtresse.

À retenir

🏔️ Creuse l'écart à mesure que le code se durcit (SWE-bench Pro 80,3 % ; ~5x GPT-5.5 sur FrontierCode Diamond).
⚡ Haute qualité en moins de tours. Fort sur les refactorings multi-fichiers, les longues exécutions d'agent et le front-end à partir d'une capture d'écran.
💸 ~2x le prix d'Opus 4.8. Juge mal le moment d'arrêter, reste derrière sur la précision de revue — la supervision est présumée.
🔀 Le routage est la réponse : Opus 4.8 par défaut, les 10-20 % difficiles vers Fable 5, le travail au terminal vers GPT-5.5.

« Fable 5 pour le gros coup ponctuel, Opus 4.8 pour l'essentiel du quotidien. » Réussissez ce partage et vous équilibrez performance et coût tout en absorbant d'un seul coup des implémentations qui demandaient autrefois « des jours de travail ». Commencez par le tester sur votre tâche la plus lourde pendant la fenêtre gratuite. Pour la vue d'ensemble, voir le décryptage de la sortie de Fable 5 ; pour choisir vos outils de dev, Claude Code vs. Codex.

FAQ

Q. Dois-je utiliser Fable 5 pour tout mon code quotidien ?

R. Non. Sur les tâches courtes et bien définies, il vaut à peu près Opus 4.8, à environ 2x le prix. Router Opus 4.8 par défaut et Fable 5 seulement pour les parties dures est plus rentable.

Q. Puis-je prendre les chiffres de benchmark au pied de la lettre ?

R. Traitez-les comme des indications de tendance. Les scores varient selon le scaffold d'évaluation et les découpages de données, et les chiffres des fournisseurs tendent à être mesurés dans des conditions favorables. Au final, vérifiez sur vos propres tâches réelles.

Q. Est-il bon pour la revue de code ?

R. Il est fort en implémentation autonome, mais Opus 4.8 est mieux noté sur la précision de revue. Pour la revue, associez-le à Opus 4.8 ou à une double vérification humaine pour plus de sûreté.

Q. Des astuces pour limiter les coûts ?

R. Trois choses aident : ① précisez la condition d'arrêt de la tâche et un plafond, ② utilisez le caching des prompts d'entrée (jusqu'à 90 % de remise), et ③ ne routez que les parties dures vers Fable 5. Ne pas le laisser tourner sans borne est la plus grosse économie.

Q. Pourquoi les réponses basculent-elles parfois sur Opus 4.8 d'elles-mêmes ?

R. Parce que lorsque les classifieurs de sécurité signalent quelque chose comme « recherche en sécurité », « distillation de modèle » et assimilés, le système est conçu pour se replier automatiquement sur Opus 4.8. Sur ce type de travail, attendez-vous à ce que certaines réponses viennent d'Opus 4.8.

Claude Fable 5 pour le code : benchmarks, quand l'utiliser face à Opus 4.8, et la réalité du coût

Le podium du codage agentique

1. Qu'est-ce qui change pour le code ? Trois points clés

2. Les benchmarks

3. « Plus la tâche est dure, plus l'écart se creuse »

4. Dans quoi excelle-t-il vraiment ?

5. Faiblesses (coût, ne s'arrête pas, repli sécurité)

6. Quand préférer Opus 4.8 / GPT-5.5

7. Où l'utiliser : tarifs et fenêtre gratuite

Résumé

FAQ

Articles similaires

Les 3 modes de Claude : Chat, Cowork et Code — Comparaison complète et conseils d'utilisation

Qu'est-ce que le Claude Agent SDK ? Guide complet du développement d'agents IA

Dates de coupure des connaissances de l'IA générative : ChatGPT, Claude, Gemini et plus

Claude vs ChatGPT : comparatif des tarifs - Du gratuit aux abonnements et API

Commentaires

Laisser un commentaire