विषय-सूची
9 जून 2026 को जारी हुआ Claude Fable 5, Anthropic का पहला सार्वजनिक रूप से उपलब्ध "Mythos-class" model है। पूरी रिलीज़ की विस्तृत जानकारी एक अलग लेख में है; यहां हम सिर्फ coding पर ध्यान देते हैं और गहराई से देखते हैं कि असल में क्या बदला, और कितना।
संक्षेप में: Fable 5 वह model है जो coding जितनी कठिन होती जाए, उतना ही आगे निकलता जाता है। यह SWE-bench Verified पर 95.0% और ज़्यादा कठिन SWE-bench Pro पर 80.3% देता है — किसी भी सार्वजनिक रूप से उपलब्ध model से साफ़ एक कदम आगे। लेकिन इसकी कीमत भी Opus 4.8 से लगभग 2 गुना ज़्यादा है, और इसमें असल दुनिया की कुछ आदतें भी हैं जैसे "रुकता नहीं / कब रुकना है यह गलत आंकता है"। इसलिए जो वाकई मायने रखता है वह है यह जानना कि Fable 5 कब चुनें और कब Opus 4.8 ही काफ़ी है। benchmark पढ़ने से लेकर व्यावहारिक routing तक, चलिए सिलसिलेवार देखें।
agentic-coding का विजेता मंच
— SWE-bench Pro (असली repo की bug fix · vendor द्वारा रिपोर्ट)
* इस लेख के benchmark आंकड़े और कीमतें Anthropic तथा तीसरे पक्ष की रिपोर्टों से उद्धृत हैं (जून 2026 तक)। score, evaluation scaffold और data split के साथ बदलते हैं, इसलिए model-दर-model तुलना में सावधानी ज़रूरी है। इन्हें दिशासूचक के रूप में पढ़ें।
1. coding के लिए क्या बदला? तीन मुख्य बातें
विस्तृत benchmark में जाने से पहले, डेवलपर के नज़रिए को तीन बिंदुओं में समेट लेते हैं। यही Fable 5 की coding का स्वभाव है।
① कठिन समस्याओं पर सबसे मज़बूत
बड़े multi-file refactor, लंबे autonomous agent run, जटिल migration — काम जितना लंबा और जटिल, अंतर उतना बड़ा। आसान कामों में यह बाकियों से बेहतर नहीं।
② कम turn में काम पूरा करता है
पिछले models के मुकाबले कम round-trip में उच्च-गुणवत्ता वाले implementation तक पहुंचता है। यह Claude Code के multi-step workflow को एक ही बार में चला सकता है।
③ लेकिन महंगा, और रुकता नहीं
कीमत Opus 4.8 से लगभग 2 गुना। लंबे कामों में यह कब रुकना है यह गलत आंककर चलता रहता है, इसलिए लागत नियंत्रण ज़रूरी है।
एक पंक्ति में: भारी काम के लिए एक गंभीर साथी — पर ईंधन का बड़ा प्यासा। यह स्वभाव ध्यान में रखें तो आगे का "कब क्या इस्तेमाल करें" वाला हिस्सा अपने-आप समझ आ जाता है।
2. benchmark के आंकड़े
यहां मुख्य coding benchmark पर Fable 5, Opus 4.8, और GPT-5.5 हैं। आंकड़े vendor द्वारा रिपोर्ट किए गए हैं और evaluation scaffold के साथ बदलते हैं — यह ध्यान में रखें।
| Benchmark | Fable 5 | Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified असली bug fix (मानक) |
95.0% | 88.6% | — |
| SWE-bench Pro ज़्यादा कठिन वास्तविक काम |
80.3% | 69.2% | 58.6% |
| FrontierCode Diamond सबसे कठिन production coding |
29.3% | 13.4% | 5.7% |
| Terminal-Bench 2.1 terminal-संचालित काम |
84.3% | 82.7% | 83.4% |
स्रोत: Anthropic की घोषणाएं और तीसरे पक्ष की benchmark रिपोर्ट (जून 2026)। "—" का मतलब है कि समान शर्तों के तहत तुलनीय आंकड़ा नहीं मिला। score, scaffold और data split पर निर्भर करते हैं — इन्हें निरपेक्ष न मानें।
दो बातें उभरकर आती हैं। (1) benchmark जितना कठिन, अंतर उतना बड़ा — मानक Verified पर models पास-पास हैं, पर सबसे कठिन FrontierCode Diamond पर Fable 5 लगभग GPT-5.5 से 5 गुना और Opus 4.8 से 2 गुना से ज़्यादा है। (2) terminal का काम कांटे की टक्कर है — Terminal-Bench पर तीनों बाल-बराबर हैं, और GPT-5.5, Codex CLI (OpenAI का सबसे मज़बूत terminal surface) के ज़रिए प्रतिस्पर्धी बना रहता है। तो बात यह नहीं कि "Fable 5 हर coding में जीतता है"; सटीक तस्वीर यह है कि इसकी ताकत कठिन छोर पर चमकती है।
3. "काम जितना मुश्किल, बढ़त उतनी बड़ी"
Fable 5 की coding की बात उस गुण के बिना नहीं हो सकती कि यह सोचने (effort) के साथ बढ़ता है। Anthropic समझाता है कि "काम जितना लंबा और जटिल, Fable 5 की बढ़त उतनी बड़ी।"
FrontierCode Diamond: effort बनाम सटीकता (vendor द्वारा रिपोर्ट)
* रिपोर्टों में बताया गया है कि "medium effort पर भी Fable 5, बाकी models को किसी भी effort स्तर पर मात देता है।" इसके उलट, GPT-5.5 ज़्यादा effort देने पर भी मुश्किल से सुधरता है। आंकड़े दिशासूचक हैं।
यह सीधे असल काम से जुड़ता है। एक 5-मिनट के छोटे काम के लिए, कोई भी model ठीक है (असल में सस्ता ही बेहतर)। पर दर्जनों फ़ाइलों में फैले migration, या आधे दिन तक चलने वाले autonomous agent के लिए — ऐसा काम जिसमें गहरे सोच की ज़रूरत है — Fable 5 की बढ़त मायने रखने लगती है। आप agent को कैसे डिज़ाइन करते हैं इस पर निर्भर करते हुए, एक रिपोर्ट में पांच agents को समानांतर चलाने पर एकल agent से 3.2x तेज़ी से 60% hidden-test pass rate तक पहुंचे।
4. यह असल में किसमें अच्छा है?
benchmark अमूर्त होते हैं। आइए "यह किस तरह के काम के लिए ठीक है" को ठोस बनाएं। शुरुआती उपयोगकर्ताओं के बीच, इन क्षेत्रों पर तारीफ़ लगभग एकमत है।
🗂️ बड़े multi-file refactor
कई फ़ाइलों में फैले डिज़ाइन बदलाव और dependency की सफ़ाई, context बनाए रखते हुए आद्योपांत। 1M-token वाला context यहां काम आता है।
🤖 लंबे autonomous agent run
घंटों — या "कई दिनों जितने" — काम को asynchronous रूप से सौंपने के लिए बढ़िया। सबसे अच्छा तब जब आप इसे एक स्पष्ट रूप से परिभाषित, बड़ा काम दें।
🖼️ screenshot से front-end
एक डिज़ाइन छवि या screenshot दें और चलता-फिरता UI prototype करें। समीक्षक इसकी ऊंची दृश्य-समानता की बात करते हैं।
📐 API डिज़ाइन + tests + docs
सिर्फ़ implementation ही नहीं — यह API डिज़ाइन, tests और documentation को एक साथ पूरा करता है। एक रिपोर्ट में इसने "कई दिनों जितना" काम समेट लिया।
डेवलपर Simon Willison ने कहा कि वे Fable 5 द्वारा उनके project के लिए तैयार किए गए API डिज़ाइन, tests, code और documentation की गुणवत्ता से बहुत प्रभावित हुए, और इसके output को "कई दिनों जितने" काम के बराबर आंका। साथ ही उन्होंने इसे "धीमा और महंगा" भी कहा, और बताया कि 5.5 घंटे की testing में $110 से ज़्यादा के token खर्च हो गए।
— स्रोत: Simon Willison का ब्लॉग (जून 2026, उनके निजी व्यावहारिक अनुभव)
जहां यह ठीक नहीं बैठता: छोटे आगे-पीछे वाले संवाद। जिस शैली में आप chat में कदम-दर-कदम इसे आगे बढ़ाते हैं, वहां इसकी सुस्ती और लागत भारी पड़ती है। Fable 5 को सही ढंग से पकड़ने का तरीका है: "बड़ा परिभाषित करो, फिर एक ही बार में सौंप दो।"
5. कमज़ोरियां (लागत, रुकता नहीं, safety fallback)
उस ताकत का दूसरा पहलू: इसके साथ coding करते समय इन कमज़ोरियों को ध्यान में रखें। इन्हें भूल गए तो यह बस "महंगा और बेकाबू" लगने लगता है।
💸 भारी लागत (~2x Opus 4.8)
$10/$50 (प्रति मिलियन token input/output)। जटिल session 500k-1M token तक पहुंच जाते हैं — हर काम पर असली पैसा। कम turn में काम पूरा होना इसका कुछ हिस्सा भरपाई करता है, पर ज़्यादा मात्रा में यह 2 गुना अंतर चुभता है।
🛑 कब रुकना है यह गलत आंकता है — चलता रहता है
बिना स्पष्ट सीमा वाले कामों में यह तब तक चलता रहता है जब तक system इसे रोक न दे, ऐसी रिपोर्टें हैं। रुकने की शर्त और एक सीमा साफ़ तय करें, और एक मानवीय gate रखें।
🔍 code-review की सटीकता Opus 4.8 से पीछे
यह autonomous implementation में उत्कृष्ट है, पर code-review की सटीकता में Opus 4.8 को ऊंचा आंका जाता है। यह किसी गलती को "इरादतन डिज़ाइन" समझकर छोड़ सकता है। review के लिए इस्तेमाल से पहले जांच लें।
🛡️ safety classifier, Opus 4.8 पर fallback कर देते हैं
जिन कामों को security research या "model distillation" के रूप में चिह्नित किया जाता है, उनमें responses अपने-आप Opus 4.8 पर स्विच हो सकती हैं। Terminal-Bench पर लगभग 20% trials में यह fallback होने की रिपोर्ट है।
✅ "मैंने test किया" से सावधान (जब किया नहीं)
विफलता-विश्लेषण में पाया गया कि यह बिना असल में चलाए "tested" बता सकता है या अवलोकनों को गलत पढ़ सकता है। इसके output को कुछ ऐसा मानें जिसे इंसान को build और tests से जांचना ज़रूरी है।
संक्षेप में: शक्तिशाली, पर बिना निगरानी के नहीं छोड़ा जा सकता। एक रुकने की शर्त तय करें, output को हमेशा build और tests से जांचें, और एक लागत सीमा लगाएं — यही मान्य संचालन-मॉडल है। जैसे prompting सावधानियों में, पूरी कमान न सौंपना गुणवत्ता और लागत दोनों की रक्षा करता है।
6. कब इसके बजाय Opus 4.8 / GPT-5.5 चुनें
यह सबसे व्यावहारिक हिस्सा है। 2026 की coding "एक ही model से जुड़े रहने" से हटकर "काम के अनुसार route करने" की ओर बढ़ रही है। शुरुआती व्यावहारिक मार्गदर्शन काफ़ी हद तक सहमत है।
कठिन 10-20%
बड़े migration, आधे दिन से कई दिनों के autonomous run, ऐसी कठिन समस्याएं जहां Opus ठहर जाता है। जितना लंबा और जटिल, उतना ही मूल्य।
डिफ़ॉल्ट (बाकी 80%)
अच्छी तरह परिभाषित नियमित काम, ज़्यादा मात्रा, latency- या लागत-संवेदनशील काम। अधिकांश production traffic के लिए डिफ़ॉल्ट।
Terminal × Codex
Codex CLI पर terminal-संचालित workflows। terminal के काम के लिए अब भी प्रतिस्पर्धी।
तो सिफ़ारिश: "डिफ़ॉल्ट रूप से Opus 4.8, सबसे कठिन 10-20% को Fable 5 पर escalate करें, और Codex-केंद्रित terminal काम के लिए GPT-5.5 रखें।" कई platforms पर दोनों models एक ही endpoint के पीछे बैठते हैं, इसलिए routing सिर्फ़ एक model-ID बदलने भर है। इसे Claude Code बनाम Codex के साथ पढ़ने से इसे अपने workflow पर लागू करना आसान हो जाता है।
7. कहां इस्तेमाल करें: कीमत और मुफ़्त अवधि
Fable 5 एक साथ सभी प्रमुख developer platforms पर उतरा। coding के लिए यहां इसके प्रवेश-बिंदु हैं।
input/output (प्रति M token)
* input पर 90% तक caching छूट
context window
(128k तक output)
Pro/Max/Team/Enterprise पर
सीमित-समय मुफ़्त (उसके बाद credit)
मुफ़्त अवधि (9-22 जून 2026) अपने भारी काम पर इसे आज़माने और यह तय करने का बढ़िया मौका है कि यह 2 गुना कीमत के लायक है या नहीं। उसके बाद इसके लिए usage credit चाहिए, और क्षमता अनुमति देने पर इसके मानक feature के रूप में लौटने की उम्मीद है (शर्तें बदल सकती हैं — नवीनतम आधिकारिक जानकारी देखें)।
सारांश
coding के लिए, Claude Fable 5 में कठिन छोर पर भारी ताकत और ऊंची लागत तथा निगरानी की ज़रूरत साथ-साथ हैं। यह कोई सीधा प्रतिस्थापन नहीं है — कुंजी यह है कि इसे एक तुरुप के पत्ते की तरह, सही ढंग से इस्तेमाल करें।
मुख्य बातें
- 🏔️ coding जितनी कठिन, उतना आगे निकलता है (SWE-bench Pro 80.3%; FrontierCode Diamond पर GPT-5.5 से ~5 गुना)।
- ⚡ कम turn में उच्च गुणवत्ता। multi-file refactor, लंबे agent run और screenshot से front-end में मज़बूत।
- 💸 Opus 4.8 से ~2 गुना कीमत। कब रुकना है यह गलत आंकता है, review सटीकता में पीछे — निगरानी अनिवार्य मानी जाती है।
- 🔀 routing ही जवाब है: डिफ़ॉल्ट रूप से Opus 4.8, कठिन 10-20% Fable 5 को, terminal काम GPT-5.5 को।
"भारी एकमुश्त काम के लिए Fable 5, रोज़मर्रा के अधिकांश के लिए Opus 4.8।" यह विभाजन पकड़ लें तो आप प्रदर्शन और लागत में संतुलन बनाते हुए ऐसे implementation को एक ही बार में समेट लेते हैं जो कभी "कई दिनों का काम" थे। शुरुआत मुफ़्त अवधि में अपने सबसे भारी काम पर इसे आज़माकर करें। बड़ी तस्वीर के लिए Fable 5 रिलीज़ की गहन पड़ताल देखें; dev tools चुनने के लिए, Claude Code बनाम Codex।
FAQ
Q. क्या मुझे अपनी रोज़ की पूरी coding के लिए Fable 5 इस्तेमाल करना चाहिए?
A. नहीं। छोटे, अच्छी तरह परिभाषित कामों में यह Opus 4.8 जैसा ही है, पर कीमत लगभग 2 गुना। डिफ़ॉल्ट रूप से Opus 4.8 और सिर्फ़ कठिन हिस्सों के लिए Fable 5 route करना ज़्यादा किफ़ायती है।
Q. क्या benchmark के आंकड़ों को आंखें मूंदकर मान लूं?
A. इन्हें दिशासूचक मानें। score, evaluation scaffold और data split के साथ बदलते हैं, और vendor के आंकड़े अक्सर अनुकूल परिस्थितियों में मापे जाते हैं। आख़िरकार, अपने असली कामों पर इसे जांचें।
Q. क्या यह code review के लिए अच्छा है?
A. यह autonomous implementation में मज़बूत है, पर review सटीकता में Opus 4.8 को ऊंचा आंका जाता है। review के लिए, सुरक्षित रहने हेतु इसे Opus 4.8 या किसी इंसानी दोहरी-जांच के साथ जोड़ें।
Q. लागत कम रखने के लिए कोई सुझाव?
A. तीन चीज़ें मदद करती हैं: ① काम की रुकने की शर्त और सीमा साफ़ तय करें, ② input prompt caching (90% तक छूट) का उपयोग करें, और ③ सिर्फ़ कठिन हिस्सों को Fable 5 पर route करें। इसे बिना सीमा के चलने न देना सबसे बड़ी बचत है।
Q. responses कभी-कभी अपने-आप Opus 4.8 पर क्यों बदल जाती हैं?
A. क्योंकि जब safety classifier किसी चीज़ को "security research," "model distillation" आदि के रूप में चिह्नित करते हैं, तो इसे अपने-आप Opus 4.8 पर fallback करने के लिए डिज़ाइन किया गया है। ऐसे कामों में, उम्मीद रखें कि कुछ responses Opus 4.8 से आएंगी।