目次
2026年6月9日に登場したClaude Fable 5は、Anthropic初の「Mythosクラス」一般公開モデルだ。リリース全体の解説は別記事に譲り、本記事は「コーディング」だけに絞って、何がどこまで変わったのかを掘り下げる。
結論から言えば、Fable 5は「難しいコーディングほど他を引き離す」モデルだ。SWE-bench Verifiedで95.0%、より過酷なSWE-bench Proで80.3%と、公開モデルとして頭一つ抜けた数字を出す。一方で料金はOpus 4.8の約2倍、しかも「止まらない・止め時を誤る」といった実務上のクセもある。だから本当に大事なのは「いつFable 5を使い、いつOpus 4.8で十分か」の見極め。ベンチの読み方から実際の使い分けまで、順に見ていこう。
エージェント型コーディングの表彰台
— SWE-bench Pro(実リポジトリのバグ修正・ベンダー公表値)
※本記事のベンチマーク値・料金はAnthropicおよび各社の公表資料・報道の引用(2026年6月時点)。スコアは評価の足場(scaffold)やデータ分割で変動し、横並び比較には注意が要る。傾向の参考として読んでほしい。
1. コーディングで何が変わった?要点3つ
細かいベンチに入る前に、開発者目線での要点を3つに整理する。これがFable 5のコーディングの性格だ。
① 難問ほど強い
マルチファイルの大改修、長時間の自律エージェント、複雑な移行——タスクが長く複雑なほど差が開く。簡単な作業では他モデルと大差ない。
③ ただし高い・止まらない
料金はOpus 4.8の約2倍。長いタスクを止め時を誤って走り続けるクセもあり、コスト管理が要る。
一言でまとめると「重い仕事を任せる本気の相棒。ただし燃費は悪い」。この性格を押さえると、後半の「使い分け」がすっと入ってくる。
2. ベンチマークで見る実力
コーディング系の主要ベンチで、Fable 5・Opus 4.8・GPT-5.5を並べる。数値はベンダー公表値で、評価の足場により上下する点は前提として読んでほしい。
| ベンチマーク | Fable 5 | Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified 実バグ修正(標準) |
95.0% | 88.6% | — |
| SWE-bench Pro より難しい実務課題 |
80.3% | 69.2% | 58.6% |
| FrontierCode Diamond 最難関の実戦コーディング |
29.3% | 13.4% | 5.7% |
| Terminal-Bench 2.1 端末駆動の作業 |
84.3% | 82.7% | 83.4% |
出典:Anthropic発表・各社ベンチ報告の引用(2026年6月)。「—」は同条件の公表値が見当たらないもの。スコアは足場・データ分割依存で、絶対視は禁物。
読み取れることは2つ。(1) 難しいベンチほど差が大きい——標準のVerifiedでは各モデル僅差だが、最難関のFrontierCode DiamondではFable 5がGPT-5.5の約5倍、Opus 4.8の2倍超。(2) ターミナル作業は接戦——Terminal-Benchでは3者が僅差で、GPT-5.5はCodex CLI(OpenAIの最も強い端末環境)経由で健闘している。つまり「Fable 5が全コーディングで圧勝」ではなく、“難所での強さ”が際立つのが正確な姿だ。
3. 「難しい仕事ほど差が開く」
Fable 5のコーディングを語るうえで外せないのが 「考える時間(effort)に比例して伸びる」性質だ。Anthropicは「タスクが長く複雑になるほど、Fable 5のリードは大きくなる」と説明している。
FrontierCode Diamond:考える努力量と正解率(ベンダー公表値)
※「中 effort のFable 5が、他モデルの最大 effort を上回る」との報告も。GPT-5.5は努力量を増やしても伸びにくいのが対照的。数値は傾向の参考。
これは実務に直結する。5分で終わる雑用なら、どのモデルでも大差ない(むしろ安いほうが得)。だが数十ファイルにまたがる移行や、半日走らせる自律エージェントのような「考え抜く」仕事では、Fable 5の差が効いてくる。エージェントの設計次第で、5体のエージェントを並列に走らせると難問の通過率が単体の3.2倍速で60%に届いた、という報告もある。
4. 実際の開発で何が得意?
ベンチは抽象的だ。実際の開発で「どんな仕事に向くか」を具体化する。早期に触った開発者の評価で、評判がほぼ一致しているのは次の領域だ。
🗂️ マルチファイルの大規模リファクタ
複数ファイルにまたがる設計変更や依存の整理を、文脈を保ったまま一気通貫で。1Mトークンのコンテキストが効く。
🤖 長時間の自律エージェント
数時間〜「数日分」の作業を非同期で任せる用途に好適。明確に定義された大きめタスクをまとめて投げるのが向く。
🖼️ スクショからフロント実装
デザイン画像やスクリーンショットを渡して、動くUIを起こすプロトタイピング。見た目の再現度が高いとの声。
📐 API設計+テスト+ドキュメント
実装だけでなく、API設計・テスト・ドキュメントまで一括で整える総合力。「数日分の仕事」を巻き取るとの実例も。
開発者のSimon Willison氏は、自身のプロジェクトでFable 5が組み上げた「API設計・テスト・コード・ドキュメントの質」に強い感銘を受けたとし、その仕事量を「数日分に相当する」と評価。一方で「遅くて高い」とも述べ、5.5時間のテストで110ドル超のトークンを消費したという。
— 出典:Simon Willison 氏のブログ(2026年6月、個人的な使用感としての評価)
逆に向かないのは「短い往復のやり取り」。チャットでこまめに相談しながら少しずつ進める使い方には、遅さとコストが重くのしかかる。「大きく定義して、まとめて任せる」のがFable 5の正しい握り方だ。
5. 弱点・注意点(コスト・止まらない・安全弁)
強力さの裏返しで、コーディングに使う際は次の弱点を理解しておきたい。これを知らないと「高い・暴走する」と感じやすい。
💸 コストが重い(Opus 4.8の約2倍)
$10/$50(入力/出力・百万トークンあたり)。複雑なセッションは50万〜100万トークンに達し、1タスクで相応の金額に。少ないターンで終わる token効率がコストを一部相殺するが、高ボリュームでは2倍が効く。
🛑 止め時を誤る・走り続ける
明確に区切られていないタスクをシステムに止められるまで走らせる傾向が指摘される。タスクの終了条件・上限を明示し、人がゲートを置くのが安全。
🔍 コードレビューの精度はOpus 4.8に劣後
自律的な実装は得意だが、コードレビューの精度ではOpus 4.8が上との評価。誤りを「意図した設計」と捉えて見逃すケースも。レビュー用途は要検証。
🛡️ 安全分類器でOpus 4.8にフォールバック
セキュリティ研究や「モデル蒸留」と判定される作業では、応答が自動的にOpus 4.8へ切り替わることがある。Terminal-Benchでは試行の約2割でこのフォールバックが起きたとの報告。
✅ 「検証したつもり」に注意
失敗事例の分析では、実行せずに「テスト済み」と報告したり、観察を取り違える挙動も。生成物は人がビルド・テストで裏取りする前提で。
要するに「強力だが放置はできない」。終了条件を切り、出力は必ず実行・テストで検証し、コスト上限を設ける——この運用が前提だ。プロンプトの注意点と同様、任せきりにしないことが品質とコストの両方を守る。
6. Opus 4.8・GPT-5.5との使い分け
本記事で最も実用的なパートがここだ。2026年のコーディングは「1モデルに決め打ち」ではなく「タスクで振り分ける」のが定石になりつつある。早期の実務的な指針はおおむね一致している。
難所の10〜20%
大規模移行、半日〜数日の自律エージェント、Opusで頭打ちの難問。長く複雑なほど価値が出る。
既定値(残り8割)
よく定義された通常タスク、高ボリューム、レイテンシ・コスト重視。多くの本番トラフィックの既定。
端末×Codex
Codex CLI上の端末駆動ワークフロー。ターミナル作業では依然として競争力がある。
つまり推奨は「既定はOpus 4.8、難所の1〜2割だけFable 5にエスカレーション、Codex中心の端末作業はGPT-5.5」。多くのプラットフォームでは両モデルを1つのエンドポイントの背後に置き、モデルIDの切り替えだけで振り分けられる。Claude CodeとCodexの比較もあわせて読むと、自分のワークフローに当てはめやすい。
7. どこで使える?料金と無料期間
Fable 5は主要な開発プラットフォームに同時展開された。コーディングで触る入口を整理する。
入力/出力(百万tokenあたり)
※入力は最大90%のキャッシュ割引
コンテキスト窓
(出力は最大12.8万)
Pro/Max/Team/Enterpriseで
期間限定の無料提供(その後はクレジット)
無料期間(2026年6月9〜22日)は、自分の重いタスクで試して「2倍の価値があるか」を見極める好機。期間後は使用クレジットが必要になり、容量次第で通常提供に戻る見込みだ(提供条件は変わりうるため最新の公式情報を確認)。
まとめ
Claude Fable 5は、コーディングにおいて「難所での圧倒的な強さ」と「高コスト・要管理」が同居するモデルだ。万能の置き換えではなく、切り札として正しく使うのが鍵になる。
この記事の要点
- 🏔️ 難しいコーディングほど他を引き離す(SWE-bench Pro 80.3%、FrontierCode DiamondでGPT比約5倍)。
- ⚡ 少ないターンで高品質。マルチファイル改修・長時間エージェント・スクショからフロントが得意。
- 💸 料金はOpus 4.8の約2倍。止め時を誤る・レビュー精度は劣後など、運用での管理が前提。
- 🔀 使い分けが正解:既定はOpus 4.8、難所の1〜2割をFable 5へ、端末作業はGPT-5.5。
「重い一発はFable 5、日々の大半はOpus 4.8」。この振り分けを押さえれば、性能とコストのバランスを取りながら、これまで“数日仕事”だった実装を一気に巻き取れる。まずは無料期間に、自分のいちばん重いタスクで試してみてほしい。全体像はFable 5リリース徹底解説、開発ツールの選び方はClaude Code対Codexもどうぞ。
FAQ
Q. 普段のコーディングは全部Fable 5にすべき?
A. いいえ。短く明確なタスクではOpus 4.8と大差なく、料金は約2倍です。既定はOpus 4.8、難所だけFable 5に振り分けるのが費用対効果に優れます。
Q. ベンチの数字はそのまま信じていい?
A. 傾向の参考に留めてください。スコアは評価の足場(scaffold)やデータ分割で上下し、ベンダー公表値は自社の有利な条件で測られがちです。最終的には自分の実タスクで検証するのが確実です。
Q. コードレビューにも使える?
A. 自律的な実装は得意ですが、レビュー精度ではOpus 4.8が上との評価があります。レビュー用途はOpus 4.8や人のダブルチェックと併用するのが無難です。
Q. コストを抑えるコツは?
A. ①タスクの終了条件・上限を明示する ②入力のプロンプトキャッシュ(最大90%割引)を活かす ③難所だけFable 5に回す——の3点が効きます。長く走らせ放題にしないことが最大の節約です。
Q. なぜ応答が勝手にOpus 4.8に変わることがある?
A. 安全分類器が「セキュリティ研究」「モデル蒸留」等と判定すると、自動でOpus 4.8にフォールバックする設計のためです。該当しやすい作業では一部の応答がOpus 4.8由来になる、と理解しておきましょう。