于 2026 年 6 月 9 日发布的 Claude Fable 5,是 Anthropic 首个公开可用的「Mythos 级」模型。完整的发布报道请见另一篇文章;本文只聚焦于编程,深入探讨它实际改变了什么、改变了多少。

一句话概括:Fable 5 是一款编程任务越难、领先优势越拉大的模型。它在 SWE-bench Verified 上拿下 95.0%,在更难的 SWE-bench Pro 上拿下 80.3%——明显领先于任何公开可用的模型。但它的价格也大约是 Opus 4.8 的 2 倍,并且存在「停不下来 / 误判何时该停」这类现实中的怪癖。所以真正关键的,是搞清楚什么时候该祭出 Fable 5、什么时候 Opus 4.8 就够用。从读懂基准测试到实战路由分配,我们逐一来看。

Claude Fable 5 · 编程性能

智能体编程领奖台

— SWE-bench Pro(真实代码库 bug 修复 · 厂商自报)

🥈
69.2%
Opus 4.8
🥇
80.3%
Fable 5
🥉
58.6%
GPT-5.5
SWE-bench Verified 95.0% 越难的任务领先越大 价格约为 Opus 的 2 倍

* 本文中的基准测试数字与价格引用自 Anthropic 及第三方报告(截至 2026 年 6 月)。分数会随评测 scaffold 和数据切分而变化,跨模型对比需谨慎。请将其作为方向性参考来理解。

1. 编程方面有何变化?三大要点

在详细的基准测试之前,先把开发者视角浓缩成三点。这就是 Fable 5 在编程上的特性。

🏔️

① 难题最强

大型多文件重构、长时间自主智能体运行、复杂迁移——任务越长越复杂,差距越大。在简单任务上,它并不比其他模型更出色。

② 用更少回合完成

相比此前的模型,它能用更少的往返次数达成高质量的实现。它可以一气呵成地驱动 Claude Code 的多步骤工作流。

💸

③ 但贵,而且停不下来

价格大约是 Opus 4.8 的 2 倍。在长任务上它还容易一直跑下去、误判何时该停,因此成本控制至关重要。

一句话:处理重活的可靠搭档——但相当费「油」。记住这个特性,后文「何时用哪个」那一节就会豁然开朗。

2. 基准测试成绩

下面是 Fable 5、Opus 4.8 和 GPT-5.5 在主要编程基准上的表现。这些数字为厂商自报,会随评测 scaffold 而变动——请留意这一点。

基准测试 Fable 5 Opus 4.8 GPT-5.5
SWE-bench Verified
真实 bug 修复(标准)
95.0% 88.6%
SWE-bench Pro
更难的真实任务
80.3% 69.2% 58.6%
FrontierCode Diamond
最难的生产级编程
29.3% 13.4% 5.7%
Terminal-Bench 2.1
终端驱动型工作
84.3% 82.7% 83.4%

来源:Anthropic 官方公告及第三方基准测试报告(2026 年 6 月)。「—」表示未找到相同条件下可比的数字。分数取决于 scaffold 和数据切分——请勿当作绝对值。

有两点值得注意。(1) 基准越难,差距越大——在标准的 Verified 上各模型很接近,但在最难的 FrontierCode Diamond 上,Fable 5 大约是 GPT-5.5 的 5 倍、Opus 4.8 的 2 倍以上。(2) 终端工作是一场胶着的竞赛——在 Terminal-Bench 上三者几乎不分伯仲,而 GPT-5.5 借助 Codex CLI(OpenAI 最强的终端平台)保持着竞争力。所以这并不是「Fable 5 在所有编程上都赢」;更准确的图景是它的优势在难度高的那一端才大放异彩

3.「任务越难,领先优势越大」

谈 Fable 5 的编程能力,绕不开它随思考量(effort)而提升这一特性。Anthropic 解释说:「任务越长越复杂,Fable 5 的领先优势就越大。」

FrontierCode Diamond:思考量 vs. 准确率(厂商自报)

Fable 5(低思考量)11.5%
Fable 5(最高思考量)30.9%
GPT-5.5(即便加大思考量)停滞在 5-6%

* 报告指出「即便在中等思考量下,Fable 5 也胜过其他模型在任意思考量下的表现」。相比之下,GPT-5.5 加大思考量几乎不会提升。数字仅为方向性参考。

这直接映射到实际工作。对于一个 5 分钟的杂活,任何模型都行(其实越便宜越好)。但对于横跨数十个文件的迁移,或者跑了半天的自主智能体——这类需要深度思考的工作——Fable 5 的优势才开始显现价值。取决于你如何设计智能体,有一份报告称,五个智能体并行运行达到 60% 隐藏测试通过率的速度,比单个智能体快了 3.2x。

4. 它到底擅长什么?

基准测试很抽象。让我们把「它适合哪类工作」说得具体些。在早期采用者中,对以下这几方面的好评几乎是一致的。

🗂️ 大型多文件重构

跨多个文件的设计变更与依赖清理,在保持上下文的同时端到端完成。1M token 的上下文在此发挥作用。

🤖 长时间自主智能体运行

非常适合把数小时——甚至「好几天的量」——的工作异步交给它。当你抛给它一个单一、定义清晰、规模可观的任务时效果最佳。

🖼️ 从截图生成前端

把设计图或截图交给它,就能原型出一个可运行的 UI。评测者指出其视觉还原度很高。

📐 API 设计 + 测试 + 文档

不只是实现——它还会把 API 设计、测试和文档一并补全。有一份报告称它消化了「好几天的量」的工作。

开发者 Simon Willison 表示,他对 Fable 5 为其项目整理出的 API 设计、测试、代码和文档的质量印象深刻,并将其产出评价为「好几天的工作量」。与此同时,他也称它「又慢又贵」,报告说 5.5 小时的测试烧掉了超过 110 美元的 token

— 来源:Simon Willison 的博客(2026 年 6 月,其个人实测体验)

不适合它的场景:短促的来回交流。对于在聊天中一步步推着它走的方式,慢和贵的代价会很沉重。驾驭 Fable 5 的正确方式是「先定义大任务,然后一次性交给它」

5. 弱点(成本、停不下来、安全回退)

这股力量的另一面:用它写代码时要把这些弱点放在心上。忽视它们,它就只会让人觉得「又贵又失控」。

💸 成本高昂(约为 Opus 4.8 的 2 倍)

$10/$50(每百万 token 的输入/输出)。复杂会话可达 500k-1M token——每个任务都是真金白银。用更少回合完成能抵消一部分,但在大量使用时,2 倍的差价会很痛。

🛑 误判何时该停——一直跑

据报道,在没有明确边界的任务上,它会一直跑到被系统强行终止。请明确写出停止条件和上限,并设置人工把关环节。

🔍 代码审查精度不及 Opus 4.8

它擅长自主实现,但在代码审查精度上,Opus 4.8 评价更高。它可能把一个错误读成「有意为之的设计」从而漏掉。用于审查前请先验证。

🛡️ 安全分类器会回退到 Opus 4.8

对于被标记为安全研究或「模型蒸馏」的工作,响应可能会自动切换到 Opus 4.8。据报道,在 Terminal-Bench 上约有 20% 的试验触发了这种回退。

✅ 警惕「我已测试」(其实没测)

失败案例分析发现,它可能没有真正运行就报告「已测试」,或误读观测结果。请把它的产出当作必须由人通过构建和测试来验证的东西。

简而言之:强大,但你不能放任不管。设定停止条件、始终用构建和测试来验证产出、并设好成本上限——这才是默认的运行模式。正如提示词注意事项所言,不把方向盘完全交出去,既能保护质量也能控制成本。

6. 什么时候改用 Opus 4.8 / GPT-5.5

这是最实用的部分。2026 年的编程正从「押注单一模型」转向「按任务路由」。早期的实战经验大体一致。

Fable 5

最难的那 10-20%

大型迁移、半天到数天的自主运行、Opus 会停滞的难题。越长越复杂,价值越大。

Opus 4.8

默认选项(其余 80%)

范围明确的日常任务、大批量、对延迟或成本敏感的工作。大多数生产流量的默认选择。

GPT-5.5

终端 × Codex

基于 Codex CLI 的终端驱动型工作流。在终端工作上仍具竞争力。

因此建议是:「默认用 Opus 4.8,把最难的那 10-20% 升级给 Fable 5,把以 Codex 为中心的终端工作留给 GPT-5.5。」在许多平台上,两个模型都位于同一个端点之后,所以路由只需替换 model ID。把它和 Claude Code vs. Codex 一起阅读,更容易对应到你自己的工作流。

7. 在哪里使用:价格与免费窗口

Fable 5 在各大开发者平台同步上线。下面是面向编程的入口。

Claude Code
GitHub Copilot
AWS Bedrock
Azure Foundry
Databricks
Anthropic API
$10 / $50

输入/输出(每百万 token)
* 输入最高享 90% 缓存折扣

1M tokens

上下文窗口
(输出最高 128k)

6月9-22日

Pro/Max/Team/Enterprise 限时免费
(之后改用额度)

免费窗口(2026 年 6 月 9-22 日)是在你自己的重任务上测试它、判断是否值这 2 倍价格的绝佳机会。之后则需要使用额度,预计待产能允许后将作为标准功能回归(条款可能变化——请查阅最新官方信息)。

总结

在编程方面,Claude Fable 5 兼具难度高端的压倒性实力高成本和需要监管这两面。它不是即插即换的替代品——关键在于把它当作王牌正确使用

关键要点

  • 🏔️ 编程越难越拉开差距(SWE-bench Pro 80.3%;在 FrontierCode Diamond 上约为 GPT-5.5 的 5 倍)。
  • ⚡ 用更少回合实现高质量。擅长多文件重构、长时间智能体运行、以及从截图生成前端。
  • 💸 价格约为 Opus 4.8 的 2 倍。误判何时该停,审查精度落后——默认需要监管。
  • 🔀 答案是路由:默认 Opus 4.8,难的那 10-20% 交给 Fable 5,终端工作交给 GPT-5.5。

「重活的一次性任务用 Fable 5,日常大部分活儿用 Opus 4.8。」把这个分工拿捏到位,你就能在性能与成本之间取得平衡,同时一口气吃下那些过去要「好几天工作量」的实现。先从在免费窗口里用你手头最重的那个任务测试它开始。想了解全貌,请看 Fable 5 发布深度解析;想挑选开发工具,请看 Claude Code vs. Codex

常见问题

Q. 我日常的所有编程都该用 Fable 5 吗?

A. 不该。在短小、定义明确的任务上,它和 Opus 4.8 差不多,价格却约为 2 倍。默认用 Opus 4.8,只把难的部分交给 Fable 5这样的路由更具性价比。

Q. 基准测试的数字能照单全收吗?

A. 请当作方向性参考。分数会随评测 scaffold 和数据切分而变化,而厂商数字往往是在有利条件下测得的。最终还是要在你自己的真实任务上验证

Q. 它适合做代码审查吗?

A. 它擅长自主实现,但在审查精度上 Opus 4.8 评价更高。做审查时,为稳妥起见,最好搭配 Opus 4.8 或加一道人工复核。

Q. 有什么压低成本的小技巧吗?

A. 有三点有用:① 明确写出任务的停止条件和上限,② 使用输入提示词缓存(最高省 90%),③ 只把难的部分路由给 Fable 5。不让它无边界地跑,才是最大的省钱之道。

Q. 为什么响应有时会自己切换到 Opus 4.8?

A. 因为当安全分类器把某些内容标记为「安全研究」「模型蒸馏」之类时,它被设计为自动回退到 Opus 4.8。在这类工作上,预期会有一部分响应来自 Opus 4.8。