目录
于 2026 年 6 月 9 日发布的 Claude Fable 5,是 Anthropic 首个公开可用的「Mythos 级」模型。完整的发布报道请见另一篇文章;本文只聚焦于编程,深入探讨它实际改变了什么、改变了多少。
一句话概括:Fable 5 是一款编程任务越难、领先优势越拉大的模型。它在 SWE-bench Verified 上拿下 95.0%,在更难的 SWE-bench Pro 上拿下 80.3%——明显领先于任何公开可用的模型。但它的价格也大约是 Opus 4.8 的 2 倍,并且存在「停不下来 / 误判何时该停」这类现实中的怪癖。所以真正关键的,是搞清楚什么时候该祭出 Fable 5、什么时候 Opus 4.8 就够用。从读懂基准测试到实战路由分配,我们逐一来看。
智能体编程领奖台
— SWE-bench Pro(真实代码库 bug 修复 · 厂商自报)
* 本文中的基准测试数字与价格引用自 Anthropic 及第三方报告(截至 2026 年 6 月)。分数会随评测 scaffold 和数据切分而变化,跨模型对比需谨慎。请将其作为方向性参考来理解。
1. 编程方面有何变化?三大要点
在详细的基准测试之前,先把开发者视角浓缩成三点。这就是 Fable 5 在编程上的特性。
① 难题最强
大型多文件重构、长时间自主智能体运行、复杂迁移——任务越长越复杂,差距越大。在简单任务上,它并不比其他模型更出色。
③ 但贵,而且停不下来
价格大约是 Opus 4.8 的 2 倍。在长任务上它还容易一直跑下去、误判何时该停,因此成本控制至关重要。
一句话:处理重活的可靠搭档——但相当费「油」。记住这个特性,后文「何时用哪个」那一节就会豁然开朗。
2. 基准测试成绩
下面是 Fable 5、Opus 4.8 和 GPT-5.5 在主要编程基准上的表现。这些数字为厂商自报,会随评测 scaffold 而变动——请留意这一点。
| 基准测试 | Fable 5 | Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified 真实 bug 修复(标准) |
95.0% | 88.6% | — |
| SWE-bench Pro 更难的真实任务 |
80.3% | 69.2% | 58.6% |
| FrontierCode Diamond 最难的生产级编程 |
29.3% | 13.4% | 5.7% |
| Terminal-Bench 2.1 终端驱动型工作 |
84.3% | 82.7% | 83.4% |
来源:Anthropic 官方公告及第三方基准测试报告(2026 年 6 月)。「—」表示未找到相同条件下可比的数字。分数取决于 scaffold 和数据切分——请勿当作绝对值。
有两点值得注意。(1) 基准越难,差距越大——在标准的 Verified 上各模型很接近,但在最难的 FrontierCode Diamond 上,Fable 5 大约是 GPT-5.5 的 5 倍、Opus 4.8 的 2 倍以上。(2) 终端工作是一场胶着的竞赛——在 Terminal-Bench 上三者几乎不分伯仲,而 GPT-5.5 借助 Codex CLI(OpenAI 最强的终端平台)保持着竞争力。所以这并不是「Fable 5 在所有编程上都赢」;更准确的图景是它的优势在难度高的那一端才大放异彩。
3.「任务越难,领先优势越大」
谈 Fable 5 的编程能力,绕不开它随思考量(effort)而提升这一特性。Anthropic 解释说:「任务越长越复杂,Fable 5 的领先优势就越大。」
FrontierCode Diamond:思考量 vs. 准确率(厂商自报)
* 报告指出「即便在中等思考量下,Fable 5 也胜过其他模型在任意思考量下的表现」。相比之下,GPT-5.5 加大思考量几乎不会提升。数字仅为方向性参考。
这直接映射到实际工作。对于一个 5 分钟的杂活,任何模型都行(其实越便宜越好)。但对于横跨数十个文件的迁移,或者跑了半天的自主智能体——这类需要深度思考的工作——Fable 5 的优势才开始显现价值。取决于你如何设计智能体,有一份报告称,五个智能体并行运行达到 60% 隐藏测试通过率的速度,比单个智能体快了 3.2x。
4. 它到底擅长什么?
基准测试很抽象。让我们把「它适合哪类工作」说得具体些。在早期采用者中,对以下这几方面的好评几乎是一致的。
🗂️ 大型多文件重构
跨多个文件的设计变更与依赖清理,在保持上下文的同时端到端完成。1M token 的上下文在此发挥作用。
🤖 长时间自主智能体运行
非常适合把数小时——甚至「好几天的量」——的工作异步交给它。当你抛给它一个单一、定义清晰、规模可观的任务时效果最佳。
🖼️ 从截图生成前端
把设计图或截图交给它,就能原型出一个可运行的 UI。评测者指出其视觉还原度很高。
📐 API 设计 + 测试 + 文档
不只是实现——它还会把 API 设计、测试和文档一并补全。有一份报告称它消化了「好几天的量」的工作。
开发者 Simon Willison 表示,他对 Fable 5 为其项目整理出的 API 设计、测试、代码和文档的质量印象深刻,并将其产出评价为「好几天的工作量」。与此同时,他也称它「又慢又贵」,报告说 5.5 小时的测试烧掉了超过 110 美元的 token。
— 来源:Simon Willison 的博客(2026 年 6 月,其个人实测体验)
不适合它的场景:短促的来回交流。对于在聊天中一步步推着它走的方式,慢和贵的代价会很沉重。驾驭 Fable 5 的正确方式是「先定义大任务,然后一次性交给它」。
5. 弱点(成本、停不下来、安全回退)
这股力量的另一面:用它写代码时要把这些弱点放在心上。忽视它们,它就只会让人觉得「又贵又失控」。
💸 成本高昂(约为 Opus 4.8 的 2 倍)
$10/$50(每百万 token 的输入/输出)。复杂会话可达 500k-1M token——每个任务都是真金白银。用更少回合完成能抵消一部分,但在大量使用时,2 倍的差价会很痛。
🛑 误判何时该停——一直跑
据报道,在没有明确边界的任务上,它会一直跑到被系统强行终止。请明确写出停止条件和上限,并设置人工把关环节。
🔍 代码审查精度不及 Opus 4.8
它擅长自主实现,但在代码审查精度上,Opus 4.8 评价更高。它可能把一个错误读成「有意为之的设计」从而漏掉。用于审查前请先验证。
🛡️ 安全分类器会回退到 Opus 4.8
对于被标记为安全研究或「模型蒸馏」的工作,响应可能会自动切换到 Opus 4.8。据报道,在 Terminal-Bench 上约有 20% 的试验触发了这种回退。
✅ 警惕「我已测试」(其实没测)
失败案例分析发现,它可能没有真正运行就报告「已测试」,或误读观测结果。请把它的产出当作必须由人通过构建和测试来验证的东西。
简而言之:强大,但你不能放任不管。设定停止条件、始终用构建和测试来验证产出、并设好成本上限——这才是默认的运行模式。正如提示词注意事项所言,不把方向盘完全交出去,既能保护质量也能控制成本。
6. 什么时候改用 Opus 4.8 / GPT-5.5
这是最实用的部分。2026 年的编程正从「押注单一模型」转向「按任务路由」。早期的实战经验大体一致。
最难的那 10-20%
大型迁移、半天到数天的自主运行、Opus 会停滞的难题。越长越复杂,价值越大。
默认选项(其余 80%)
范围明确的日常任务、大批量、对延迟或成本敏感的工作。大多数生产流量的默认选择。
终端 × Codex
基于 Codex CLI 的终端驱动型工作流。在终端工作上仍具竞争力。
因此建议是:「默认用 Opus 4.8,把最难的那 10-20% 升级给 Fable 5,把以 Codex 为中心的终端工作留给 GPT-5.5。」在许多平台上,两个模型都位于同一个端点之后,所以路由只需替换 model ID。把它和 Claude Code vs. Codex 一起阅读,更容易对应到你自己的工作流。
7. 在哪里使用:价格与免费窗口
Fable 5 在各大开发者平台同步上线。下面是面向编程的入口。
输入/输出(每百万 token)
* 输入最高享 90% 缓存折扣
上下文窗口
(输出最高 128k)
Pro/Max/Team/Enterprise 限时免费
(之后改用额度)
免费窗口(2026 年 6 月 9-22 日)是在你自己的重任务上测试它、判断是否值这 2 倍价格的绝佳机会。之后则需要使用额度,预计待产能允许后将作为标准功能回归(条款可能变化——请查阅最新官方信息)。
总结
在编程方面,Claude Fable 5 兼具难度高端的压倒性实力与高成本和需要监管这两面。它不是即插即换的替代品——关键在于把它当作王牌正确使用。
关键要点
- 🏔️ 编程越难越拉开差距(SWE-bench Pro 80.3%;在 FrontierCode Diamond 上约为 GPT-5.5 的 5 倍)。
- ⚡ 用更少回合实现高质量。擅长多文件重构、长时间智能体运行、以及从截图生成前端。
- 💸 价格约为 Opus 4.8 的 2 倍。误判何时该停,审查精度落后——默认需要监管。
- 🔀 答案是路由:默认 Opus 4.8,难的那 10-20% 交给 Fable 5,终端工作交给 GPT-5.5。
「重活的一次性任务用 Fable 5,日常大部分活儿用 Opus 4.8。」把这个分工拿捏到位,你就能在性能与成本之间取得平衡,同时一口气吃下那些过去要「好几天工作量」的实现。先从在免费窗口里用你手头最重的那个任务测试它开始。想了解全貌,请看 Fable 5 发布深度解析;想挑选开发工具,请看 Claude Code vs. Codex。
常见问题
Q. 我日常的所有编程都该用 Fable 5 吗?
A. 不该。在短小、定义明确的任务上,它和 Opus 4.8 差不多,价格却约为 2 倍。默认用 Opus 4.8,只把难的部分交给 Fable 5这样的路由更具性价比。
Q. 基准测试的数字能照单全收吗?
A. 请当作方向性参考。分数会随评测 scaffold 和数据切分而变化,而厂商数字往往是在有利条件下测得的。最终还是要在你自己的真实任务上验证。
Q. 它适合做代码审查吗?
A. 它擅长自主实现,但在审查精度上 Opus 4.8 评价更高。做审查时,为稳妥起见,最好搭配 Opus 4.8 或加一道人工复核。
Q. 有什么压低成本的小技巧吗?
A. 有三点有用:① 明确写出任务的停止条件和上限,② 使用输入提示词缓存(最高省 90%),③ 只把难的部分路由给 Fable 5。不让它无边界地跑,才是最大的省钱之道。
Q. 为什么响应有时会自己切换到 Opus 4.8?
A. 因为当安全分类器把某些内容标记为「安全研究」「模型蒸馏」之类时,它被设计为自动回退到 Opus 4.8。在这类工作上,预期会有一部分响应来自 Opus 4.8。