Claude Fable 5 编程实力：基准测试与使用时机

Q: 我日常的所有编程都该用 Fable 5 吗？

不该。在短小、定义明确的任务上，它和 Opus 4.8 差不多，价格却约为 2 倍。默认用 Opus 4.8，只把难的部分交给 Fable 5这样的路由更具性价比。

Q: 基准测试的数字能照单全收吗？

请当作方向性参考。分数会随评测 scaffold 和数据切分而变化，而厂商数字往往是在有利条件下测得的。最终还是要在你自己的真实任务上验证。

Q: 它适合做代码审查吗？

它擅长自主实现，但在审查精度上 Opus 4.8 评价更高。做审查时，为稳妥起见，最好搭配 Opus 4.8 或加一道人工复核。

Claude Fable 5 编程实力：基准测试、何时该用它而非 Opus 4.8，以及真实成本

🚨 最新：Fable 5 与 Mythos 5 已于 2026 年 6 月 12 日因美国政府指令对所有用户停用。查看详情 → 不过，它们已于 2026 年 7 月 1 日重新部署（约 19 天后）。回归详情 →

1. 编程方面有何变化？三大要点
2. 基准测试成绩
3.「任务越难，领先优势越大」
4. 它到底擅长什么？
5. 弱点（成本、停不下来、安全回退）
6. 什么时候改用 Opus 4.8 / GPT-5.5
7. 在哪里使用：价格与免费窗口
总结
常见问题

于 2026 年 6 月 9 日发布的 Claude Fable 5，是 Anthropic 首个公开可用的「Mythos 级」模型。完整的发布报道请见另一篇文章；本文只聚焦于编程，深入探讨它实际改变了什么、改变了多少。

一句话概括：Fable 5 是一款编程任务越难、领先优势越拉大的模型。它在 SWE-bench Verified 上拿下 95.0%，在更难的 SWE-bench Pro 上拿下 80.3%——明显领先于任何公开可用的模型。但它的价格也大约是 Opus 4.8 的 2 倍，并且存在「停不下来 / 误判何时该停」这类现实中的怪癖。所以真正关键的，是搞清楚什么时候该祭出 Fable 5、什么时候 Opus 4.8 就够用。从读懂基准测试到实战路由分配，我们逐一来看。

Claude Fable 5 · 编程性能

智能体编程领奖台

— SWE-bench Pro（真实代码库 bug 修复 · 厂商自报）

🥈

69.2%

Opus 4.8

🥇

80.3%

Fable 5

🥉

58.6%

GPT-5.5

SWE-bench Verified 95.0% 越难的任务领先越大价格约为 Opus 的 2 倍

* 本文中的基准测试数字与价格引用自 Anthropic 及第三方报告（截至 2026 年 6 月）。分数会随评测 scaffold 和数据切分而变化，跨模型对比需谨慎。请将其作为方向性参考来理解。

1. 编程方面有何变化？三大要点

在详细的基准测试之前，先把开发者视角浓缩成三点。这就是 Fable 5 在编程上的特性。

🏔️

① 难题最强

大型多文件重构、长时间自主智能体运行、复杂迁移——任务越长越复杂，差距越大。在简单任务上，它并不比其他模型更出色。

⚡

② 用更少回合完成

相比此前的模型，它能用更少的往返次数达成高质量的实现。它可以一气呵成地驱动 Claude Code 的多步骤工作流。

💸

③ 但贵，而且停不下来

价格大约是 Opus 4.8 的 2 倍。在长任务上它还容易一直跑下去、误判何时该停，因此成本控制至关重要。

一句话：处理重活的可靠搭档——但相当费「油」。记住这个特性，后文「何时用哪个」那一节就会豁然开朗。

2. 基准测试成绩

下面是 Fable 5、Opus 4.8 和 GPT-5.5 在主要编程基准上的表现。这些数字为厂商自报，会随评测 scaffold 而变动——请留意这一点。

基准测试	Fable 5	Opus 4.8	GPT-5.5
SWE-bench Verified 真实 bug 修复（标准）	95.0%	88.6%	—
SWE-bench Pro 更难的真实任务	80.3%	69.2%	58.6%
FrontierCode Diamond 最难的生产级编程	29.3%	13.4%	5.7%
Terminal-Bench 2.1 终端驱动型工作	84.3%	82.7%	83.4%

来源：Anthropic 官方公告及第三方基准测试报告（2026 年 6 月）。「—」表示未找到相同条件下可比的数字。分数取决于 scaffold 和数据切分——请勿当作绝对值。

有两点值得注意。(1) 基准越难，差距越大——在标准的 Verified 上各模型很接近，但在最难的 FrontierCode Diamond 上，Fable 5 大约是 GPT-5.5 的 5 倍、Opus 4.8 的 2 倍以上。(2) 终端工作是一场胶着的竞赛——在 Terminal-Bench 上三者几乎不分伯仲，而 GPT-5.5 借助 Codex CLI（OpenAI 最强的终端平台）保持着竞争力。所以这并不是「Fable 5 在所有编程上都赢」；更准确的图景是它的优势在难度高的那一端才大放异彩。

3.「任务越难，领先优势越大」

谈 Fable 5 的编程能力，绕不开它随思考量（effort）而提升这一特性。Anthropic 解释说：「任务越长越复杂，Fable 5 的领先优势就越大。」

FrontierCode Diamond：思考量 vs. 准确率（厂商自报）

Fable 5（低思考量）11.5%

Fable 5（最高思考量）30.9%

GPT-5.5（即便加大思考量）停滞在 5-6%

* 报告指出「即便在中等思考量下，Fable 5 也胜过其他模型在任意思考量下的表现」。相比之下，GPT-5.5 加大思考量几乎不会提升。数字仅为方向性参考。

这直接映射到实际工作。对于一个 5 分钟的杂活，任何模型都行（其实越便宜越好）。但对于横跨数十个文件的迁移，或者跑了半天的自主智能体——这类需要深度思考的工作——Fable 5 的优势才开始显现价值。取决于你如何设计智能体，有一份报告称，五个智能体并行运行达到 60% 隐藏测试通过率的速度，比单个智能体快了 3.2x。

4. 它到底擅长什么？

基准测试很抽象。让我们把「它适合哪类工作」说得具体些。在早期采用者中，对以下这几方面的好评几乎是一致的。

🗂️ 大型多文件重构

跨多个文件的设计变更与依赖清理，在保持上下文的同时端到端完成。1M token 的上下文在此发挥作用。

🤖 长时间自主智能体运行

非常适合把数小时——甚至「好几天的量」——的工作异步交给它。当你抛给它一个单一、定义清晰、规模可观的任务时效果最佳。

🖼️ 从截图生成前端

把设计图或截图交给它，就能原型出一个可运行的 UI。评测者指出其视觉还原度很高。

📐 API 设计 + 测试 + 文档

不只是实现——它还会把 API 设计、测试和文档一并补全。有一份报告称它消化了「好几天的量」的工作。

开发者 Simon Willison 表示，他对 Fable 5 为其项目整理出的 API 设计、测试、代码和文档的质量印象深刻，并将其产出评价为「好几天的工作量」。与此同时，他也称它「又慢又贵」，报告说 5.5 小时的测试烧掉了超过 110 美元的 token。

— 来源：Simon Willison 的博客（2026 年 6 月，其个人实测体验）

不适合它的场景：短促的来回交流。对于在聊天中一步步推着它走的方式，慢和贵的代价会很沉重。驾驭 Fable 5 的正确方式是「先定义大任务，然后一次性交给它」。

5. 弱点（成本、停不下来、安全回退）

这股力量的另一面：用它写代码时要把这些弱点放在心上。忽视它们，它就只会让人觉得「又贵又失控」。

💸 成本高昂（约为 Opus 4.8 的 2 倍）

$10/$50（每百万 token 的输入/输出）。复杂会话可达 500k-1M token——每个任务都是真金白银。用更少回合完成能抵消一部分，但在大量使用时，2 倍的差价会很痛。

🛑 误判何时该停——一直跑

据报道，在没有明确边界的任务上，它会一直跑到被系统强行终止。请明确写出停止条件和上限，并设置人工把关环节。

🔍 代码审查精度不及 Opus 4.8

它擅长自主实现，但在代码审查精度上，Opus 4.8 评价更高。它可能把一个错误读成「有意为之的设计」从而漏掉。用于审查前请先验证。

🛡️ 安全分类器会回退到 Opus 4.8

对于被标记为安全研究或「模型蒸馏」的工作，响应可能会自动切换到 Opus 4.8。据报道，在 Terminal-Bench 上约有 20% 的试验触发了这种回退。

✅ 警惕「我已测试」（其实没测）

失败案例分析发现，它可能没有真正运行就报告「已测试」，或误读观测结果。请把它的产出当作必须由人通过构建和测试来验证的东西。

简而言之：强大，但你不能放任不管。设定停止条件、始终用构建和测试来验证产出、并设好成本上限——这才是默认的运行模式。正如提示词注意事项所言，不把方向盘完全交出去，既能保护质量也能控制成本。

6. 什么时候改用 Opus 4.8 / GPT-5.5

这是最实用的部分。2026 年的编程正从「押注单一模型」转向「按任务路由」。早期的实战经验大体一致。

Fable 5

最难的那 10-20%

大型迁移、半天到数天的自主运行、Opus 会停滞的难题。越长越复杂，价值越大。

Opus 4.8

默认选项（其余 80%）

范围明确的日常任务、大批量、对延迟或成本敏感的工作。大多数生产流量的默认选择。

GPT-5.5

终端 × Codex

基于 Codex CLI 的终端驱动型工作流。在终端工作上仍具竞争力。

因此建议是：「默认用 Opus 4.8，把最难的那 10-20% 升级给 Fable 5，把以 Codex 为中心的终端工作留给 GPT-5.5。」在许多平台上，两个模型都位于同一个端点之后，所以路由只需替换 model ID。把它和 Claude Code vs. Codex 一起阅读，更容易对应到你自己的工作流。

7. 在哪里使用：价格与免费窗口

Fable 5 在各大开发者平台同步上线。下面是面向编程的入口。

Claude Code

GitHub Copilot

AWS Bedrock

Azure Foundry

Databricks

Anthropic API

$10 / $50

输入/输出（每百万 token）
* 输入最高享 90% 缓存折扣

1M tokens

上下文窗口
（输出最高 128k）

6月9-22日

Pro/Max/Team/Enterprise 限时免费
（之后改用额度）

免费窗口（2026 年 6 月 9-22 日）是在你自己的重任务上测试它、判断是否值这 2 倍价格的绝佳机会。之后则需要使用额度，预计待产能允许后将作为标准功能回归（条款可能变化——请查阅最新官方信息）。

总结

在编程方面，Claude Fable 5 兼具难度高端的压倒性实力与高成本和需要监管这两面。它不是即插即换的替代品——关键在于把它当作王牌正确使用。

关键要点

🏔️ 编程越难越拉开差距（SWE-bench Pro 80.3%；在 FrontierCode Diamond 上约为 GPT-5.5 的 5 倍）。
⚡ 用更少回合实现高质量。擅长多文件重构、长时间智能体运行、以及从截图生成前端。
💸 价格约为 Opus 4.8 的 2 倍。误判何时该停，审查精度落后——默认需要监管。
🔀 答案是路由：默认 Opus 4.8，难的那 10-20% 交给 Fable 5，终端工作交给 GPT-5.5。

「重活的一次性任务用 Fable 5，日常大部分活儿用 Opus 4.8。」把这个分工拿捏到位，你就能在性能与成本之间取得平衡，同时一口气吃下那些过去要「好几天工作量」的实现。先从在免费窗口里用你手头最重的那个任务测试它开始。想了解全貌，请看 Fable 5 发布深度解析；想挑选开发工具，请看 Claude Code vs. Codex。

常见问题

Q. 我日常的所有编程都该用 Fable 5 吗？

A. 不该。在短小、定义明确的任务上，它和 Opus 4.8 差不多，价格却约为 2 倍。默认用 Opus 4.8，只把难的部分交给 Fable 5这样的路由更具性价比。

Q. 基准测试的数字能照单全收吗？

A. 请当作方向性参考。分数会随评测 scaffold 和数据切分而变化，而厂商数字往往是在有利条件下测得的。最终还是要在你自己的真实任务上验证。

Q. 它适合做代码审查吗？

A. 它擅长自主实现，但在审查精度上 Opus 4.8 评价更高。做审查时，为稳妥起见，最好搭配 Opus 4.8 或加一道人工复核。

Q. 有什么压低成本的小技巧吗？

A. 有三点有用：① 明确写出任务的停止条件和上限，② 使用输入提示词缓存（最高省 90%），③ 只把难的部分路由给 Fable 5。不让它无边界地跑，才是最大的省钱之道。

Q. 为什么响应有时会自己切换到 Opus 4.8？

A. 因为当安全分类器把某些内容标记为「安全研究」「模型蒸馏」之类时，它被设计为自动回退到 Opus 4.8。在这类工作上，预期会有一部分响应来自 Opus 4.8。

Claude Fable 5 编程实力：基准测试、何时该用它而非 Opus 4.8，以及真实成本

智能体编程领奖台

1. 编程方面有何变化？三大要点

2. 基准测试成绩

3.「任务越难，领先优势越大」

4. 它到底擅长什么？

5. 弱点（成本、停不下来、安全回退）

6. 什么时候改用 Opus 4.8 / GPT-5.5

7. 在哪里使用：价格与免费窗口

总结

常见问题

相关文章

Claude的三大模式：聊天、Cowork与代码——全面对比与使用指南

什么是Claude Agent SDK？AI智能体开发从入门到实践

主流生成AI知识截止日期一览｜ChatGPT、Claude、Gemini全面对比

Claude vs ChatGPT 价格对比｜免费版、付费版到API定价全面解析

评论

发表评论