Claude Opus 4.8：功能、基准测试与价格

Q: 从 Opus 4.7 迁移到 4.8 难吗？

几乎不费什么力气。只需把 API 模型 ID 改成 claude-opus-4-8；标准价格和上下文窗口（1M tokens）都保持不变。默认的 effort=HIGH 与 4.7 默认使用大致相同的 token 量，只有性能在上升，因此无需更改配置就能受益。只是对处理外部输入的智能体，要留意抗注入能力的下降（见下文）。

Q: fast mode「便宜 3 倍」是什么意思？

意思是 fast mode 的价格（输入 $10 / 输出 $50，每 1M tokens）实际上是上一代模型 fast mode 的三分之一。速度约为标准的 2.5 倍。「想要速度但 fast mode 偏贵」的两难大为缓解，使其在对话式 UI 和批量处理中更易于使用。

Q: dynamic workflows 谁都能用吗？

它处于 研究预览阶段，可从 Claude Code（CLI、桌面端、VS Code 扩展）使用。提供范围是 Max、Team 与 Enterprise 套餐（由管理员启用），以及通过 API、Bedrock、Vertex 和 Foundry。出于安全考虑，首次触发需要明确确认。其行为可能会变化，因此最稳妥的做法是先在非关键工作上试用。

Q: 4.8 在各方面都比 4.7 更好吗？

不是。GPQA Diamond 略有下降（94.2% → 93.6%），多语言任务不及 Gemini 3.1 Pro / GPT-5.5，而且 抗提示注入能力反而变差了（攻击成功率 6.0% → 9.6%）。它在编程、数学、长上下文与诚实方面明显领先，但对某些用途而言，4.7 或其他模型可能更合适。

Q: 「诚实」提高了，具体有什么好处？

在自主运行 AI 智能体时，最大的风险是 「把失败误报为成功，并在其之上堆叠工作」。由于 4.8 把无批判地报告有缺陷结果降到了 0%，并把过度自信削减了超过 10 倍，它会 不再「假装能跑」，在不确定时就说自己不确定。对于长时间的自动化、CI 与代码审查，可靠性会在实务层面得到提升。

1. 三句话看懂 Opus 4.8
2. 核心规格与提供形态
3. 基准测试正面对比（4.8 vs 4.7）
4. 价格与 fast mode——便宜了 3 倍的高速版
5. 新功能①：effort 参数与自适应思考
6. 新功能②：dynamic workflows（研究预览）
7. 新功能③：Messages API 中的 system 条目
8. 最大的进化是「诚实」——过度自信降至十分之一
9. 注意事项与退步（诚实地写）
10. 谁应该现在就升级
总结
FAQ

2026 年 5 月 28 日，Anthropic 发布了 Claude Opus 4.8——距离前一代 Opus 4.7 还不到两个月，升级节奏明显在加快。但这次的主角，并不是基准测试上几个百分点的提升。Anthropic 自己最先强调的是 「更敏锐的判断力、对自身进展更加诚实，以及比前代能够更长时间地自主工作」。在「变聪明了」之前先打出 「变诚实了」的发布，并不多见。

先说结论：编程稳步增强（SWE-bench Pro 64.3%→69.2%），数学大幅跃升（USAMO 2026 从 69.3% 到 96.7%），长上下文追踪能力几乎翻倍（GraphWalks 在 1M tokens 下 40.3%→68.1%）。此外 fast mode 约快 2.5 倍、实际价格只有三分之一，并且一次性带来了三项面向开发者的实用功能：effort 参数、dynamic workflows，以及 Messages API 中的 system 条目。与此同时，并非一切都变好了——抗提示注入能力反而退步了。本文将基于 Anthropic 的官方公告与系统卡（system card），把数字、新功能与注意事项逐一拆解。

ANTHROPIC · 2026-05-28 RELEASE

一图看懂 Claude Opus 4.8

— 比起单纯变聪明，更把「诚实」摆在台前的旗舰

CODING

69.2%

SWE-bench Pro
（4.7 为 64.3%）

MATH

96.7%

USAMO 2026
（4.7 为 69.3%）

FAST MODE

便宜 3x

约快 2.5 倍
$10 / $50 per Mtok

HONESTY

过度自信 1/10

过度自信较 4.7
降至十分之一以下

标准价格 与 4.7 持平（$5 / $25 per Mtok），上下文 维持 1M tokens。
模型 ID 为 claude-opus-4-8，在 Claude API、Bedrock、Vertex AI 与 Microsoft Foundry 首日上线。

* 本文数值基于 Anthropic 的官方公告、模型页面、系统卡，以及多家技术媒体的报道（截至 2026 年 5 月 28 日）。随着后续验证的进行，可能会有更新。

1. 三句话看懂 Opus 4.8

给忙碌的读者，先把要点说清楚。

性能：编程稳步增强；数学（USAMO）与长上下文追踪（GraphWalks）大幅提升。另一方面，GPQA Diamond 略有下滑，多语言任务则不及 Gemini 3.1 Pro / GPT-5.5。
价格：标准价格与 4.7 持平。最大的经济影响在于 fast mode 约快 2.5 倍、实际价格只有三分之一。
理念：「更诚实」先于「更聪明」。它是 首个在无批判地报告有缺陷结果上拿到 0% 的 Claude，过度自信较 4.7 降低 10 倍。新增的 dynamic workflows 与 effort 参数支撑更长时间的自主工作。

2. 核心规格与提供形态

先从不变的事实说起：Opus 4.8 的规格，以及你能在哪里用它。

项目	内容
发布日期	2026 年 5 月 28 日（距 4.7 约 2 个月）
API 模型 ID	`claude-opus-4-8`
上下文窗口	1,000,000 tokens（与 4.7 相同）
最大输出	每次响应 128,000 tokens
标准价格	输入 $5 / 输出 $25（每 1M tokens，与 4.7 同价）
成本削减	使用提示缓存最高省 90%，批处理省 50%
fast mode 价格	输入 $10 / 输出 $50（每 1M tokens，约快 2.5 倍）
提供渠道	Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry（首日上线）

关键在于 「价格和上下文都保持不变，只有实质内容变强了」。如果你正在用 4.7，只需把模型 ID 换成 claude-opus-4-8，就能在不增加成本的情况下获得性能提升（迁移注意事项见第 9 章）。只需留意，仅限美国境内推理会有 1.1 倍的价格乘数。

3. 基准测试正面对比（4.8 vs 4.7）

规格看过了。那么实际能力到底提升了多少？这里把已公开的主要基准测试与 4.7 并列。加粗的是提升幅度最大的项目。

基准测试	Claude Opus 4.8	Claude Opus 4.7	差值
SWE-bench Verified（真实代码修复）	88.6%	87.6%	+1.0
SWE-bench Pro（高难度编程）	69.2%	64.3%	+4.9
SWE-bench Multilingual	84.4%	80.5%	+3.9
USAMO 2026（数学奥林匹克）	96.7%	69.3%	+27.4
GraphWalks（1M-token 长上下文，F1）	68.1%	40.3%	+27.8
GPQA Diamond（研究生级科学）	93.6%	94.2%	−0.6
Online-Mind2Web（浏览器操作）	84%	—	—

补充一下这张表的读法。SWE-bench Pro 的 +4.9 分看似不起眼却很重要：Pro 汇集了更贴近现实、更难的编程任务，因此这里的提升会直接转化为「在实际工作中卡住的时刻更少」。但真正抢眼的是 USAMO 与 GraphWalks 上 +27 分级别的跃升。

BIGGEST JUMPS

这两次跃升意味着什么

USAMO 2026 · 69.3% → 96.7%

在美国数学奥林匹克难题上逼近满分——这是 把多步严密证明完整推演到底而不中断的能力大幅提升的证据。在复杂算法设计和形式化推理中会带来回报。

GraphWalks 1M · 40.3% → 68.1%

在 1M-token 的上下文中正确追踪「什么写在哪里」的能力几乎翻倍。这提升了 把整个庞大代码库或长篇规格整体喂进去这种用法的可靠性。

此外，CursorBench 在所有 effort 级别上都超越了历代 Opus，
Super-Agent 基准测试中它成为 唯一从头到尾完成每一个案例的模型，法务智能体基准测试则记录了 在全项通过标准上首次突破 10%。

话虽如此，并非一切都在上升。GPQA Diamond 从 94.2% 退步到了 93.6%。你可以说这在误差范围之内，但「纯科学知识测验」上 4.7 略占上风这个事实仍值得记住。更多内容见第 9 章。

4. 价格与 fast mode——便宜了 3 倍的高速版

性能的话题说了不少，但这次真正最戳钱包的，是 fast mode 的价格调整。标准价格与 4.7 完全持平，那就先把两者并列。

标准模式（保持不变）

输入：$5 / 1M tokens
输出：$25 / 1M tokens
提示缓存：最高省 90%
批处理：省 50%

→ 与 4.7 分毫不差。迁移成本为零。

fast mode（大幅调整）

输入：$10 / 1M tokens
输出：$50 / 1M tokens
速度：约为标准的 2.5 倍
价格是上一代高速版的 三分之一

→ 「快＝贵」的定律被打破。在对话式 UI 与批量处理中很给力。

这比表面看上去的影响更大。过去「想要速度，但高速版偏贵」的两难，恰好出现在那些用例上——对话式 UI 响应、CI/CD 中的批量代码审查、智能体的多步执行——现在你可以同时兼得速度与价格。再叠加标准价格保持不变，这次的经济结论就是 「同样的预算，却更快、更聪明」。关于完整的价格图景，请参阅Claude Opus / Sonnet / Haiku 价格对比。

5. 新功能①：effort 参数与自适应思考

价格之后，是开发者直接接触到的功能。首先是 effort 参数。这是一个让你 分四个级别明确指定「思考得有多深」的旋钮。

EFFORT PARAMETER

分四个级别选择思考深度

LOW · 速度优先

最快的响应，速率限制消耗也更低。适用于简单分类、抽取、简短回复。

HIGH · 默认（推荐）

Anthropic 推荐的平衡点。大致与 4.7 默认相同的 token 量，但性能更高。拿不准时就用它。

XHIGH · 难题／异步任务

推荐用于困难任务和 异步工作流——当你想让它好好斟酌时。

MAX · 品质最优先

将 token 深度最大化。适用于 品质重于成本的关键工作。

关键在于：默认的 HIGH 与 4.7 默认使用大致相同的 token 量，只有性能在上升。
换句话说，即便什么都不设置，你也能以相同的成本得到更好的结果。

与 effort 相对应的是 自适应思考（adaptive thinking）：模型会 根据任务的复杂度自动调节所用的算力。简单问题反应迅速，难题则自行深入。你用 effort 设定上限与策略，自适应思考来优化实际分配——这种两层设计实现了「不浪费思考 token，只在要紧处深入」。

6. 新功能②：dynamic workflows（研究预览）

这次最有野心的功能就是它。dynamic workflows 是一项可在 Claude Code（CLI、桌面端、VS Code 扩展）中使用的 研究预览功能，是一种把「大活儿」整体交给 Claude 的机制。

具体来说，Claude 会 自己编写编排脚本，并启动数十到数百个并行子智能体来并发攻克问题。它甚至会部署 对抗式验证智能体（adversarial verification agents）来批判性地核查结果，并 迭代直到收敛。它在主对话线程之外进行协调，其 状态可恢复（resumable），能撑住跨越多天的执行。

它擅长什么

预期的用例是 覆盖整个代码库的查 bug、大规模迁移、安全审计，以及关键验证任务——那种「需要一队人花上好几天」的工作。

提供条件：Max、Team 与 Enterprise 套餐（由管理员启用），以及通过 API、Bedrock、Vertex 和 Foundry。出于安全考虑，它 在首次触发时要求明确确认。作为研究预览，其行为可能会变化。

从定位上看，它是朝着 由模型自身当场设计并运行「多智能体并行编排」的一步——而这种编排你以前需要用 Claude Agent SDK 自行搭建。对于大型重构和横跨多处的调查，它无需人类逐步指挥就能自主推进的范围扩大了。

7. 新功能③：Messages API 中的 system 条目

一个不起眼但对开发者很受用的改动：Messages API 现在可以在 messages 数组中接受 system 条目了。

以前，系统提示（系统指令）只在对话开头放置一次。有了这项改动，你可以在对话进行途中插入系统指令——并且 无需打破提示缓存，也不需要插入一个用户回合。

// 示例：在工作流途中更新「权限、预算、环境」
messages: [
  { role: "system",    content: "你是一个 CI 智能体。禁止任何破坏性操作。" },
  { role: "user",      content: "更新依赖项" },
  { role: "assistant", content: "..." },
  // 在运行途中更新策略（不打破缓存）
  { role: "system",    content: "token 预算不足。使用 effort=low，只保留要点。" },
  { role: "user",      content: "继续" }
]

这在 长时间、多步骤的智能体执行中会带来回报。在执行途中「动态切换策略」——收紧权限、传达 token 预算、更新环境上下文（你当前在哪个分支等）——现在都能在保持缓存效率的同时完成。这是一个与 dynamic workflows 这类长时自主运行很搭的设计。

8. 最大的进化是「诚实」——过度自信降至十分之一

这是我最想传达的部分。Opus 4.8 真正的差异化并不在基准测试的数字上——而在于 「对自身工作的诚实」。Anthropic 和测试者反复强调的，是 这个模型会主动标记自己的不确定性，更不容易做出没有依据的主张。

HONESTY METRICS

用数字看「诚实」

无批判地报告有缺陷结果

把错误结果当作「已完成」上报。首个拿到满分的 Claude。

3.7%

漏报重要事项

它 未能提出本应上报事件的频率。大幅降低。

10x+

过度自信的下降

毫无根据的过度自信较 4.7 降低 10 倍以上。

此外，让自己代码中的缺陷悄悄蒙混过关的比率约为 4.7 的四分之一。
它不再「假装能跑」——而这对于智能体运行而言是决定性的。

为什么这很重要？让 AI 智能体长时间自主运行的最大风险，是 「把失败报告成成功，然后在那个错误之上继续堆叠工作」。测试还在失败却说「修好了」；把不确定的猜测用笃定的口吻陈述——这类「过度自信」会从根本上侵蚀自动化的可靠性。Opus 4.8 现在能 自行标记其不确定性，从实务角度看，这比基准测试上的几个分点更有价值。就我个人而言，我认为这一点正是本次更新中最值得称道的地方。

9. 注意事项与退步（诚实地写）

我们看过了那些进步。但既然这是一篇赞扬「诚实」的文章，那我也要诚实——下面毫不掩饰地列出 4.8 中退步或值得警惕的点。

注意事项	具体内容	如何应对
抗提示注入能力下降	在 Gray Swan 的红队测试中，攻击成功率从 6.0%（4.7）升到 9.6%（4.8）	对处理外部输入的智能体，加强输入清洗与权限隔离。重新审视你的权限设计
GPQA Diamond 略有下降	94.2% → 93.6%（−0.6）。在纯科学知识测验上，4.7 略占上风	在误差范围内。若你在意，就在自己的真实任务上做 A/B 测试
多语言并非领先	多语言任务不及 Gemini 3.1 Pro / GPT-5.5	若多语言是你的主战场，可考虑与其他模型搭配／对比
dynamic workflows 仍是研究预览	行为可能会变化。把关键生产工作完全押在它上面为时尚早	先在非关键工作上验证，再考虑采用

尤其是 抗提示注入能力的下降不容忽视。攻击成功率上升约 1.6 倍，意味着对于 读取外部输入（网页、邮件、用户帖子）并自主行动的智能体，仅仅迁移到 4.8 就可能在某些场景下让它们在安全性上相对变弱。变聪明并不意味着在安全性的每一个维度上都胜过 4.7——请正确理解这种不对称性。

10. 谁应该现在就升级

那么，你现在就该切换到 claude-opus-4-8 吗？我们按类型来拆解。

✅ 现在就升级

编程／智能体运行是你的主要用途
你想把长时间的自主任务交出去
你大量使用 fast mode（现在便宜 3 倍）
你处理庞大代码库／长上下文
「过度自信的误报告」在你的场景中会是致命的

⚠ 谨慎考虑

处理外部输入的公开智能体（抗注入能力下降）
多语言处理是你的主战场（其他模型可能领先）
纯科学问答是核心（GPQA 略降）
把 dynamic workflows 直接投入关键生产

由于切换成本本身近乎为零（只需更改模型 ID；标准价格保持不变），稳妥之道是 先在非关键环境中切换到 claude-opus-4-8，并在自己的任务上实测。从 4.7 迁移的具体步骤，可直接沿用 Opus 4.7 迁移指南中的思路。与 GPT-5.5 等的对比，请参阅 GPT-5.5 vs Claude Opus 对比。

总结

Claude Opus 4.8（2026 年 5 月 28 日发布，claude-opus-4-8）是一款 在价格与上下文保持不变的同时强化了实质内容的旗舰。编程稳步提升（SWE-bench Pro +4.9）；数学（USAMO 96.7%）与长上下文追踪（GraphWalks 68.1%）大幅改善。fast mode 变得约快 2.5 倍、实际价格只有三分之一，而那些实用功能——effort 参数、dynamic workflows，以及 Messages API 中的 system 条目——也都一并到来。

但本质并不在数字上。无批判蒙混过关率为 0%，过度自信下降超过 10 倍——这次以「诚实」先于「聪明」的发布，为长时间自主运行 AI 的时代指明了正确的方向。与此同时，抗提示注入能力反而退步了；它并非在每一个维度上都胜过旧模型。正因如此——也恰好契合这款模型本身的美德——最聪明的相处方式，是 不要过度自信，先在自己的任务上实测再下判断。

FAQ

Q. 从 Opus 4.7 迁移到 4.8 难吗？
A. 几乎不费什么力气。只需把 API 模型 ID 改成 claude-opus-4-8；标准价格和上下文窗口（1M tokens）都保持不变。默认的 effort=HIGH 与 4.7 默认使用大致相同的 token 量，只有性能在上升，因此无需更改配置就能受益。只是对处理外部输入的智能体，要留意抗注入能力的下降（见下文）。

Q. fast mode「便宜 3 倍」是什么意思？
A. 意思是 fast mode 的价格（输入 $10 / 输出 $50，每 1M tokens）实际上是上一代模型 fast mode 的三分之一。速度约为标准的 2.5 倍。「想要速度但 fast mode 偏贵」的两难大为缓解，使其在对话式 UI 和批量处理中更易于使用。

Q. dynamic workflows 谁都能用吗？
A. 它处于 研究预览阶段，可从 Claude Code（CLI、桌面端、VS Code 扩展）使用。提供范围是 Max、Team 与 Enterprise 套餐（由管理员启用），以及通过 API、Bedrock、Vertex 和 Foundry。出于安全考虑，首次触发需要明确确认。其行为可能会变化，因此最稳妥的做法是先在非关键工作上试用。

Q. 4.8 在各方面都比 4.7 更好吗？
A. 不是。GPQA Diamond 略有下降（94.2% → 93.6%），多语言任务不及 Gemini 3.1 Pro / GPT-5.5，而且 抗提示注入能力反而变差了（攻击成功率 6.0% → 9.6%）。它在编程、数学、长上下文与诚实方面明显领先，但对某些用途而言，4.7 或其他模型可能更合适。

Q. 「诚实」提高了，具体有什么好处？
A. 在自主运行 AI 智能体时，最大的风险是 「把失败误报为成功，并在其之上堆叠工作」。由于 4.8 把无批判地报告有缺陷结果降到了 0%，并把过度自信削减了超过 10 倍，它会 不再「假装能跑」，在不确定时就说自己不确定。对于长时间的自动化、CI 与代码审查，可靠性会在实务层面得到提升。

相关文章：Claude Fable 5 编程实力。

Claude Opus 4.8 发布——功能、基准测试与价格全解析