2026 年 5 月 28 日,Anthropic 发布了 Claude Opus 4.8——距离前一代 Opus 4.7 还不到两个月,升级节奏明显在加快。但这次的主角,并不是基准测试上几个百分点的提升。Anthropic 自己最先强调的是 「更敏锐的判断力、对自身进展更加诚实,以及比前代能够更长时间地自主工作」。在「变聪明了」之前先打出 「变诚实了」的发布,并不多见。

先说结论:编程稳步增强(SWE-bench Pro 64.3%→69.2%)数学大幅跃升(USAMO 2026 从 69.3% 到 96.7%)长上下文追踪能力几乎翻倍(GraphWalks 在 1M tokens 下 40.3%→68.1%)。此外 fast mode 约快 2.5 倍、实际价格只有三分之一,并且一次性带来了三项面向开发者的实用功能:effort 参数、dynamic workflows,以及 Messages API 中的 system 条目。与此同时,并非一切都变好了——抗提示注入能力反而退步了。本文将基于 Anthropic 的官方公告与系统卡(system card),把数字、新功能与注意事项逐一拆解。

ANTHROPIC · 2026-05-28 RELEASE

一图看懂 Claude Opus 4.8

— 比起单纯变聪明,更把「诚实」摆在台前的旗舰

CODING
69.2%
SWE-bench Pro
(4.7 为 64.3%)
MATH
96.7%
USAMO 2026
(4.7 为 69.3%)
FAST MODE
便宜 3x
约快 2.5 倍
$10 / $50 per Mtok
HONESTY
过度自信 1/10
过度自信较 4.7
降至十分之一以下

标准价格 与 4.7 持平($5 / $25 per Mtok),上下文 维持 1M tokens
模型 ID 为 claude-opus-4-8,在 Claude API、Bedrock、Vertex AI 与 Microsoft Foundry 首日上线。

* 本文数值基于 Anthropic 的官方公告、模型页面、系统卡,以及多家技术媒体的报道(截至 2026 年 5 月 28 日)。随着后续验证的进行,可能会有更新。

1. 三句话看懂 Opus 4.8

给忙碌的读者,先把要点说清楚。

  • 性能:编程稳步增强;数学(USAMO)与长上下文追踪(GraphWalks)大幅提升。另一方面,GPQA Diamond 略有下滑,多语言任务则不及 Gemini 3.1 Pro / GPT-5.5。
  • 价格:标准价格与 4.7 持平。最大的经济影响在于 fast mode 约快 2.5 倍、实际价格只有三分之一
  • 理念:「更诚实」先于「更聪明」。它是 首个在无批判地报告有缺陷结果上拿到 0% 的 Claude,过度自信较 4.7 降低 10 倍。新增的 dynamic workflowseffort 参数支撑更长时间的自主工作。

2. 核心规格与提供形态

先从不变的事实说起:Opus 4.8 的规格,以及你能在哪里用它。

项目内容
发布日期2026 年 5 月 28 日(距 4.7 约 2 个月)
API 模型 IDclaude-opus-4-8
上下文窗口1,000,000 tokens(与 4.7 相同)
最大输出每次响应 128,000 tokens
标准价格输入 $5 / 输出 $25(每 1M tokens,与 4.7 同价)
成本削减使用提示缓存最高省 90%,批处理省 50%
fast mode 价格输入 $10 / 输出 $50(每 1M tokens,约快 2.5 倍)
提供渠道Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry(首日上线)

关键在于 「价格和上下文都保持不变,只有实质内容变强了」。如果你正在用 4.7,只需把模型 ID 换成 claude-opus-4-8,就能在不增加成本的情况下获得性能提升(迁移注意事项见第 9 章)。只需留意,仅限美国境内推理会有 1.1 倍的价格乘数。

3. 基准测试正面对比(4.8 vs 4.7)

规格看过了。那么实际能力到底提升了多少?这里把已公开的主要基准测试与 4.7 并列。加粗的是提升幅度最大的项目。

基准测试Claude Opus 4.8Claude Opus 4.7差值
SWE-bench Verified(真实代码修复)88.6%87.6%+1.0
SWE-bench Pro(高难度编程)69.2%64.3%+4.9
SWE-bench Multilingual84.4%80.5%+3.9
USAMO 2026(数学奥林匹克)96.7%69.3%+27.4
GraphWalks(1M-token 长上下文,F1)68.1%40.3%+27.8
GPQA Diamond(研究生级科学)93.6%94.2%−0.6
Online-Mind2Web(浏览器操作)84%

补充一下这张表的读法。SWE-bench Pro 的 +4.9 分看似不起眼却很重要:Pro 汇集了更贴近现实、更难的编程任务,因此这里的提升会直接转化为「在实际工作中卡住的时刻更少」。但真正抢眼的是 USAMO 与 GraphWalks 上 +27 分级别的跃升

BIGGEST JUMPS

这两次跃升意味着什么

USAMO 2026 · 69.3% → 96.7%
在美国数学奥林匹克难题上逼近满分——这是 把多步严密证明完整推演到底而不中断的能力大幅提升的证据。在复杂算法设计和形式化推理中会带来回报。
GraphWalks 1M · 40.3% → 68.1%
在 1M-token 的上下文中正确追踪「什么写在哪里」的能力几乎翻倍。这提升了 把整个庞大代码库或长篇规格整体喂进去这种用法的可靠性。

此外,CursorBench 在所有 effort 级别上都超越了历代 Opus
Super-Agent 基准测试中它成为 唯一从头到尾完成每一个案例的模型,法务智能体基准测试则记录了 在全项通过标准上首次突破 10%

话虽如此,并非一切都在上升。GPQA Diamond 从 94.2% 退步到了 93.6%。你可以说这在误差范围之内,但「纯科学知识测验」上 4.7 略占上风这个事实仍值得记住。更多内容见第 9 章

4. 价格与 fast mode——便宜了 3 倍的高速版

性能的话题说了不少,但这次真正最戳钱包的,是 fast mode 的价格调整。标准价格与 4.7 完全持平,那就先把两者并列。

标准模式(保持不变)

  • 输入:$5 / 1M tokens
  • 输出:$25 / 1M tokens
  • 提示缓存:最高省 90%
  • 批处理:省 50%

→ 与 4.7 分毫不差。迁移成本为零。

fast mode(大幅调整)

  • 输入:$10 / 1M tokens
  • 输出:$50 / 1M tokens
  • 速度:约为标准的 2.5 倍
  • 价格是上一代高速版的 三分之一

→ 「快=贵」的定律被打破。在对话式 UI 与批量处理中很给力。

这比表面看上去的影响更大。过去「想要速度,但高速版偏贵」的两难,恰好出现在那些用例上——对话式 UI 响应、CI/CD 中的批量代码审查、智能体的多步执行——现在你可以同时兼得速度与价格。再叠加标准价格保持不变,这次的经济结论就是 「同样的预算,却更快、更聪明」。关于完整的价格图景,请参阅Claude Opus / Sonnet / Haiku 价格对比

5. 新功能①:effort 参数与自适应思考

价格之后,是开发者直接接触到的功能。首先是 effort 参数。这是一个让你 分四个级别明确指定「思考得有多深」的旋钮。

EFFORT PARAMETER

分四个级别选择思考深度

LOW · 速度优先
最快的响应,速率限制消耗也更低。适用于简单分类、抽取、简短回复。
HIGH · 默认(推荐)
Anthropic 推荐的平衡点。大致与 4.7 默认相同的 token 量,但性能更高。拿不准时就用它。
XHIGH · 难题/异步任务
推荐用于困难任务和 异步工作流——当你想让它好好斟酌时。
MAX · 品质最优先
将 token 深度最大化。适用于 品质重于成本的关键工作。

关键在于:默认的 HIGH 与 4.7 默认使用大致相同的 token 量,只有性能在上升
换句话说,即便什么都不设置,你也能以相同的成本得到更好的结果。

与 effort 相对应的是 自适应思考(adaptive thinking):模型会 根据任务的复杂度自动调节所用的算力。简单问题反应迅速,难题则自行深入。你用 effort 设定上限与策略,自适应思考来优化实际分配——这种两层设计实现了「不浪费思考 token,只在要紧处深入」。

6. 新功能②:dynamic workflows(研究预览)

这次最有野心的功能就是它。dynamic workflows 是一项可在 Claude Code(CLI、桌面端、VS Code 扩展)中使用的 研究预览功能,是一种把「大活儿」整体交给 Claude 的机制。

具体来说,Claude 会 自己编写编排脚本,并启动数十到数百个并行子智能体来并发攻克问题。它甚至会部署 对抗式验证智能体(adversarial verification agents)来批判性地核查结果,并 迭代直到收敛。它在主对话线程之外进行协调,其 状态可恢复(resumable),能撑住跨越多天的执行

它擅长什么

预期的用例是 覆盖整个代码库的查 bug、大规模迁移、安全审计,以及关键验证任务——那种「需要一队人花上好几天」的工作。

提供条件:Max、Team 与 Enterprise 套餐(由管理员启用),以及通过 API、Bedrock、Vertex 和 Foundry。出于安全考虑,它 在首次触发时要求明确确认。作为研究预览,其行为可能会变化。

从定位上看,它是朝着 由模型自身当场设计并运行「多智能体并行编排」的一步——而这种编排你以前需要用 Claude Agent SDK 自行搭建。对于大型重构和横跨多处的调查,它无需人类逐步指挥就能自主推进的范围扩大了。

7. 新功能③:Messages API 中的 system 条目

一个不起眼但对开发者很受用的改动:Messages API 现在可以在 messages 数组中接受 system 条目了

以前,系统提示(系统指令)只在对话开头放置一次。有了这项改动,你可以在对话进行途中插入系统指令——并且 无需打破提示缓存,也不需要插入一个用户回合

// 示例:在工作流途中更新「权限、预算、环境」
messages: [
  { role: "system",    content: "你是一个 CI 智能体。禁止任何破坏性操作。" },
  { role: "user",      content: "更新依赖项" },
  { role: "assistant", content: "..." },
  // 在运行途中更新策略(不打破缓存)
  { role: "system",    content: "token 预算不足。使用 effort=low,只保留要点。" },
  { role: "user",      content: "继续" }
]

这在 长时间、多步骤的智能体执行中会带来回报。在执行途中「动态切换策略」——收紧权限、传达 token 预算、更新环境上下文(你当前在哪个分支等)——现在都能在保持缓存效率的同时完成。这是一个与 dynamic workflows 这类长时自主运行很搭的设计。

8. 最大的进化是「诚实」——过度自信降至十分之一

这是我最想传达的部分。Opus 4.8 真正的差异化并不在基准测试的数字上——而在于 「对自身工作的诚实」。Anthropic 和测试者反复强调的,是 这个模型会主动标记自己的不确定性,更不容易做出没有依据的主张

HONESTY METRICS

用数字看「诚实」

0%
无批判地报告有缺陷结果
把错误结果当作「已完成」上报。首个拿到满分的 Claude
3.7%
漏报重要事项
未能提出本应上报事件的频率。大幅降低。
10x+
过度自信的下降
毫无根据的过度自信较 4.7 降低 10 倍以上

此外,让自己代码中的缺陷悄悄蒙混过关的比率约为 4.7 的四分之一
它不再「假装能跑」——而这对于智能体运行而言是决定性的。

为什么这很重要?让 AI 智能体长时间自主运行的最大风险,是 「把失败报告成成功,然后在那个错误之上继续堆叠工作」。测试还在失败却说「修好了」;把不确定的猜测用笃定的口吻陈述——这类「过度自信」会从根本上侵蚀自动化的可靠性。Opus 4.8 现在能 自行标记其不确定性,从实务角度看,这比基准测试上的几个分点更有价值。就我个人而言,我认为这一点正是本次更新中最值得称道的地方。

9. 注意事项与退步(诚实地写)

我们看过了那些进步。但既然这是一篇赞扬「诚实」的文章,那我也要诚实——下面毫不掩饰地列出 4.8 中退步或值得警惕的点

注意事项具体内容如何应对
抗提示注入能力下降在 Gray Swan 的红队测试中,攻击成功率从 6.0%(4.7)升到 9.6%(4.8)对处理外部输入的智能体,加强输入清洗与权限隔离。重新审视你的权限设计
GPQA Diamond 略有下降94.2% → 93.6%(−0.6)。在纯科学知识测验上,4.7 略占上风在误差范围内。若你在意,就在自己的真实任务上做 A/B 测试
多语言并非领先多语言任务 不及 Gemini 3.1 Pro / GPT-5.5若多语言是你的主战场,可考虑与其他模型搭配/对比
dynamic workflows 仍是研究预览行为可能会变化。把关键生产工作完全押在它上面为时尚早先在非关键工作上验证,再考虑采用

尤其是 抗提示注入能力的下降不容忽视。攻击成功率上升约 1.6 倍,意味着对于 读取外部输入(网页、邮件、用户帖子)并自主行动的智能体,仅仅迁移到 4.8 就可能在某些场景下让它们在安全性上相对变弱。变聪明并不意味着在安全性的每一个维度上都胜过 4.7——请正确理解这种不对称性。

10. 谁应该现在就升级

那么,你现在就该切换到 claude-opus-4-8 吗?我们按类型来拆解。

✅ 现在就升级

  • 编程/智能体运行是你的主要用途
  • 你想把长时间的自主任务交出去
  • 你大量使用 fast mode(现在便宜 3 倍)
  • 你处理庞大代码库/长上下文
  • 「过度自信的误报告」在你的场景中会是致命的

⚠ 谨慎考虑

  • 处理外部输入的公开智能体(抗注入能力下降)
  • 多语言处理是你的主战场(其他模型可能领先)
  • 纯科学问答是核心(GPQA 略降)
  • 把 dynamic workflows 直接投入关键生产

由于切换成本本身近乎为零(只需更改模型 ID;标准价格保持不变),稳妥之道是 先在非关键环境中切换到 claude-opus-4-8,并在自己的任务上实测。从 4.7 迁移的具体步骤,可直接沿用 Opus 4.7 迁移指南中的思路。与 GPT-5.5 等的对比,请参阅 GPT-5.5 vs Claude Opus 对比

总结

Claude Opus 4.8(2026 年 5 月 28 日发布,claude-opus-4-8)是一款 在价格与上下文保持不变的同时强化了实质内容的旗舰。编程稳步提升(SWE-bench Pro +4.9);数学(USAMO 96.7%)与长上下文追踪(GraphWalks 68.1%)大幅改善。fast mode 变得约快 2.5 倍、实际价格只有三分之一,而那些实用功能——effort 参数、dynamic workflows,以及 Messages API 中的 system 条目——也都一并到来。

但本质并不在数字上。无批判蒙混过关率为 0%,过度自信下降超过 10 倍——这次以「诚实」先于「聪明」的发布,为长时间自主运行 AI 的时代指明了正确的方向。与此同时,抗提示注入能力反而退步了;它并非在每一个维度上都胜过旧模型。正因如此——也恰好契合这款模型本身的美德——最聪明的相处方式,是 不要过度自信,先在自己的任务上实测再下判断

相关阅读:Claude Opus 4.7 发布解读Opus 4.7 迁移指南Opus / Sonnet / Haiku 价格对比GPT-5.5 vs Claude Opus 对比,以及 什么是 Claude Agent SDK

FAQ

Q. 从 Opus 4.7 迁移到 4.8 难吗?
A. 几乎不费什么力气。只需把 API 模型 ID 改成 claude-opus-4-8;标准价格和上下文窗口(1M tokens)都保持不变。默认的 effort=HIGH 与 4.7 默认使用大致相同的 token 量,只有性能在上升,因此无需更改配置就能受益。只是对处理外部输入的智能体,要留意抗注入能力的下降(见下文)。

Q. fast mode「便宜 3 倍」是什么意思?
A. 意思是 fast mode 的价格(输入 $10 / 输出 $50,每 1M tokens)实际上是上一代模型 fast mode 的三分之一。速度约为标准的 2.5 倍。「想要速度但 fast mode 偏贵」的两难大为缓解,使其在对话式 UI 和批量处理中更易于使用。

Q. dynamic workflows 谁都能用吗?
A. 它处于 研究预览阶段,可从 Claude Code(CLI、桌面端、VS Code 扩展)使用。提供范围是 Max、Team 与 Enterprise 套餐(由管理员启用),以及通过 API、Bedrock、Vertex 和 Foundry。出于安全考虑,首次触发需要明确确认。其行为可能会变化,因此最稳妥的做法是先在非关键工作上试用。

Q. 4.8 在各方面都比 4.7 更好吗?
A. 不是。GPQA Diamond 略有下降(94.2% → 93.6%),多语言任务不及 Gemini 3.1 Pro / GPT-5.5,而且 抗提示注入能力反而变差了(攻击成功率 6.0% → 9.6%)。它在编程、数学、长上下文与诚实方面明显领先,但对某些用途而言,4.7 或其他模型可能更合适。

Q. 「诚实」提高了,具体有什么好处?
A. 在自主运行 AI 智能体时,最大的风险是 「把失败误报为成功,并在其之上堆叠工作」。由于 4.8 把无批判地报告有缺陷结果降到了 0%,并把过度自信削减了超过 10 倍,它会 不再「假装能跑」,在不确定时就说自己不确定。对于长时间的自动化、CI 与代码审查,可靠性会在实务层面得到提升。