目录
2026 年 5 月 28 日,Anthropic 发布了 Claude Opus 4.8——距离前一代 Opus 4.7 还不到两个月,升级节奏明显在加快。但这次的主角,并不是基准测试上几个百分点的提升。Anthropic 自己最先强调的是 「更敏锐的判断力、对自身进展更加诚实,以及比前代能够更长时间地自主工作」。在「变聪明了」之前先打出 「变诚实了」的发布,并不多见。
先说结论:编程稳步增强(SWE-bench Pro 64.3%→69.2%),数学大幅跃升(USAMO 2026 从 69.3% 到 96.7%),长上下文追踪能力几乎翻倍(GraphWalks 在 1M tokens 下 40.3%→68.1%)。此外 fast mode 约快 2.5 倍、实际价格只有三分之一,并且一次性带来了三项面向开发者的实用功能:effort 参数、dynamic workflows,以及 Messages API 中的 system 条目。与此同时,并非一切都变好了——抗提示注入能力反而退步了。本文将基于 Anthropic 的官方公告与系统卡(system card),把数字、新功能与注意事项逐一拆解。
一图看懂 Claude Opus 4.8
— 比起单纯变聪明,更把「诚实」摆在台前的旗舰
(4.7 为 64.3%)
(4.7 为 69.3%)
$10 / $50 per Mtok
降至十分之一以下
标准价格 与 4.7 持平($5 / $25 per Mtok),上下文 维持 1M tokens。
模型 ID 为 claude-opus-4-8,在 Claude API、Bedrock、Vertex AI 与 Microsoft Foundry 首日上线。
* 本文数值基于 Anthropic 的官方公告、模型页面、系统卡,以及多家技术媒体的报道(截至 2026 年 5 月 28 日)。随着后续验证的进行,可能会有更新。
1. 三句话看懂 Opus 4.8
给忙碌的读者,先把要点说清楚。
- 性能:编程稳步增强;数学(USAMO)与长上下文追踪(GraphWalks)大幅提升。另一方面,GPQA Diamond 略有下滑,多语言任务则不及 Gemini 3.1 Pro / GPT-5.5。
- 价格:标准价格与 4.7 持平。最大的经济影响在于 fast mode 约快 2.5 倍、实际价格只有三分之一。
- 理念:「更诚实」先于「更聪明」。它是 首个在无批判地报告有缺陷结果上拿到 0% 的 Claude,过度自信较 4.7 降低 10 倍。新增的 dynamic workflows 与 effort 参数支撑更长时间的自主工作。
2. 核心规格与提供形态
先从不变的事实说起:Opus 4.8 的规格,以及你能在哪里用它。
| 项目 | 内容 |
|---|---|
| 发布日期 | 2026 年 5 月 28 日(距 4.7 约 2 个月) |
| API 模型 ID | claude-opus-4-8 |
| 上下文窗口 | 1,000,000 tokens(与 4.7 相同) |
| 最大输出 | 每次响应 128,000 tokens |
| 标准价格 | 输入 $5 / 输出 $25(每 1M tokens,与 4.7 同价) |
| 成本削减 | 使用提示缓存最高省 90%,批处理省 50% |
| fast mode 价格 | 输入 $10 / 输出 $50(每 1M tokens,约快 2.5 倍) |
| 提供渠道 | Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry(首日上线) |
关键在于 「价格和上下文都保持不变,只有实质内容变强了」。如果你正在用 4.7,只需把模型 ID 换成 claude-opus-4-8,就能在不增加成本的情况下获得性能提升(迁移注意事项见第 9 章)。只需留意,仅限美国境内推理会有 1.1 倍的价格乘数。
3. 基准测试正面对比(4.8 vs 4.7)
规格看过了。那么实际能力到底提升了多少?这里把已公开的主要基准测试与 4.7 并列。加粗的是提升幅度最大的项目。
| 基准测试 | Claude Opus 4.8 | Claude Opus 4.7 | 差值 |
|---|---|---|---|
| SWE-bench Verified(真实代码修复) | 88.6% | 87.6% | +1.0 |
| SWE-bench Pro(高难度编程) | 69.2% | 64.3% | +4.9 |
| SWE-bench Multilingual | 84.4% | 80.5% | +3.9 |
| USAMO 2026(数学奥林匹克) | 96.7% | 69.3% | +27.4 |
| GraphWalks(1M-token 长上下文,F1) | 68.1% | 40.3% | +27.8 |
| GPQA Diamond(研究生级科学) | 93.6% | 94.2% | −0.6 |
| Online-Mind2Web(浏览器操作) | 84% | — | — |
补充一下这张表的读法。SWE-bench Pro 的 +4.9 分看似不起眼却很重要:Pro 汇集了更贴近现实、更难的编程任务,因此这里的提升会直接转化为「在实际工作中卡住的时刻更少」。但真正抢眼的是 USAMO 与 GraphWalks 上 +27 分级别的跃升。
这两次跃升意味着什么
此外,CursorBench 在所有 effort 级别上都超越了历代 Opus,
Super-Agent 基准测试中它成为 唯一从头到尾完成每一个案例的模型,法务智能体基准测试则记录了 在全项通过标准上首次突破 10%。
话虽如此,并非一切都在上升。GPQA Diamond 从 94.2% 退步到了 93.6%。你可以说这在误差范围之内,但「纯科学知识测验」上 4.7 略占上风这个事实仍值得记住。更多内容见第 9 章。
4. 价格与 fast mode——便宜了 3 倍的高速版
性能的话题说了不少,但这次真正最戳钱包的,是 fast mode 的价格调整。标准价格与 4.7 完全持平,那就先把两者并列。
标准模式(保持不变)
- 输入:$5 / 1M tokens
- 输出:$25 / 1M tokens
- 提示缓存:最高省 90%
- 批处理:省 50%
→ 与 4.7 分毫不差。迁移成本为零。
fast mode(大幅调整)
- 输入:$10 / 1M tokens
- 输出:$50 / 1M tokens
- 速度:约为标准的 2.5 倍
- 价格是上一代高速版的 三分之一
→ 「快=贵」的定律被打破。在对话式 UI 与批量处理中很给力。
这比表面看上去的影响更大。过去「想要速度,但高速版偏贵」的两难,恰好出现在那些用例上——对话式 UI 响应、CI/CD 中的批量代码审查、智能体的多步执行——现在你可以同时兼得速度与价格。再叠加标准价格保持不变,这次的经济结论就是 「同样的预算,却更快、更聪明」。关于完整的价格图景,请参阅Claude Opus / Sonnet / Haiku 价格对比。
5. 新功能①:effort 参数与自适应思考
价格之后,是开发者直接接触到的功能。首先是 effort 参数。这是一个让你 分四个级别明确指定「思考得有多深」的旋钮。
分四个级别选择思考深度
关键在于:默认的 HIGH 与 4.7 默认使用大致相同的 token 量,只有性能在上升。
换句话说,即便什么都不设置,你也能以相同的成本得到更好的结果。
与 effort 相对应的是 自适应思考(adaptive thinking):模型会 根据任务的复杂度自动调节所用的算力。简单问题反应迅速,难题则自行深入。你用 effort 设定上限与策略,自适应思考来优化实际分配——这种两层设计实现了「不浪费思考 token,只在要紧处深入」。
6. 新功能②:dynamic workflows(研究预览)
这次最有野心的功能就是它。dynamic workflows 是一项可在 Claude Code(CLI、桌面端、VS Code 扩展)中使用的 研究预览功能,是一种把「大活儿」整体交给 Claude 的机制。
具体来说,Claude 会 自己编写编排脚本,并启动数十到数百个并行子智能体来并发攻克问题。它甚至会部署 对抗式验证智能体(adversarial verification agents)来批判性地核查结果,并 迭代直到收敛。它在主对话线程之外进行协调,其 状态可恢复(resumable),能撑住跨越多天的执行。
它擅长什么
预期的用例是 覆盖整个代码库的查 bug、大规模迁移、安全审计,以及关键验证任务——那种「需要一队人花上好几天」的工作。
提供条件:Max、Team 与 Enterprise 套餐(由管理员启用),以及通过 API、Bedrock、Vertex 和 Foundry。出于安全考虑,它 在首次触发时要求明确确认。作为研究预览,其行为可能会变化。
从定位上看,它是朝着 由模型自身当场设计并运行「多智能体并行编排」的一步——而这种编排你以前需要用 Claude Agent SDK 自行搭建。对于大型重构和横跨多处的调查,它无需人类逐步指挥就能自主推进的范围扩大了。
7. 新功能③:Messages API 中的 system 条目
一个不起眼但对开发者很受用的改动:Messages API 现在可以在 messages 数组中接受 system 条目了。
以前,系统提示(系统指令)只在对话开头放置一次。有了这项改动,你可以在对话进行途中插入系统指令——并且 无需打破提示缓存,也不需要插入一个用户回合。
// 示例:在工作流途中更新「权限、预算、环境」
messages: [
{ role: "system", content: "你是一个 CI 智能体。禁止任何破坏性操作。" },
{ role: "user", content: "更新依赖项" },
{ role: "assistant", content: "..." },
// 在运行途中更新策略(不打破缓存)
{ role: "system", content: "token 预算不足。使用 effort=low,只保留要点。" },
{ role: "user", content: "继续" }
]
这在 长时间、多步骤的智能体执行中会带来回报。在执行途中「动态切换策略」——收紧权限、传达 token 预算、更新环境上下文(你当前在哪个分支等)——现在都能在保持缓存效率的同时完成。这是一个与 dynamic workflows 这类长时自主运行很搭的设计。
8. 最大的进化是「诚实」——过度自信降至十分之一
这是我最想传达的部分。Opus 4.8 真正的差异化并不在基准测试的数字上——而在于 「对自身工作的诚实」。Anthropic 和测试者反复强调的,是 这个模型会主动标记自己的不确定性,更不容易做出没有依据的主张。
用数字看「诚实」
此外,让自己代码中的缺陷悄悄蒙混过关的比率约为 4.7 的四分之一。
它不再「假装能跑」——而这对于智能体运行而言是决定性的。
为什么这很重要?让 AI 智能体长时间自主运行的最大风险,是 「把失败报告成成功,然后在那个错误之上继续堆叠工作」。测试还在失败却说「修好了」;把不确定的猜测用笃定的口吻陈述——这类「过度自信」会从根本上侵蚀自动化的可靠性。Opus 4.8 现在能 自行标记其不确定性,从实务角度看,这比基准测试上的几个分点更有价值。就我个人而言,我认为这一点正是本次更新中最值得称道的地方。
9. 注意事项与退步(诚实地写)
我们看过了那些进步。但既然这是一篇赞扬「诚实」的文章,那我也要诚实——下面毫不掩饰地列出 4.8 中退步或值得警惕的点。
| 注意事项 | 具体内容 | 如何应对 |
|---|---|---|
| 抗提示注入能力下降 | 在 Gray Swan 的红队测试中,攻击成功率从 6.0%(4.7)升到 9.6%(4.8) | 对处理外部输入的智能体,加强输入清洗与权限隔离。重新审视你的权限设计 |
| GPQA Diamond 略有下降 | 94.2% → 93.6%(−0.6)。在纯科学知识测验上,4.7 略占上风 | 在误差范围内。若你在意,就在自己的真实任务上做 A/B 测试 |
| 多语言并非领先 | 多语言任务 不及 Gemini 3.1 Pro / GPT-5.5 | 若多语言是你的主战场,可考虑与其他模型搭配/对比 |
| dynamic workflows 仍是研究预览 | 行为可能会变化。把关键生产工作完全押在它上面为时尚早 | 先在非关键工作上验证,再考虑采用 |
尤其是 抗提示注入能力的下降不容忽视。攻击成功率上升约 1.6 倍,意味着对于 读取外部输入(网页、邮件、用户帖子)并自主行动的智能体,仅仅迁移到 4.8 就可能在某些场景下让它们在安全性上相对变弱。变聪明并不意味着在安全性的每一个维度上都胜过 4.7——请正确理解这种不对称性。
10. 谁应该现在就升级
那么,你现在就该切换到 claude-opus-4-8 吗?我们按类型来拆解。
✅ 现在就升级
- 编程/智能体运行是你的主要用途
- 你想把长时间的自主任务交出去
- 你大量使用 fast mode(现在便宜 3 倍)
- 你处理庞大代码库/长上下文
- 「过度自信的误报告」在你的场景中会是致命的
⚠ 谨慎考虑
- 处理外部输入的公开智能体(抗注入能力下降)
- 多语言处理是你的主战场(其他模型可能领先)
- 纯科学问答是核心(GPQA 略降)
- 把 dynamic workflows 直接投入关键生产
由于切换成本本身近乎为零(只需更改模型 ID;标准价格保持不变),稳妥之道是 先在非关键环境中切换到 claude-opus-4-8,并在自己的任务上实测。从 4.7 迁移的具体步骤,可直接沿用 Opus 4.7 迁移指南中的思路。与 GPT-5.5 等的对比,请参阅 GPT-5.5 vs Claude Opus 对比。
总结
Claude Opus 4.8(2026 年 5 月 28 日发布,claude-opus-4-8)是一款 在价格与上下文保持不变的同时强化了实质内容的旗舰。编程稳步提升(SWE-bench Pro +4.9);数学(USAMO 96.7%)与长上下文追踪(GraphWalks 68.1%)大幅改善。fast mode 变得约快 2.5 倍、实际价格只有三分之一,而那些实用功能——effort 参数、dynamic workflows,以及 Messages API 中的 system 条目——也都一并到来。
但本质并不在数字上。无批判蒙混过关率为 0%,过度自信下降超过 10 倍——这次以「诚实」先于「聪明」的发布,为长时间自主运行 AI 的时代指明了正确的方向。与此同时,抗提示注入能力反而退步了;它并非在每一个维度上都胜过旧模型。正因如此——也恰好契合这款模型本身的美德——最聪明的相处方式,是 不要过度自信,先在自己的任务上实测再下判断。
相关阅读:Claude Opus 4.7 发布解读、Opus 4.7 迁移指南、Opus / Sonnet / Haiku 价格对比、GPT-5.5 vs Claude Opus 对比,以及 什么是 Claude Agent SDK。
FAQ
Q. 从 Opus 4.7 迁移到 4.8 难吗?
A. 几乎不费什么力气。只需把 API 模型 ID 改成 claude-opus-4-8;标准价格和上下文窗口(1M tokens)都保持不变。默认的 effort=HIGH 与 4.7 默认使用大致相同的 token 量,只有性能在上升,因此无需更改配置就能受益。只是对处理外部输入的智能体,要留意抗注入能力的下降(见下文)。
Q. fast mode「便宜 3 倍」是什么意思?
A. 意思是 fast mode 的价格(输入 $10 / 输出 $50,每 1M tokens)实际上是上一代模型 fast mode 的三分之一。速度约为标准的 2.5 倍。「想要速度但 fast mode 偏贵」的两难大为缓解,使其在对话式 UI 和批量处理中更易于使用。
Q. dynamic workflows 谁都能用吗?
A. 它处于 研究预览阶段,可从 Claude Code(CLI、桌面端、VS Code 扩展)使用。提供范围是 Max、Team 与 Enterprise 套餐(由管理员启用),以及通过 API、Bedrock、Vertex 和 Foundry。出于安全考虑,首次触发需要明确确认。其行为可能会变化,因此最稳妥的做法是先在非关键工作上试用。
Q. 4.8 在各方面都比 4.7 更好吗?
A. 不是。GPQA Diamond 略有下降(94.2% → 93.6%),多语言任务不及 Gemini 3.1 Pro / GPT-5.5,而且 抗提示注入能力反而变差了(攻击成功率 6.0% → 9.6%)。它在编程、数学、长上下文与诚实方面明显领先,但对某些用途而言,4.7 或其他模型可能更合适。
Q. 「诚实」提高了,具体有什么好处?
A. 在自主运行 AI 智能体时,最大的风险是 「把失败误报为成功,并在其之上堆叠工作」。由于 4.8 把无批判地报告有缺陷结果降到了 0%,并把过度自信削减了超过 10 倍,它会 不再「假装能跑」,在不确定时就说自己不确定。对于长时间的自动化、CI 与代码审查,可靠性会在实务层面得到提升。