2026年5月28日、Anthropic が Claude Opus 4.8 を公開した。前モデル Opus 4.7 からわずか2か月足らず——明らかにアップグレードの刻みが速くなっている。だが今回の主役は、ベンチマークの数パーセントの上積みではない。Anthropic 自身が真っ先に挙げたのは 「より鋭い判断力、自分の進捗についてより正直であること、そして前モデルより長く自律して働けること」だった。「賢くなった」より先に「正直になった」を掲げるリリースは珍しい。

結論から言う:コーディングは順当に強化(SWE-bench Pro 64.3%→69.2%)数学は劇的に跳ね上がり(USAMO 2026 で 69.3%→96.7%)長文脈の追跡力がほぼ倍(GraphWalks 1Mトークン 40.3%→68.1%)。さらに fast mode が約2.5倍速・実質3分の1の価格になり、effort パラメータ・dynamic workflows・Messages API の system エントリという開発者向けの実用機能が同時に来た。一方で プロンプトインジェクション耐性はむしろ低下するなど、手放しで褒められない点もある。本記事では公式発表とシステムカードに基づき、数字・新機能・注意点まで徹底的に解説する。

ANTHROPIC · 2026-05-28 RELEASE

Claude Opus 4.8 を一枚で

— 賢さの上積みより「正直さ」を前面に出したフラッグシップ

CODING
69.2%
SWE-bench Pro
(4.7 は 64.3%)
MATH
96.7%
USAMO 2026
(4.7 は 69.3%)
FAST MODE
3x 安く
約2.5倍速
$10 / $50 per Mtok
HONESTY
過信1/10
過信が4.7比で
10分の1以下に

標準価格は 4.7 と据え置き($5 / $25 per Mtok)、コンテキスト 1M トークンのまま。
モデルID は claude-opus-4-8、Claude API・Bedrock・Vertex AI・Microsoft Foundry で即日提供。

※本記事の数値は Anthropic の公式発表・モデルページ・システムカード、および複数の技術メディアの報道に基づく(2026年5月28日時点)。今後の追検証で更新される可能性がある。

1. 3行でわかる Opus 4.8

忙しい人向けに、まず要点だけ。

  • 性能:コーディングは着実に強化、数学(USAMO)と長文脈追跡(GraphWalks)は劇的に向上。一方で GPQA Diamond はわずかに低下し、多言語タスクは Gemini 3.1 Pro / GPT-5.5 に及ばない。
  • 価格:標準は 4.7 と同額で据え置き。fast mode が約2.5倍速・実質3分の1の価格になったのが最大の経済的インパクト。
  • 哲学:「より賢く」より「より正直に」。欠陥のあるコードを無批判に通す率が 0%(Claude 初)、過信は 4.7 比で10分の1以下。長時間の自律作業を支える dynamic workflowseffort パラメータが新登場。

2. 基本スペックと提供形態

まず動かない事実から押さえる。Opus 4.8 のスペックと、どこで使えるかだ。

項目内容
リリース日2026年5月28日(4.7 から約2か月)
API モデルIDclaude-opus-4-8
コンテキスト窓1,000,000 トークン(4.7 と同じ)
最大出力1応答あたり 128,000 トークン
標準価格入力 $5 / 出力 $25(per 100万トークン、4.7 と同額)
コスト削減プロンプトキャッシュで最大90%、バッチ処理で50%オフ
fast mode 価格入力 $10 / 出力 $50(per 100万トークン、約2.5倍速)
提供先Claude API・Amazon Bedrock・Google Cloud Vertex AI・Microsoft Foundry(即日)

ポイントは 「価格もコンテキストも据え置きで、中身だけ強くなった」こと。4.7 を使っているなら、モデルID を claude-opus-4-8 に差し替えるだけで、追加コストなしに性能向上を得られる構図だ(移行の注意点は第9章で後述)。なお米国内推論限定では 1.1倍の価格乗数がかかる点だけ覚えておきたい。

3. ベンチマーク徹底比較(4.8 vs 4.7)

前章でスペックを見た。では実力はどれだけ伸びたのか。公開されている主要ベンチマークを 4.7 と並べる。太字が改善幅の大きいものだ。

ベンチマークClaude Opus 4.8Claude Opus 4.7差分
SWE-bench Verified(実コード修正)88.6%87.6%+1.0
SWE-bench Pro(難度高コーディング)69.2%64.3%+4.9
SWE-bench Multilingual84.4%80.5%+3.9
USAMO 2026(数学オリンピック)96.7%69.3%+27.4
GraphWalks(1Mトークン長文脈 F1)68.1%40.3%+27.8
GPQA Diamond(大学院級科学)93.6%94.2%−0.6
Online-Mind2Web(ブラウザ操作)84%

表の読み方を補足する。SWE-bench Pro の +4.9 ポイントは地味に見えて重要だ。Pro はより現実的で難しいコーディング課題を集めたもので、ここが伸びると「実務で詰まる場面が減る」体感に直結する。だが本当に目を引くのは USAMO と GraphWalks の +27 ポイント級の跳躍だ。

BIGGEST JUMPS

2つの跳躍が意味すること

USAMO 2026 · 69.3% → 96.7%
米国数学オリンピックの難問で、ほぼ満点級へ。多段の厳密な証明を最後まで崩さず詰める力が大幅に向上した証拠。複雑なアルゴリズム設計や形式的推論で効く。
GraphWalks 1M · 40.3% → 68.1%
100万トークンの超長文脈で「どこに何が書かれていたか」を正しく辿る力がほぼ倍に。巨大コードベースや長い仕様書を丸ごと読ませる使い方の信頼性が上がった。

加えて CursorBench は全 effort レベルで歴代 Opus を上回り
Super-Agent ベンチでは 全ケースを最後まで完遂した唯一のモデル、法務エージェント評価では 全項目パス基準で初の10%超えを記録した。

もっとも、すべてが上がったわけではない。GPQA Diamond は 94.2% → 93.6% とわずかに後退している。誤差の範囲とも言えるが、「純粋な科学知識クイズ」では 4.7 がわずかに上、という事実は押さえておきたい。詳しくは第9章で。

4. 価格と fast mode——3倍安くなった高速版

性能の話が続いたが、実は今回いちばん財布に効くのは fast mode の価格改定だ。標準価格は 4.7 と完全据え置きなので、まず両者を並べる。

標準モード(据え置き)

  • 入力:$5 / 100万トークン
  • 出力:$25 / 100万トークン
  • プロンプトキャッシュ:最大 90% オフ
  • バッチ処理:50% オフ

→ 4.7 と1セントも変わらない。乗り換えコストはゼロ。

fast mode(大幅改定)

  • 入力:$10 / 100万トークン
  • 出力:$50 / 100万トークン
  • 速度:標準の 約2.5倍
  • 従来の高速版より 実質3分の1の価格

→ 「速い=高い」の常識が崩れた。対話型UIや大量処理で効く。

これは見かけ以上に大きい。これまで「速度が欲しいが高速版は割高」というジレンマがあった用途——チャットUIの応答、CI/CDでの大量コードレビュー、エージェントの多数ステップ実行——で、速度と価格を両立できるようになった。標準モードの据え置きと合わせ、「同じ予算で、より速く・より賢く」が今回の経済的な結論だ。なお価格比較の全体像はClaude Opus / Sonnet / Haiku 料金比較も参照してほしい。

5. 新機能①:effort パラメータと適応的思考

価格の次は、開発者が直接触れる新機能だ。まず effort(努力度)パラメータ。これは 「どれだけ深く考えるか」を4段階で明示的に指定できるノブだ。

EFFORT PARAMETER

考える深さを4段階で選ぶ

LOW · 速さ優先
最速で返答し、レート制限の消費も少ない。単純な分類・抽出・短い返信に。
HIGH · 既定(推奨)
Anthropic 推奨のバランス点。4.7 既定とほぼ同じトークン量でより高性能。迷ったらこれ。
XHIGH · 難題・非同期向け
難しいタスクや非同期ワークフローで推奨。じっくり考えさせたいとき。
MAX · 品質最優先
トークン深度を最大化。コストより品質の重要案件に。

ミソは 「既定の HIGH が 4.7 の既定とほぼ同じトークン量で、性能だけ上がっている」こと。
つまり何も指定しなくても、同じコストでより良い結果が返る。

effort と対になるのが 適応的思考(adaptive thinking)だ。これはモデルが タスクの複雑さに応じて、使う計算量を自動で調整する仕組み。単純な質問には素早く、難しい問題には自ら深く考える。effort で上限・方針を決め、適応的思考が実際の配分を最適化する——この2段構えで「無駄な思考トークンを使わず、必要なところだけ深く」を実現している。

6. 新機能②:dynamic workflows(研究プレビュー)

今回いちばん野心的な機能がこれだ。dynamic workflowsは、Claude Code(CLI・デスクトップ・VS Code 拡張)で使える 研究プレビュー機能で、Claude に「大きな仕事を丸ごと任せる」ための仕組みだ。

具体的には、Claude が オーケストレーション用のスクリプトを自分で書き、数十〜数百の並列サブエージェントを起動して問題に同時並行で当たる。さらに 敵対的検証エージェント(adversarial verification)を投入して結果を批判的にチェックし、収束するまで反復する。会話のメインスレッドの外で協調動作し、状態は再開可能(resumable)で、数日にまたがる実行にも耐える。

何に効くのか

想定ユースケースは コードベース全体のバグ狩り・大規模なマイグレーション・セキュリティ監査・重要な検証タスクなど、「人間なら何人かで何日もかかる」種類の作業だ。

提供条件:Max・Team・Enterprise(管理者が有効化)プラン、および API・Bedrock・Vertex・Foundry 経由。安全のため 初回トリガー時に明示的な確認が必要。研究プレビューのため挙動は今後変わり得る。

位置づけとしては、これまで Claude Agent SDK を使って自分で組んでいた「多数エージェントの並列オーケストレーション」を、モデル自身がその場で設計・実行する方向への一歩だ。大規模リファクタリングや横断的な調査で、人間が逐一指示しなくても自走する範囲が広がる。

7. 新機能③:Messages API の system エントリ

地味だが開発者には嬉しい変更。Messages API が、messages 配列の中に system エントリを受け付けるようになった

従来は system プロンプト(システム指示)は会話の冒頭に一度だけ置くのが基本だった。今回の変更で、会話の途中に system 指示を差し込める。しかも プロンプトキャッシュを壊さず、ユーザーのターンを挟む必要もない

// 長時間ワークフローの途中で「権限・予算・環境」を更新する例
messages: [
  { role: "system",    content: "あなたはCIエージェント。破壊的操作は禁止。" },
  { role: "user",      content: "依存関係を更新して" },
  { role: "assistant", content: "..." },
  // ↓ 途中で方針を更新(cacheを壊さない)
  { role: "system",    content: "残りトークン予算は少ない。effort=low で要点のみ。" },
  { role: "user",      content: "続けて" }
]

これが効くのは 長時間・多ステップのエージェント実行だ。実行中に 権限を絞る・トークン予算を伝える・環境コンテキスト(今どのブランチか等)を更新するといった「方針の動的な差し替え」が、キャッシュ効率を保ったままできる。dynamic workflows のような長丁場の自律実行と相性が良い設計だ。

8. 最大の進化は「正直さ」——過信が10分の1に

ここが本記事で最も伝えたい部分だ。Opus 4.8 の真の差別化は、ベンチマークの数字ではなく 「自分の仕事に対する正直さ」にある。Anthropic とテスターが繰り返し強調したのは、このモデルは自分の不確かさを進んで申告し、根拠のない主張をしにくくなったという点だ。

HONESTY METRICS

「正直さ」を数字で見る

0%
欠陥結果の無批判報告
誤った結果をそのまま「できました」と報告する率。Claude 初の満点
3.7%
重要事項の見落とし率
報告すべき重要イベントを挙げ損ねる頻度。大幅に低下。
1/10+
過信の低減幅
根拠なき自信過剰が 4.7 比で10分の1以下に。

さらに、書いたコードの欠陥を指摘せず通してしまう率は 4.7 比で約4分の1
「とりあえず動いたフリ」をしなくなった——これはエージェント運用で決定的に効く。

なぜこれが重要か。AI エージェントを長時間自走させる最大のリスクは、「失敗しているのに成功したと報告し、その誤りの上に作業を積み上げてしまう」ことだ。テストが落ちているのに「直りました」と言う、不確かな推測を断定口調で述べる——こうした「過信」は、自動化の信頼性を根本から壊す。Opus 4.8 が 不確かさを自分から申告するようになったことは、ベンチマーク数パーセントより実務的に価値が大きい。個人的には、今回のアップデートで最も評価すべきはこの一点だと思う。

9. 注意点と退行(正直に書く)

ここまで強化点を見てきた。だが「正直さ」を称える記事である以上、こちらも正直に——4.8 で後退した・注意すべき点を隠さず書く。

注意点具体的な内容どう対処するか
プロンプトインジェクション耐性の低下Gray Swan のレッドチーミングで攻撃成功率が 6.0%(4.7)→ 9.6%(4.8)に悪化外部入力を扱うエージェントは入力サニタイズ・権限分離を強化。権限設計を見直す
GPQA Diamond の微減94.2% → 93.6%(−0.6)。純粋な科学知識クイズでは 4.7 がわずかに上誤差範囲。気になる用途では実タスクで A/B 比較を
多言語タスクで首位ではない多言語タスクは Gemini 3.1 Pro / GPT-5.5 に及ばない多言語が主戦場なら他モデルとの併用・比較を検討
dynamic workflows は研究プレビュー挙動が今後変わり得る。本番の重要処理に全面依存は時期尚早まず非クリティカルな作業で検証してから導入

とくに プロンプトインジェクション耐性の低下は見逃せない。攻撃成功率が約1.6倍に上がったということは、外部からの入力(Webページ・メール・ユーザー投稿)を読んで自律的に動くエージェントでは、4.8 にしただけでセキュリティが相対的に弱くなる場面があるということだ。賢くなったからといって、安全性のあらゆる軸で 4.7 を上回るわけではない——この非対称性は正しく理解しておきたい。

10. 誰が今すぐ移行すべきか

では、あなたは今すぐ claude-opus-4-8 に乗り換えるべきか。タイプ別に整理する。

✅ 今すぐ移行を推奨

  • コーディング・エージェント運用が主用途
  • 長時間の自律タスクを任せたい
  • fast mode を多用している(3倍安くなる)
  • 巨大コードベース/長文脈を扱う
  • 「過信して誤報告する」のが致命的な現場

⚠ 慎重に検討

  • 外部入力を扱う公開エージェント(注入耐性低下)
  • 多言語処理が主戦場(他モデルが上の場合あり)
  • 純粋な科学QAが中心(GPQA 微減)
  • 本番重要処理に dynamic workflows を即全面投入

移行コスト自体はほぼゼロ(モデルID を変えるだけ・標準価格据え置き)なので、まずは非クリティカルな環境で claude-opus-4-8 に切り替え、自分のタスクで実測するのが王道だ。4.7 からの具体的な移行手順は Opus 4.7 移行ガイドの考え方がそのまま流用できる。GPT-5.5 等との比較は GPT-5.5 vs Claude Opus 比較も参考にしてほしい。

まとめ

Claude Opus 4.8(2026年5月28日リリース、claude-opus-4-8)は、価格・コンテキストを据え置いたまま中身を強化したフラッグシップだ。コーディングは着実に(SWE-bench Pro +4.9)、数学(USAMO 96.7%)と長文脈追跡(GraphWalks 68.1%)は劇的に向上。fast mode は約2.5倍速・実質3分の1の価格になり、effort パラメータ・dynamic workflows・Messages API の system エントリという実用機能が揃った。

だが本質は数字ではない。欠陥を無批判に通す率 0%、過信は10分の1以下——「賢さ」より「正直さ」を前面に出したこのリリースは、AI を長時間自走させる時代の正しい方向を指している。一方で プロンプトインジェクション耐性はむしろ低下しており、「あらゆる軸で旧モデルを上回る」わけではない。だからこそ——皮肉にも本モデルの美点に倣って——過信せず、自分のタスクで実測してから判断するのが、いちばん賢い付き合い方だ。

関連記事:Claude Opus 4.7 リリース解説Opus 4.7 移行ガイドOpus / Sonnet / Haiku 料金比較GPT-5.5 vs Claude Opus 比較Claude Agent SDK とは も併読を。

FAQ

Q. Opus 4.7 から 4.8 への移行は大変ですか?
A. ほぼ何もいりません。API モデルID を claude-opus-4-8 に変えるだけで、標準価格もコンテキスト窓(1Mトークン)も据え置きです。既定の effort=HIGH は 4.7 既定とほぼ同じトークン量で性能だけ上がるため、設定変更なしで恩恵を受けられます。ただし外部入力を扱うエージェントは、注入耐性の低下(後述)に注意してください。

Q. fast mode が「3倍安い」とはどういう意味ですか?
A. fast mode の価格(入力 $10 / 出力 $50 per 100万トークン)が、従来モデルの高速版に比べて実質3分の1になった、という意味です。速度は標準の約2.5倍。「速さは欲しいが高速版は割高」というジレンマが大きく緩和され、対話UIや大量バッチ処理で使いやすくなりました。

Q. dynamic workflows は誰でも使えますか?
A. 研究プレビュー段階で、Claude Code(CLI・デスクトップ・VS Code 拡張)から使えます。提供は Max・Team・Enterprise(管理者が有効化)プランと API・Bedrock・Vertex・Foundry 経由。安全のため初回は明示的な確認が必要です。挙動は今後変わり得るので、まず非クリティカルな作業で試すのが安全です。

Q. 4.8 はすべての面で 4.7 より優れていますか?
A. いいえ。GPQA Diamond はわずかに低下(94.2%→93.6%)、多言語タスクは Gemini 3.1 Pro / GPT-5.5 に及ばず、そして プロンプトインジェクション耐性はむしろ悪化(攻撃成功率 6.0%→9.6%)しています。コーディング・数学・長文脈・正直さでは明確に上ですが、用途によっては 4.7 や他モデルが適する場面もあります。

Q. 「正直さ」が上がると、具体的に何が嬉しいのですか?
A. AI エージェントを自走させる際、「失敗を成功と誤報告し、その上に作業を積む」のが最大のリスクです。4.8 は欠陥結果を無批判に報告する率が 0%、過信が10分の1以下になったため、「動いたフリ」をせず、不確かなら不確かと言うようになりました。長時間の自動化・CI・コードレビューで、信頼性が実務レベルで向上します。