Содержание
- 1. Opus 4.8 в трёх строчках
- 2. Базовые характеристики и доступность
- 3. Бенчмарки лицом к лицу (4.8 против 4.7)
- 4. Цены и быстрый режим — скорость в 3 раза дешевле
- 5. Новая функция №1: параметр effort и адаптивное мышление
- 6. Новая функция №2: динамические рабочие процессы (research preview)
- 7. Новая функция №3: записи system в Messages API
- 8. Главный скачок — честность: излишней самоуверенности в 10 раз меньше
- 9. Оговорки и регрессии (честно)
- 10. Кому стоит обновиться прямо сейчас
- Итог
- FAQ
28 мая 2026 года Anthropic выпустила Claude Opus 4.8 — всего через два месяца после Opus 4.7. Темп обновлений явно ускоряется. Но главный заголовок на этот раз — не пара процентных пунктов на бенчмарке. Первое, что подчеркнула сама Anthropic, — это «более точные суждения, бо́льшая честность относительно собственного прогресса и способность работать самостоятельно дольше, чем предшественники». Релиз, который ставит во главу угла «он стал честнее» прежде «он стал умнее», — это необычно.
Вот суть: кодинг уверенно улучшился (SWE-bench Pro 64.3% → 69.2%), математика резко выросла (USAMO 2026 с 69.3% до 96.7%), а отслеживание длинного контекста почти удвоилось (GraphWalks на 1M tokens 40.3% → 68.1%). Вдобавок быстрый режим стал примерно в 2.5 раза быстрее и фактически втрое дешевле, и одновременно вышли три функции для разработчиков: параметр effort, динамические рабочие процессы и записи system в Messages API. При этом улучшилось не всё — устойчивость к prompt-инъекциям фактически ухудшилась. В этой статье мы разбираем цифры, новые функции и оговорки на основе официального анонса Anthropic и system card.
Claude Opus 4.8 с первого взгляда
— флагман, который ставит «честность» выше чистого интеллекта
(у 4.7 было 64.3%)
(у 4.7 было 69.3%)
$10 / $50 за Mtok
чем у Opus 4.7
Стандартные цены сохранены на уровне 4.7 ($5 / $25 за Mtok), контекст остаётся 1M tokens.
ID модели — claude-opus-4-8, доступна с первого дня в Claude API, Bedrock, Vertex AI и Microsoft Foundry.
* Данные в этой статье основаны на официальном анонсе Anthropic, странице модели и system card, а также на материалах нескольких технических изданий (по состоянию на 28 мая 2026 года). Они могут быть уточнены по мере появления дополнительной проверки.
1. Opus 4.8 в трёх строчках
Для занятого читателя — сначала самое главное.
- Производительность: кодинг стабильно сильнее; математика (USAMO) и отслеживание длинного контекста (GraphWalks) улучшаются резко. С другой стороны, GPQA Diamond немного просел, а многоязычные задачи отстают от Gemini 3.1 Pro / GPT-5.5.
- Цены: стандартный режим сохранён на уровне 4.7. Самый большой экономический эффект в том, что быстрый режим стал ~в 2.5 раза быстрее и фактически втрое дешевле.
- Философия: «честнее» прежде «умнее». Это первый Claude, набравший 0% по некритичному воспроизведению ошибочных результатов, а излишней самоуверенности в 10 раз меньше, чем у 4.7. Новые динамические рабочие процессы и параметр effort поддерживают более длительную автономную работу.
2. Базовые характеристики и доступность
Начнём с непреложных фактов: характеристики Opus 4.8 и где её можно использовать.
| Пункт | Детали |
|---|---|
| Дата релиза | 28 мая 2026 года (примерно через 2 месяца после 4.7) |
| ID модели в API | claude-opus-4-8 |
| Окно контекста | 1 000 000 tokens (как у 4.7) |
| Максимальный вывод | 128 000 tokens на ответ |
| Стандартные цены | $5 за ввод / $25 за вывод (за 1M tokens, как у 4.7) |
| Снижение стоимости | До 90% с кэшированием промптов, 50% при пакетной обработке |
| Цены быстрого режима | $10 за ввод / $50 за вывод (за 1M tokens, ~в 2.5 раза быстрее) |
| Доступность | Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry (с первого дня) |
Ключевой момент в том, что цена и контекст сохранены без изменений, а сильнее стало только содержание. Если вы на 4.7, замена ID модели на claude-opus-4-8 даёт прирост производительности без дополнительных затрат (оговорки по миграции — в разделе 9). Просто учтите, что инференс только в США сопровождается множителем цены 1.1x.
3. Бенчмарки лицом к лицу (4.8 против 4.7)
Характеристики мы посмотрели. Так насколько же выросли реальные способности? Вот основные опубликованные бенчмарки в сравнении с 4.7. Жирным отмечены самые большие приросты.
| Бенчмарк | Claude Opus 4.8 | Claude Opus 4.7 | Дельта |
|---|---|---|---|
| SWE-bench Verified (реальные исправления кода) | 88.6% | 87.6% | +1.0 |
| SWE-bench Pro (сложный кодинг) | 69.2% | 64.3% | +4.9 |
| SWE-bench Multilingual | 84.4% | 80.5% | +3.9 |
| USAMO 2026 (математическая олимпиада) | 96.7% | 69.3% | +27.4 |
| GraphWalks (длинный контекст 1M-token, F1) | 68.1% | 40.3% | +27.8 |
| GPQA Diamond (наука уровня аспирантуры) | 93.6% | 94.2% | −0.6 |
| Online-Mind2Web (работа в браузере) | 84% | — | — |
Несколько слов о том, как читать таблицу. +4.9 пункта на SWE-bench Pro выглядят скромно, но это важно: Pro собирает более реалистичные и сложные задачи кодинга, поэтому прирост здесь напрямую означает «меньше моментов, где вы застреваете в реальной работе». Но что действительно бросается в глаза — это скачки на +27 пунктов на USAMO и GraphWalks.
Что означают эти два скачка
Вдобавок CursorBench превосходит все прежние версии Opus на всех уровнях effort,
в бенчмарке Super-Agent она стала единственной моделью, прошедшей все кейсы от начала до конца, а в бенчмарке Legal Agent зафиксирован первый результат выше 10% по стандарту «всё пройдено».
Тем не менее выросло не всё. GPQA Diamond просел с 94.2% до 93.6%. Можно сказать, что это в пределах погрешности, но факт, что 4.7 немного впереди в «чистых викторинах на научные знания», стоит держать в уме. Подробнее в разделе 9.
4. Цены и быстрый режим — скорость в 3 раза дешевле
Мы много говорили о производительности, но на этот раз сильнее всего по кошельку бьёт изменение цены быстрого режима. Стандартные цены полностью сохранены на уровне 4.7, так что давайте сопоставим оба варианта.
Стандартный режим (без изменений)
- Ввод: $5 / 1M tokens
- Вывод: $25 / 1M tokens
- Кэширование промптов: скидка до 90%
- Пакетная обработка: скидка 50%
→ Ни на цент не отличается от 4.7. Нулевая стоимость перехода.
Быстрый режим (большое изменение)
- Ввод: $10 / 1M tokens
- Вывод: $50 / 1M tokens
- Скорость: примерно в 2.5 раза выше стандартной
- Втрое дешевле прежнего быстрого режима
→ Правило «быстро = дорого» больше не действует. Отлично подходит для чат-интерфейсов и массовой обработки.
Это значимее, чем кажется. Дилемма «хочу скорости, но быстрый режим дорог» била именно по тем сценариям — ответы в чат-интерфейсах, массовое ревью кода в CI/CD, многошаговые запуски агентов, — где теперь можно получить и скорость, и цену. В сочетании с неизменными стандартными ценами экономический вывод на этот раз — «тот же бюджет, но быстрее и умнее». Полную картину цен смотрите в материале Сравнение цен Claude Opus / Sonnet / Haiku.
5. Новая функция №1: параметр effort и адаптивное мышление
После цен — функции, с которыми разработчики работают напрямую. Сначала параметр effort. Это регулятор, который позволяет явно задать, «насколько глубоко думать», по четырём уровням.
Выбор глубины мышления по четырём уровням
Суть: default HIGH использует примерно столько же tokens, сколько default 4.7, и растёт только производительность.
Иными словами, даже вообще без настроек вы получаете лучшие результаты при той же стоимости.
Дополнение к effort — это адаптивное мышление: модель автоматически регулирует объём вычислений в зависимости от сложности задачи. Быстро на простых вопросах, глубже по собственной инициативе на трудных. Вы задаёте потолок и политику через effort, а адаптивное мышление оптимизирует фактическое распределение — двухуровневая схема, обеспечивающая «никаких потраченных впустую tokens мышления, глубоко только там, где это важно».
6. Новая функция №2: динамические рабочие процессы (research preview)
Самая амбициозная функция на этот раз — именно эта. Динамические рабочие процессы — это функция в статусе research-preview, доступная в Claude Code (CLI, Desktop, расширение для VS Code), механизм передачи Claude «большой работы» целиком.
Конкретно, Claude сама пишет собственные оркестрационные скрипты и порождает от десятков до сотен параллельных субагентов, чтобы атаковать задачу одновременно. Она даже развёртывает состязательных проверяющих агентов, чтобы критически проверять результаты, и итерирует до схождения. Координация идёт вне основной ветки диалога, а её состояние возобновляемо и сохраняется в течение многодневного выполнения.
Для чего она хороша
Предполагаемые сценарии использования — поиск багов по всей кодовой базе, масштабные миграции, аудиты безопасности и критичные задачи проверки — работа из разряда той, что «заняла бы у команды людей несколько дней».
Доступность: планы Max, Team и Enterprise (включается администратором), а также через API, Bedrock, Vertex и Foundry. Ради безопасности она требует явного подтверждения при первом запуске. Как research preview, поведение может меняться.
По позиционированию это шаг к тому, чтобы сама модель проектировала и запускала на месте ту «параллельную оркестрацию множества агентов», которую раньше приходилось строить самостоятельно с помощью Claude Agent SDK. Для крупных рефакторингов и сквозных исследований расширяется диапазон того, что она может вести без пошагового руководства человека.
7. Новая функция №3: записи system в Messages API
Тонкое, но приятное для разработчиков изменение: теперь Messages API принимает записи system внутри массива messages.
Раньше системный промпт (системные инструкции) размещался один раз в начале диалога. С этим изменением можно внедрять системные инструкции посреди диалога — причём не ломая кэш промпта и не требуя хода пользователя.
// Пример: обновление «прав, бюджета, окружения» посреди рабочего процесса
messages: [
{ role: "system", content: "Ты CI-агент. Никаких разрушительных операций." },
{ role: "user", content: "Обнови зависимости" },
{ role: "assistant", content: "..." },
// Обновляем политику на ходу (не ломая кэш)
{ role: "system", content: "Бюджет tokens на исходе. Используй effort=low, только ключевые пункты." },
{ role: "user", content: "Продолжай" }
]
Это окупается в длинных многошаговых запусках агентов. «Динамическая смена политики» в середине выполнения — ужесточение прав, сигнал о бюджете tokens, обновление контекста окружения (на какой вы ветке и т. п.) — теперь работает с сохранением эффективности кэша. Это схема, которая хорошо сочетается с длительными автономными запусками вроде динамических рабочих процессов.
8. Главный скачок — честность: излишней самоуверенности в 10 раз меньше
Это та часть, которую я больше всего хочу донести. Истинное отличие Opus 4.8 — не цифры бенчмарков, а «честность относительно собственной работы». То, что Anthropic и тестировщики подчёркивали снова и снова, — это что модель проактивно сигнализирует о собственной неуверенности и реже делает необоснованные утверждения.
Честность в цифрах
Вдобавок частота пропуска без комментария недостатков в собственном коде составляет около четверти от уровня 4.7.
Она перестала «делать вид, что всё работает» — и это решающий фактор для работы агентов.
Почему это важно? Самый большой риск при долгой автономной работе ИИ-агента — это «отчитаться об ошибке как об успехе, а затем нагромождать новую работу поверх этой ошибки». Говорить «исправлено», пока тесты всё ещё падают; излагать неуверенные догадки уверенным тоном — такая «излишняя самоуверенность» подрывает надёжность автоматизации в самом корне. То, что Opus 4.8 теперь сама сигнализирует о неуверенности, на практике ценнее пары пунктов на бенчмарке. Лично я считаю, что именно этот момент — самое похвальное в данном обновлении.
9. Оговорки и регрессии (честно)
Мы посмотрели на приросты. Но раз уж это статья, восхваляющая «честность», я тоже буду честен — вот, без прикрас, пункты, которые в 4.8 регрессировали или требуют осторожности.
| Оговорка | Детали | Как с этим быть |
|---|---|---|
| Снижение устойчивости к prompt-инъекциям | В red-teaming от Gray Swan успешность атак выросла с 6.0% (4.7) до 9.6% (4.8) | Для агентов, обрабатывающих внешний ввод, усильте санитизацию входных данных и разделение привилегий. Пересмотрите свой дизайн прав доступа |
| Лёгкое снижение GPQA Diamond | 94.2% → 93.6% (−0.6). На чистых викторинах по научным знаниям 4.7 немного впереди | В пределах погрешности. Сделайте A/B-тест на своих реальных задачах, если это важно |
| Не лидер в многоязычности | Многоязычные задачи отстают от Gemini 3.1 Pro / GPT-5.5 | Если многоязычность — ваше поле боя, рассмотрите связку с другими моделями / сравнение с ними |
| Динамические рабочие процессы — это research preview | Поведение может меняться. Полностью полагаться на них в критичной продакшн-работе преждевременно | Проверьте на некритичной работе, прежде чем внедрять |
В особенности нельзя не заметить снижение устойчивости к prompt-инъекциям. Рост успешности атак примерно в 1.6 раза означает, что для агентов, которые читают внешний ввод (веб-страницы, почту, посты пользователей) и действуют автономно, простой переход на 4.8 в некоторых сценариях может сделать их относительно слабее по безопасности. То, что модель стала умнее, не означает, что она превосходит 4.7 по каждой оси безопасности — поймите эту асимметрию правильно.
10. Кому стоит обновиться прямо сейчас
Итак, стоит ли переходить на claude-opus-4-8 прямо сейчас? Разберём по типам.
✅ Обновляйтесь сейчас
- Кодинг / работа агентов — ваш основной сценарий
- Вы хотите делегировать длительные автономные задачи
- Вы активно используете быстрый режим (теперь втрое дешевле)
- Вы работаете с огромными кодовыми базами / длинными контекстами
- «Самоуверенная ложная отчётность» была бы фатальной в вашей среде
⚠ Взвесьте тщательно
- Публичные агенты, обрабатывающие внешний ввод (ниже устойчивость к инъекциям)
- Многоязычная обработка — ваше поле боя (другие могут лидировать)
- Центральное место занимает чистый научный QA (лёгкое снижение GPQA)
- Внедрение динамических рабочих процессов прямо в критичный продакшн
Поскольку сама стоимость перехода почти нулевая (просто меняете ID модели; стандартные цены сохранены), царский путь — сначала переключиться на claude-opus-4-8 в некритичной среде и замерить на своих задачах. Конкретные шаги миграции с 4.7 напрямую переносятся из соображений в руководстве по миграции на Opus 4.7. Для сравнения с GPT-5.5 и другими смотрите сравнение GPT-5.5 и Claude Opus.
Итог
Claude Opus 4.8 (выпущена 28 мая 2026 года, claude-opus-4-8) — это флагман, который усилил содержание, сохранив цену и контекст неизменными. Кодинг стабильно улучшился (SWE-bench Pro +4.9); математика (USAMO 96.7%) и отслеживание длинного контекста (GraphWalks 68.1%) улучшились резко. Быстрый режим стал ~в 2.5 раза быстрее и фактически втрое дешевле, а практичные функции — параметр effort, динамические рабочие процессы и записи system в Messages API — пришли все вместе.
Но суть не в цифрах. 0% некритичного пропуска недостатков, излишняя самоуверенность ниже более чем в 10 раз — этот релиз, ставящий во главу угла «честность» прежде «ума», указывает в правильном направлении для эпохи длительно работающего автономного ИИ. При этом устойчивость к prompt-инъекциям фактически регрессировала; модель не превосходит старую по каждой оси. Именно поэтому — что вполне уместно, в духе самой добродетели этой модели — самый умный способ её использовать в том, чтобы не быть излишне самоуверенным и замерить на своих задачах, прежде чем решать.
По теме: Разбор релиза Claude Opus 4.7, руководство по миграции на Opus 4.7, сравнение цен Opus / Sonnet / Haiku, сравнение GPT-5.5 и Claude Opus и Что такое Claude Agent SDK.
FAQ
Q. Сложно ли мигрировать с Opus 4.7 на 4.8?
A. Это почти ничего не требует. Просто измените ID модели в API на claude-opus-4-8; стандартные цены и окно контекста (1M tokens) сохранены неизменными. Default effort=HIGH использует примерно столько же tokens, сколько default 4.7, и растёт только производительность, так что вы выигрываете без изменений конфигурации. Только следите за снижением устойчивости к инъекциям (ниже) для агентов, обрабатывающих внешний ввод.
Q. Что означает быстрый режим «втрое дешевле»?
A. Это означает, что цена быстрого режима ($10 за ввод / $50 за вывод за 1M tokens) фактически составляет треть от быстрого режима прежней модели. Скорость примерно в 2.5 раза выше стандартной. Дилемма «хочу скорости, но быстрый режим дорог» сильно смягчена, что упрощает его использование для чат-интерфейсов и массовой пакетной обработки.
Q. Могут ли все использовать динамические рабочие процессы?
A. Они в статусе research preview, доступны из Claude Code (CLI, Desktop, расширение для VS Code). Доступность — на планах Max, Team и Enterprise (включается администратором) и через API, Bedrock, Vertex и Foundry. Ради безопасности первый запуск требует явного подтверждения. Поведение может меняться, поэтому безопаснее сначала попробовать на некритичной работе.
Q. Лучше ли 4.8, чем 4.7, во всех отношениях?
A. Нет. GPQA Diamond немного просел (94.2% → 93.6%), многоязычные задачи отстают от Gemini 3.1 Pro / GPT-5.5, а устойчивость к prompt-инъекциям фактически ухудшилась (успешность атак 6.0% → 9.6%). Она явно впереди по кодингу, математике, длинному контексту и честности, но для некоторых задач 4.7 или другие модели могут подойти лучше.
Q. В чём конкретная польза от более высокой «честности»?
A. При автономном запуске ИИ-агентов самый большой риск — «ложно отчитаться об ошибке как об успехе и нагромождать работу поверх неё». Поскольку 4.8 снизила некритичное воспроизведение ошибочных результатов до 0% и сократила излишнюю самоуверенность более чем в 10 раз, она перестаёт «делать вид, что всё работает», и говорит, что не уверена, когда это так. Для длительной автоматизации, CI и ревью кода надёжность улучшается на практическом уровне.