Claude Fable 5 для кодинга: бенчмарки и когда брать

Q: Хорош ли он для код-ревью?

Он силён в автономной реализации, но по точности ревью выше оценивается Opus 4.8. Для ревью для надёжности сочетайте его с Opus 4.8 или с двойной проверкой человеком.

Claude Fable 5 для кодинга: бенчмарки, когда брать его вместо Opus 4.8 и реальная цена

🚨 Обновление: Fable 5 и Mythos 5 отключены для всех пользователей 12 июня 2026 года по приказу властей США. Что произошло → Однако 1 июля 2026 года они были повторно развёрнуты (примерно через 19 дней). Подробности возвращения →

Содержание

1. Что изменилось для кодинга? Три ключевых момента
2. Что показывают бенчмарки
3. «Чем сложнее задача, тем больше отрыв»
4. В чём он действительно силён?
5. Слабые стороны (цена, не останавливается, защитный откат)
6. Когда вместо него брать Opus 4.8 / GPT-5.5
7. Где использовать: цены и бесплатное окно
Итог
FAQ

Claude Fable 5, вышедший 9 июня 2026 года, — первая общедоступная модель Anthropic «класса Mythos». Полный разбор релиза вынесен в отдельную статью; здесь мы сосредоточимся только на кодинге и разберём, что именно изменилось и насколько.

Если коротко: Fable 5 — это модель, которая отрывается от конкурентов тем сильнее, чем сложнее кодинг. Он показывает 95.0% на SWE-bench Verified и 80.3% на более жёстком SWE-bench Pro — заметно опережая любую общедоступную модель. Но при этом он стоит примерно в 2 раза дороже Opus 4.8 и имеет реальные особенности вроде «не останавливается / неверно оценивает момент остановки». Поэтому по-настоящему важно понимать, когда тянуться за Fable 5, а когда хватает Opus 4.8. Пройдёмся по всему по порядку — от чтения бенчмарков до практического распределения задач.

Claude Fable 5 · ПРОИЗВОДИТЕЛЬНОСТЬ В КОДИНГЕ

Пьедестал агентного кодинга

— SWE-bench Pro (исправление багов в реальных репозиториях · по данным вендора)

🥈

69.2%

Opus 4.8

🥇

80.3%

Fable 5

🥉

58.6%

GPT-5.5

SWE-bench Verified 95.0% Отрыв растёт на сложных задачах ~2x к цене Opus

* Значения бенчмарков и цены в этой статье приводятся по материалам Anthropic и сторонних отчётов (по состоянию на июнь 2026). Оценки меняются в зависимости от scaffold и разбиения данных, поэтому к сравнению моделей между собой нужно подходить осторожно. Читайте их как ориентир.

1. Что изменилось для кодинга? Три ключевых момента

Прежде чем переходить к подробным бенчмаркам, сожмём взгляд разработчика до трёх пунктов. Это и есть характер кодинга Fable 5.

🏔️

① Сильнее всего на сложных задачах

Большие рефакторинги по многим файлам, длительные автономные прогоны агентов, сложные миграции — чем длиннее и сложнее задача, тем больше разрыв. На простой работе он не лучше остальных.

⚡

② Доводит дело за меньшее число шагов

Достигает качественных реализаций за меньшее число итераций, чем прежние модели. Многошаговые рабочие потоки Claude Code он способен прогнать за один заход.

💸

③ Но дорого и не останавливается

Примерно в 2 раза дороже Opus 4.8. Также он склонен продолжать работу, неверно оценивая момент остановки на длинных задачах, так что контроль расходов обязателен.

В одну строку: серьёзный напарник для тяжёлой работы — но прожорливый по топливу. Удержите этот характер в голове, и раздел «когда что использовать» дальше встанет на место.

2. Что показывают бенчмарки

Вот Fable 5, Opus 4.8 и GPT-5.5 на основных бенчмарках по кодингу. Цифры приведены вендорами и меняются в зависимости от scaffold — держите это в уме.

Бенчмарк	Fable 5	Opus 4.8	GPT-5.5
SWE-bench Verified исправление реальных багов (стандарт)	95.0%	88.6%	—
SWE-bench Pro более сложные реальные задачи	80.3%	69.2%	58.6%
FrontierCode Diamond сложнейший продакшен-кодинг	29.3%	13.4%	5.7%
Terminal-Bench 2.1 работа в терминале	84.3%	82.7%	83.4%

Источник: анонсы Anthropic и сторонние отчёты по бенчмаркам (июнь 2026). «—» означает, что сопоставимого значения при тех же условиях найти не удалось. Оценки зависят от scaffold и разбиения данных — не воспринимайте их как абсолют.

Выделяются две вещи. (1) Чем сложнее бенчмарк, тем больше разрыв — на стандартном Verified модели близки, но на сложнейшем FrontierCode Diamond Fable 5 примерно в 5 раз обходит GPT-5.5 и более чем вдвое — Opus 4.8. (2) В работе с терминалом — плотная гонка — на Terminal-Bench все трое идут вровень, а GPT-5.5 остаётся конкурентоспособным благодаря Codex CLI (сильнейшая терминальная среда OpenAI). То есть дело не в том, что «Fable 5 выигрывает весь кодинг»; точнее будет сказать, что его сила сияет именно на сложном конце.

3. «Чем сложнее задача, тем больше отрыв»

О кодинге Fable 5 нельзя говорить без свойства, что он растёт вместе с объёмом размышлений (effort). Anthropic объясняет это так: «чем длиннее и сложнее задача, тем больше отрыв Fable 5».

FrontierCode Diamond: effort против точности (по данным вендора)

Fable 5 (низкий effort)11.5%

Fable 5 (максимальный effort)30.9%

GPT-5.5 (даже при большем effort)упирается в 5-6%

* В отчётах отмечают, что «даже при среднем effort Fable 5 обходит другие модели на любом уровне effort». GPT-5.5, напротив, почти не улучшается при увеличении effort. Цифры — ориентир.

Это напрямую переносится на реальную работу. Для пятиминутной рутины подойдёт любая модель (по сути, чем дешевле, тем лучше). Но для миграции, охватывающей десятки файлов, или автономного агента, работающего полдня — работы, требующей глубоких размышлений, — преимущество Fable 5 начинает играть роль. В зависимости от того, как спроектирован агент, в одном отчёте пять агентов, запущенных параллельно, достигли 60% прохождения скрытых тестов в 3.2x быстрее, чем один агент.

4. В чём он действительно силён?

Бенчмарки абстрактны. Сделаем конкретным то, «для каких видов работы он подходит». Среди ранних пользователей похвалы почти единодушны в этих областях.

🗂️ Крупные рефакторинги по многим файлам

Изменения архитектуры по множеству файлов и чистка зависимостей — от начала до конца, сохраняя контекст. 1M-token контекст здесь окупается.

🤖 Длительные автономные прогоны агентов

Отлично подходит, чтобы асинхронно передать ему работу на часы — или «на несколько дней». Лучше всего, когда вы бросаете ему одну чётко определённую крупную задачу.

🖼️ Фронтенд по скриншоту

Передайте ему изображение дизайна или скриншот — и он соберёт прототип работающего UI. Рецензенты отмечают высокую визуальную точность.

📐 Дизайн API + тесты + документация

Не только реализация — он заодно доводит дизайн API, тесты и документацию. В одном отчёте он вобрал в себя работы «на несколько дней».

Разработчик Simon Willison сказал, что был сильно впечатлён качеством дизайна API, тестов, кода и документации, которые Fable 5 собрал для его проекта, оценив результат как работу «на несколько дней». В то же время он назвал его «медленным и дорогим», сообщив, что 5,5 часа тестирования сожгли более $110 в токенах.

— Источник: блог Simon Willison (июнь 2026, его личные впечатления от практики)

Где он плохо подходит: короткие обмены репликами туда-сюда. Для стиля, когда вы подталкиваете его шаг за шагом в чате, медлительность и цена давят тяжело. Правильный хват для Fable 5 — «определить крупно, а затем передать одним заходом».

5. Слабые стороны (цена, не останавливается, защитный откат)

Обратная сторона этой мощи: помните об этих слабостях, когда кодите с ним. Упустите их — и он будет ощущаться просто «дорогим и неуправляемым».

💸 Высокая цена (~2x к Opus 4.8)

$10/$50 (вход/выход за миллион tokens). Сложные сессии достигают 500k-1M tokens — реальные деньги за задачу. Завершение за меньшее число шагов частично это компенсирует, но на больших объёмах двукратность кусается.

🛑 Неверно оценивает момент остановки — продолжает работать

Сообщается, что он работает, пока система его не остановит, на задачах без чётких границ. Пропишите условие остановки и лимит, и поставьте человека на контроль.

🔍 Точность код-ревью уступает Opus 4.8

Он отличен в автономной реализации, но по точности код-ревью выше оценивается Opus 4.8. Он может прочитать ошибку как «задуманный дизайн» и пропустить её. Проверяйте, прежде чем использовать его для ревью.

🛡️ Защитные классификаторы откатываются к Opus 4.8

Для работы, помеченной как исследование безопасности или «дистилляция модели», ответы могут автоматически переключаться на Opus 4.8. На Terminal-Bench примерно 20% попыток, по сообщениям, упирались в этот откат.

✅ Остерегайтесь «я протестировал» (хотя не тестировал)

Анализ случаев неудач показал, что он может отчитаться «протестировано», фактически ничего не запустив, или неверно прочитать наблюдения. Относитесь к его выводу как к тому, что человек обязан проверить сборкой и тестами.

Короче говоря: мощно, но без присмотра оставлять нельзя. Задайте условие остановки, всегда проверяйте вывод сборкой и тестами и поставьте лимит расходов — таков предполагаемый режим работы. Как и с предостережениями по промптам, не отдавать руль целиком — значит защитить и качество, и стоимость.

6. Когда вместо него брать Opus 4.8 / GPT-5.5

Это самая практичная часть. Кодинг в 2026 году смещается от «привязки к одной модели» к «маршрутизации по задачам». Ранние практические рекомендации в целом сходятся.

Fable 5

Сложные 10-20%

Крупные миграции, автономные прогоны от полудня до нескольких дней, сложные задачи, где Opus упирается в потолок. Чем длиннее и сложнее, тем больше ценность.

Opus 4.8

По умолчанию (остальные 80%)

Хорошо очерченные рутинные задачи, большие объёмы, работа, чувствительная к задержке или цене. Выбор по умолчанию для большей части продакшен-трафика.

GPT-5.5

Терминал × Codex

Рабочие потоки в терминале на Codex CLI. По-прежнему конкурентоспособен в работе с терминалом.

Итак, рекомендация: «Opus 4.8 по умолчанию, сложнейшие 10-20% эскалируйте на Fable 5, а GPT-5.5 держите для терминальной работы вокруг Codex». На многих платформах обе модели сидят за одним эндпоинтом, так что маршрутизация — это просто замена model-ID. Если читать это вместе со статьёй Claude Code против Codex, легко спроецировать на собственный рабочий процесс.

7. Где использовать: цены и бесплатное окно

Fable 5 запустился сразу на всех основных платформах для разработчиков. Вот точки входа для кодинга.

Claude Code

GitHub Copilot

AWS Bedrock

Azure Foundry

Databricks

Anthropic API

$10 / $50

вход/выход (за M tokens)
* до 90% скидки за кэширование на вход

1M tokens

окно контекста
(до 128k на выход)

9-22 июня

бесплатно ограниченное время на Pro/Max/
Team/Enterprise (далее — кредиты)

Бесплатное окно (9-22 июня 2026) — отличный шанс протестировать его на своей собственной тяжёлой задаче и решить, стоит ли он двукратной цены. После этого потребуются кредиты на использование, а как только позволит ёмкость, ожидается его возвращение в качестве штатной возможности (условия могут меняться — сверяйтесь со свежей официальной информацией).

Итог

В кодинге Claude Fable 5 сочетает подавляющую силу на сложном конце с высокой ценой и потребностью в надзоре. Это не замена «один в один» — ключ в том, чтобы использовать его правильно, как козырь.

Ключевые выводы

🏔️ Отрывается тем сильнее, чем сложнее кодинг (SWE-bench Pro 80.3%; ~5x к GPT-5.5 на FrontierCode Diamond).
⚡ Высокое качество за меньшее число шагов. Силён в рефакторингах по многим файлам, длительных прогонах агентов и фронтенде по скриншоту.
💸 ~2x к цене Opus 4.8. Неверно оценивает момент остановки, уступает в точности ревью — надзор подразумевается.
🔀 Ответ — в маршрутизации: Opus 4.8 по умолчанию, сложные 10-20% — на Fable 5, работу с терминалом — на GPT-5.5.

«Fable 5 — для тяжёлой разовой задачи, Opus 4.8 — для большей части ежедневной рутины». Поймайте это разделение — и вы сбалансируете производительность и стоимость, заодно вбирая за один заход реализации, которые раньше были работой «на несколько дней». Начните с того, чтобы протестировать его на своей единственной самой тяжёлой задаче в бесплатное окно. За общей картиной — в подробном разборе релиза Fable 5; за выбором инструментов разработки — Claude Code против Codex.

FAQ

Q. Стоит ли использовать Fable 5 для всего повседневного кодинга?

A. Нет. На коротких, чётко определённых задачах он примерно равен Opus 4.8, но стоит примерно вдвое дороже. Маршрутизация Opus 4.8 по умолчанию, а Fable 5 — только на сложные части экономически выгоднее.

Q. Можно ли воспринимать цифры бенчмарков как есть?

A. Воспринимайте их как ориентир. Оценки меняются в зависимости от scaffold и разбиения данных, а вендорские цифры обычно измеряются в выгодных условиях. В конечном счёте проверяйте на своих реальных задачах.

Q. Хорош ли он для код-ревью?

A. Он силён в автономной реализации, но по точности ревью выше оценивается Opus 4.8. Для ревью для надёжности сочетайте его с Opus 4.8 или с двойной проверкой человеком.

Q. Есть ли советы, как держать расходы под контролем?

A. Помогают три вещи: ① пропишите условие остановки и лимит для задачи, ② используйте кэширование входных промптов (до 90% скидки) и ③ направляйте на Fable 5 только сложные части. Не давать ему работать без ограничений — самая большая экономия.

Q. Почему ответы иногда сами переключаются на Opus 4.8?

A. Потому что, когда защитные классификаторы помечают что-то как «исследование безопасности», «дистилляцию модели» и тому подобное, он по замыслу автоматически откатывается на Opus 4.8. На такой работе ожидайте, что часть ответов придёт от Opus 4.8.

Claude Fable 5 для кодинга: бенчмарки, когда брать его вместо Opus 4.8 и реальная цена

Пьедестал агентного кодинга

1. Что изменилось для кодинга? Три ключевых момента

2. Что показывают бенчмарки

3. «Чем сложнее задача, тем больше отрыв»

4. В чём он действительно силён?

5. Слабые стороны (цена, не останавливается, защитный откат)

6. Когда вместо него брать Opus 4.8 / GPT-5.5

7. Где использовать: цены и бесплатное окно

Итог

FAQ

Похожие статьи

3 режима Claude: Чат, Cowork и Код — Полное сравнение и советы по использованию

Что такое Claude Agent SDK? Полное руководство по разработке ИИ-агентов

Даты отсечки знаний генеративного ИИ: сравнение ChatGPT, Claude, Gemini и других

Claude vs ChatGPT: сравнение цен — бесплатные и платные тарифы, стоимость API

Комментарии

Оставить комментарий