Содержание
- 1. Что изменилось для кодинга? Три ключевых момента
- 2. Что показывают бенчмарки
- 3. «Чем сложнее задача, тем больше отрыв»
- 4. В чём он действительно силён?
- 5. Слабые стороны (цена, не останавливается, защитный откат)
- 6. Когда вместо него брать Opus 4.8 / GPT-5.5
- 7. Где использовать: цены и бесплатное окно
- Итог
- FAQ
Claude Fable 5, вышедший 9 июня 2026 года, — первая общедоступная модель Anthropic «класса Mythos». Полный разбор релиза вынесен в отдельную статью; здесь мы сосредоточимся только на кодинге и разберём, что именно изменилось и насколько.
Если коротко: Fable 5 — это модель, которая отрывается от конкурентов тем сильнее, чем сложнее кодинг. Он показывает 95.0% на SWE-bench Verified и 80.3% на более жёстком SWE-bench Pro — заметно опережая любую общедоступную модель. Но при этом он стоит примерно в 2 раза дороже Opus 4.8 и имеет реальные особенности вроде «не останавливается / неверно оценивает момент остановки». Поэтому по-настоящему важно понимать, когда тянуться за Fable 5, а когда хватает Opus 4.8. Пройдёмся по всему по порядку — от чтения бенчмарков до практического распределения задач.
Пьедестал агентного кодинга
— SWE-bench Pro (исправление багов в реальных репозиториях · по данным вендора)
* Значения бенчмарков и цены в этой статье приводятся по материалам Anthropic и сторонних отчётов (по состоянию на июнь 2026). Оценки меняются в зависимости от scaffold и разбиения данных, поэтому к сравнению моделей между собой нужно подходить осторожно. Читайте их как ориентир.
1. Что изменилось для кодинга? Три ключевых момента
Прежде чем переходить к подробным бенчмаркам, сожмём взгляд разработчика до трёх пунктов. Это и есть характер кодинга Fable 5.
① Сильнее всего на сложных задачах
Большие рефакторинги по многим файлам, длительные автономные прогоны агентов, сложные миграции — чем длиннее и сложнее задача, тем больше разрыв. На простой работе он не лучше остальных.
② Доводит дело за меньшее число шагов
Достигает качественных реализаций за меньшее число итераций, чем прежние модели. Многошаговые рабочие потоки Claude Code он способен прогнать за один заход.
③ Но дорого и не останавливается
Примерно в 2 раза дороже Opus 4.8. Также он склонен продолжать работу, неверно оценивая момент остановки на длинных задачах, так что контроль расходов обязателен.
В одну строку: серьёзный напарник для тяжёлой работы — но прожорливый по топливу. Удержите этот характер в голове, и раздел «когда что использовать» дальше встанет на место.
2. Что показывают бенчмарки
Вот Fable 5, Opus 4.8 и GPT-5.5 на основных бенчмарках по кодингу. Цифры приведены вендорами и меняются в зависимости от scaffold — держите это в уме.
| Бенчмарк | Fable 5 | Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified исправление реальных багов (стандарт) |
95.0% | 88.6% | — |
| SWE-bench Pro более сложные реальные задачи |
80.3% | 69.2% | 58.6% |
| FrontierCode Diamond сложнейший продакшен-кодинг |
29.3% | 13.4% | 5.7% |
| Terminal-Bench 2.1 работа в терминале |
84.3% | 82.7% | 83.4% |
Источник: анонсы Anthropic и сторонние отчёты по бенчмаркам (июнь 2026). «—» означает, что сопоставимого значения при тех же условиях найти не удалось. Оценки зависят от scaffold и разбиения данных — не воспринимайте их как абсолют.
Выделяются две вещи. (1) Чем сложнее бенчмарк, тем больше разрыв — на стандартном Verified модели близки, но на сложнейшем FrontierCode Diamond Fable 5 примерно в 5 раз обходит GPT-5.5 и более чем вдвое — Opus 4.8. (2) В работе с терминалом — плотная гонка — на Terminal-Bench все трое идут вровень, а GPT-5.5 остаётся конкурентоспособным благодаря Codex CLI (сильнейшая терминальная среда OpenAI). То есть дело не в том, что «Fable 5 выигрывает весь кодинг»; точнее будет сказать, что его сила сияет именно на сложном конце.
3. «Чем сложнее задача, тем больше отрыв»
О кодинге Fable 5 нельзя говорить без свойства, что он растёт вместе с объёмом размышлений (effort). Anthropic объясняет это так: «чем длиннее и сложнее задача, тем больше отрыв Fable 5».
FrontierCode Diamond: effort против точности (по данным вендора)
* В отчётах отмечают, что «даже при среднем effort Fable 5 обходит другие модели на любом уровне effort». GPT-5.5, напротив, почти не улучшается при увеличении effort. Цифры — ориентир.
Это напрямую переносится на реальную работу. Для пятиминутной рутины подойдёт любая модель (по сути, чем дешевле, тем лучше). Но для миграции, охватывающей десятки файлов, или автономного агента, работающего полдня — работы, требующей глубоких размышлений, — преимущество Fable 5 начинает играть роль. В зависимости от того, как спроектирован агент, в одном отчёте пять агентов, запущенных параллельно, достигли 60% прохождения скрытых тестов в 3.2x быстрее, чем один агент.
4. В чём он действительно силён?
Бенчмарки абстрактны. Сделаем конкретным то, «для каких видов работы он подходит». Среди ранних пользователей похвалы почти единодушны в этих областях.
🗂️ Крупные рефакторинги по многим файлам
Изменения архитектуры по множеству файлов и чистка зависимостей — от начала до конца, сохраняя контекст. 1M-token контекст здесь окупается.
🤖 Длительные автономные прогоны агентов
Отлично подходит, чтобы асинхронно передать ему работу на часы — или «на несколько дней». Лучше всего, когда вы бросаете ему одну чётко определённую крупную задачу.
🖼️ Фронтенд по скриншоту
Передайте ему изображение дизайна или скриншот — и он соберёт прототип работающего UI. Рецензенты отмечают высокую визуальную точность.
📐 Дизайн API + тесты + документация
Не только реализация — он заодно доводит дизайн API, тесты и документацию. В одном отчёте он вобрал в себя работы «на несколько дней».
Разработчик Simon Willison сказал, что был сильно впечатлён качеством дизайна API, тестов, кода и документации, которые Fable 5 собрал для его проекта, оценив результат как работу «на несколько дней». В то же время он назвал его «медленным и дорогим», сообщив, что 5,5 часа тестирования сожгли более $110 в токенах.
— Источник: блог Simon Willison (июнь 2026, его личные впечатления от практики)
Где он плохо подходит: короткие обмены репликами туда-сюда. Для стиля, когда вы подталкиваете его шаг за шагом в чате, медлительность и цена давят тяжело. Правильный хват для Fable 5 — «определить крупно, а затем передать одним заходом».
5. Слабые стороны (цена, не останавливается, защитный откат)
Обратная сторона этой мощи: помните об этих слабостях, когда кодите с ним. Упустите их — и он будет ощущаться просто «дорогим и неуправляемым».
💸 Высокая цена (~2x к Opus 4.8)
$10/$50 (вход/выход за миллион tokens). Сложные сессии достигают 500k-1M tokens — реальные деньги за задачу. Завершение за меньшее число шагов частично это компенсирует, но на больших объёмах двукратность кусается.
🛑 Неверно оценивает момент остановки — продолжает работать
Сообщается, что он работает, пока система его не остановит, на задачах без чётких границ. Пропишите условие остановки и лимит, и поставьте человека на контроль.
🔍 Точность код-ревью уступает Opus 4.8
Он отличен в автономной реализации, но по точности код-ревью выше оценивается Opus 4.8. Он может прочитать ошибку как «задуманный дизайн» и пропустить её. Проверяйте, прежде чем использовать его для ревью.
🛡️ Защитные классификаторы откатываются к Opus 4.8
Для работы, помеченной как исследование безопасности или «дистилляция модели», ответы могут автоматически переключаться на Opus 4.8. На Terminal-Bench примерно 20% попыток, по сообщениям, упирались в этот откат.
✅ Остерегайтесь «я протестировал» (хотя не тестировал)
Анализ случаев неудач показал, что он может отчитаться «протестировано», фактически ничего не запустив, или неверно прочитать наблюдения. Относитесь к его выводу как к тому, что человек обязан проверить сборкой и тестами.
Короче говоря: мощно, но без присмотра оставлять нельзя. Задайте условие остановки, всегда проверяйте вывод сборкой и тестами и поставьте лимит расходов — таков предполагаемый режим работы. Как и с предостережениями по промптам, не отдавать руль целиком — значит защитить и качество, и стоимость.
6. Когда вместо него брать Opus 4.8 / GPT-5.5
Это самая практичная часть. Кодинг в 2026 году смещается от «привязки к одной модели» к «маршрутизации по задачам». Ранние практические рекомендации в целом сходятся.
Сложные 10-20%
Крупные миграции, автономные прогоны от полудня до нескольких дней, сложные задачи, где Opus упирается в потолок. Чем длиннее и сложнее, тем больше ценность.
По умолчанию (остальные 80%)
Хорошо очерченные рутинные задачи, большие объёмы, работа, чувствительная к задержке или цене. Выбор по умолчанию для большей части продакшен-трафика.
Терминал × Codex
Рабочие потоки в терминале на Codex CLI. По-прежнему конкурентоспособен в работе с терминалом.
Итак, рекомендация: «Opus 4.8 по умолчанию, сложнейшие 10-20% эскалируйте на Fable 5, а GPT-5.5 держите для терминальной работы вокруг Codex». На многих платформах обе модели сидят за одним эндпоинтом, так что маршрутизация — это просто замена model-ID. Если читать это вместе со статьёй Claude Code против Codex, легко спроецировать на собственный рабочий процесс.
7. Где использовать: цены и бесплатное окно
Fable 5 запустился сразу на всех основных платформах для разработчиков. Вот точки входа для кодинга.
вход/выход (за M tokens)
* до 90% скидки за кэширование на вход
окно контекста
(до 128k на выход)
бесплатно ограниченное время на Pro/Max/
Team/Enterprise (далее — кредиты)
Бесплатное окно (9-22 июня 2026) — отличный шанс протестировать его на своей собственной тяжёлой задаче и решить, стоит ли он двукратной цены. После этого потребуются кредиты на использование, а как только позволит ёмкость, ожидается его возвращение в качестве штатной возможности (условия могут меняться — сверяйтесь со свежей официальной информацией).
Итог
В кодинге Claude Fable 5 сочетает подавляющую силу на сложном конце с высокой ценой и потребностью в надзоре. Это не замена «один в один» — ключ в том, чтобы использовать его правильно, как козырь.
Ключевые выводы
- 🏔️ Отрывается тем сильнее, чем сложнее кодинг (SWE-bench Pro 80.3%; ~5x к GPT-5.5 на FrontierCode Diamond).
- ⚡ Высокое качество за меньшее число шагов. Силён в рефакторингах по многим файлам, длительных прогонах агентов и фронтенде по скриншоту.
- 💸 ~2x к цене Opus 4.8. Неверно оценивает момент остановки, уступает в точности ревью — надзор подразумевается.
- 🔀 Ответ — в маршрутизации: Opus 4.8 по умолчанию, сложные 10-20% — на Fable 5, работу с терминалом — на GPT-5.5.
«Fable 5 — для тяжёлой разовой задачи, Opus 4.8 — для большей части ежедневной рутины». Поймайте это разделение — и вы сбалансируете производительность и стоимость, заодно вбирая за один заход реализации, которые раньше были работой «на несколько дней». Начните с того, чтобы протестировать его на своей единственной самой тяжёлой задаче в бесплатное окно. За общей картиной — в подробном разборе релиза Fable 5; за выбором инструментов разработки — Claude Code против Codex.
FAQ
Q. Стоит ли использовать Fable 5 для всего повседневного кодинга?
A. Нет. На коротких, чётко определённых задачах он примерно равен Opus 4.8, но стоит примерно вдвое дороже. Маршрутизация Opus 4.8 по умолчанию, а Fable 5 — только на сложные части экономически выгоднее.
Q. Можно ли воспринимать цифры бенчмарков как есть?
A. Воспринимайте их как ориентир. Оценки меняются в зависимости от scaffold и разбиения данных, а вендорские цифры обычно измеряются в выгодных условиях. В конечном счёте проверяйте на своих реальных задачах.
Q. Хорош ли он для код-ревью?
A. Он силён в автономной реализации, но по точности ревью выше оценивается Opus 4.8. Для ревью для надёжности сочетайте его с Opus 4.8 или с двойной проверкой человеком.
Q. Есть ли советы, как держать расходы под контролем?
A. Помогают три вещи: ① пропишите условие остановки и лимит для задачи, ② используйте кэширование входных промптов (до 90% скидки) и ③ направляйте на Fable 5 только сложные части. Не давать ему работать без ограничений — самая большая экономия.
Q. Почему ответы иногда сами переключаются на Opus 4.8?
A. Потому что, когда защитные классификаторы помечают что-то как «исследование безопасности», «дистилляцию модели» и тому подобное, он по замыслу автоматически откатывается на Opus 4.8. На такой работе ожидайте, что часть ответов придёт от Opus 4.8.