«Я пользовался ChatGPT Plus, потом перешёл на Claude Code, и мой ежемесячный счёт вырос в 10 раз». — На пороге 2026 года такие жалобы среди инженеров стали массовыми. Инструменты ИИ полезны, но если не уметь ими пользоваться, десятки тысяч долларов в месяц могут тихо исчезнуть.

Хорошая новость: сочетая три рычага (кэширование промптов, маршрутизация моделей, бюджет вывода), можно делать ту же работу за 20–30% от неоптимизированной стоимости. Опираясь на официальные рекомендации Anthropic, отраслевые исследования и реальные эксплуатационные данные, эта статья показывает, как законно экономить на расходах на ИИ-инструменты.

3 РЫЧАГА · 2026

Сжать до 20–30% от неоптимизированной стоимости

— реалистичный кейс: $30K/мес снижается до $6–9K

РЫЧАГ 1 КЭШ
−60 до 90%
Кэширование промптов резко снижает стоимость входа. Максимальный эффект на продакшене, где переиспользуется один и тот же системный промпт.
РЫЧАГ 2 ВЫБОР МОДЕЛИ
−50 до 80%
Маршрутизируйте Opus / Sonnet / Haiku под задачу. Восемь из десяти задач прекрасно справляются на более дешёвой модели.
РЫЧАГ 3 БЮДЖЕТ ВЫВОДА
−30 до 60%
Ограничивайте через max_tokens и просите «отвечать кратко». Токены вывода стоят в 5–6 раз дороже входа.

Три рычага умножаются, когда применяются вместе.
«Только кэш» или «только выбор модели» оставляет деньги на столе — бить всеми тремя сразу — главный тезис этой статьи.

1. Почему счёт за ИИ незаметно раздувается

Инструменты ИИ имеют две схемы биллинга: персональные тарифы (фикс) и API-биллинг (по расходу). Взрывается счёт в основном по второй схеме.

  • Персональные тарифы: ChatGPT Plus $20/мес, Claude Pro $20/мес, Max $100–200/мес. Фиксированная стоимость, поэтому даже при интенсивном использовании есть потолок (с лимитами скорости).
  • API-биллинг: по токенам, по факту использования. Сюда относятся Cursor / Claude Code / собственные ИИ-приложения, Lovable / Bolt.new и подобные. Пользоваться небрежно — и месячный счёт вырастает на порядок.

Причины внезапных «$300 за день» или «$50 сгорело за один день»: (1) токены вывода стоят в 5–6 раз дороже входа, (2) чем длиннее становится ваш контекст, тем больше пересылается целиком на каждом ходу, (3) суб-агенты вызываются за кулисами по нескольку раз, (4) если запустится цикл — он не остановится — всё это накапливается. Стоит понять механику — каждое исправимо.

2. Структура расходов — вход, выход, кэш, инструменты

На примере цен API Claude Opus 4.7 (по состоянию на май 2026 года) разберём, куда уходят деньги.

СтатьяЦена за единицуОписание
Токены входа$5 / 1M токеновТо, что вы отправляете: промпт + история диалога + файлы и т. д.
Токены вывода$25 / 1M токеновТо, что возвращает ИИ. В 5 раз дороже входа.
Запись в кэш$6,25 / 1M токенов (1,25×)Сохранение в кэш с TTL 5 минут (доплата только за первую запись).
Запись в кэш (1 ч)$10 / 1M токенов (2×)Кэш с TTL 1 час. Держится дольше, но запись дороже.
Чтение из кэша$0,50 / 1M токенов (10%)10% от цены входа. Главная звезда экономии.
Вызовы инструментов— (включено)Определения инструментов — часть контекста. Чем больше инструментов, тем толще вход.

Короче говоря, «то, что лежит в кэше, читается за одну десятую цены». Это самый большой рычаг экономии в 2026 году.

3. Выбор тарифа и его влияние на экономию

В тот момент, когда вы можете предсказать, как будете пользоваться, сначала переключитесь на правильный тариф.

ИспользованиеРекомендуемый тарифЦель в месяцОговорки
Хобби, обучение, несколько раз в неделюClaude Free / ChatGPT Free$0Лимиты скорости; не для рабочих данных.
Личное, несколько часов в деньClaude Pro / ChatGPT Plus$20Персональный тариф; не для рабочих данных.
Интенсивное личное использованиеClaude Max$100–200Более высокий потолок; рекомендуется для Claude Code.
Командная работаClaude Team / ChatGPT Team$25–30/пользовательПодходит для рабочих данных; данные не используются для обучения.
Крупная организацияEnterpriseПо запросуSSO, журналы аудита, SLA.
Разработка со встроенным ИИПрямой API (Anthropic / OpenAI)По расходуИспользуйте кэширование и batch.

Если вы собираетесь пользоваться Claude Code «всерьёз, по несколько часов в день», тариф Max ($100 или $200) почти всегда правильный ответ. Дешевле, чем прямой API, и лимитов скорости практически достаточно. Cursor предлагает уровни вроде Pro $20, Ultra $200.

4. Кэширование промптов — самый сильный одиночный рычаг

Если вы обращаетесь к API напрямую, кэширование промптов — это инструмент экономии, у которого «нет причины не использовать». Сама Anthropic называет его «самым недоиспользуемым инструментом оптимизации стоимости 2026 года».

Как это работает

Когда вы переиспользуете один и тот же системный промпт или одни и те же документы между запросами, первый вызов записывает в кэш (стоимость 1,25×). Каждый последующий вызов читает из кэша по 10% от цены входа.

Математика точки безубыточности

  • TTL 5 минут (запись 1,25×): безубыточность с двух чтений
  • TTL 1 час (запись 2×): безубыточность с пяти чтений
  • Эмпирическое правило для продакшена: 3+ чтения на TTL 5 мин или 5+ чтений на TTL 1 ч — гарантированный выигрыш

Важное изменение 2026 года

В начале 2026 года Anthropic сократила TTL кэша промптов по умолчанию с 60 минут до 5 минут. Если вы держите продакшен и не заметили — ваша эффективная стоимость выросла на 30–60%. Разработчики, застрявшие на «старой интуиции», тихо теряют деньги — это скрытая проблема 2026 года.

Рекомендуемый паттерн

Для продакшен-приложений:

  • системный промпт + определения инструментов: кэш с TTL 1 час (части, которые не меняются)
  • начало истории диалога: кэш с TTL 5 мин (части, к которым обращаются повторно в коротком окне)

Если ваш hit-rate кэша (cache_read / (cache_read + input)) ниже 60% — есть куда оптимизировать. На продакшене целитесь в 80%+.

5. Управление контекстом — /compact и разбиение

Поработайте с Claude Code или Cursor какое-то время, и где-то посреди длинного диалога вы обнаружите, что «я почему-то отправляю по 100k токенов на каждом ходу». Это не вывод — это вход (= прошлый диалог) продолжает раздуваться.

Тактика 1: активно используйте /compact

В Claude Code есть команда /compact. Она суммирует и сжимает историю диалога, регенерируя контекстное окно. Можно ужать 200k токенов до 5 000. Подумайте о ней, когда сессия перевалила за 30 минут.

Тактика 2: разбивайте сессии по задачам

Не делайте «реализовать функцию A», «исправить баг B» и «сгенерировать док C» в одном длинном диалоге — начинайте свежие сессии. Закрывайте сессию по завершении каждой задачи. Если нужна долгосрочная память, выпишите её в файл памяти.

Тактика 3: подрезайте шум через Hooks

Claude Agent SDK / Claude Code предоставляют Hooks — они позволяют преобразовать вывод инструментов до того, как тот дойдёт до ИИ. Пример: сжать длинный лог npm install до простого «успех/неудача» через Hook. Только это сэкономит тысячи токенов на каждом ходу.

6. Выбор модели — маршрутизация по задачам

«Всегда Opus» — стратегия миллионера. Большинство задач получают достаточное качество от Sonnet или Haiku. Официальные ценовые соотношения Anthropic таковы (май 2026 года).

МодельВходВыходЛучше всего для
Claude Opus 4.7$5$25Сложный дизайн, рассуждения, длинные автономные задачи
Claude Sonnet 4.7$3$15Ежедневный кодинг, анализ, суммирование
Claude Haiku 4.5$0,80$4Классификация, извлечение, короткое преобразование, реальное время
GPT-5.5$5$30Планирование, исполнение, контроль терминала
GPT-5.5 mini$0,60$2,40Лёгкие задачи

От Opus до Haiku — примерно в 6 раз дешевле. Уже одна маршрутизация по задачам даёт огромную экономию. Критерии выбора:

  • Используйте Opus для: сложного рефакторинга, дизайна, охватывающего множество файлов, глубоких рассуждений, исследования незнакомой области
  • Используйте Sonnet для: ежедневного кодинга, анализа, суммирования, ревью, добавления тестов
  • Используйте Haiku для: классификации, извлечения, преобразования формата, подсказок в реальном времени, генерации сообщений коммитов

7. Управление бюджетом вывода

Токены вывода стоят в 5–6 раз дороже входа. Здесь экономия большая.

Три подхода

  • Явно задавайте max_tokens: ограничивайте через max_tokens: 1000 или похожее в API-вызове. Безлимит по умолчанию опасен.
  • Добавляйте «отвечай кратко» или «пять пунктов» в промпт: ИИ слушается. Подавляйте лишние вступления, резюме и подписи.
  • Структурированный вывод (режим JSON): JSON короче прозы. Если ваше приложение потребляет результат — это путь.

Для ситуаций, где «длинный красивый ответ» не нужен (классификация, извлечение, решения), жёсткое урезание оказывается экономнее.

8. Ловушка мультиагентов — 15-кратные токены

Тренд 2026 года, мультиагентные сборки (оркестратор + параллельные суб-агенты), мощный, но сама Anthropic публично заявила, что «потребление токенов примерно в 15 раз больше по сравнению с одним агентом».

Критерии решения для экономии

  • Ясные, последовательные задачи (правка одного файла, суммирование, ревью кода) → достаточно одного агента
  • Параллелизм, реально сокращающий время выполнения → мультиагент оправдан
  • «Мультиагент по умолчанию» — экономически неверно. Начните с одного агента и разделяйте только те узкие места, которые реально видите.

Подробнее: см. Что такое мультиагент?

9. Мониторинг и оповещения о биллинге

Чтобы избежать сюрприза «вдруг $500», регулярный мониторинг + оповещения обязательны.

Пользователи API

  • Проверяйте ежедневное потребление токенов в Anthropic Console / OpenAI Dashboard
  • Установите лимит расхода: автоостановка при превышении $200/мес и т. п. Без лимита — опасно.
  • Оповещения о биллинге: email при $50, Slack при $100 — пороги по этапам.

Пользователи Claude Code

  • Через /cost проверяйте потребление токенов и оценочную стоимость текущей сессии
  • Сделайте привычкой проверку /cost в конце дня

Администраторы организаций

  • Отчёты по потреблению на пользователя (админ-консоль Anthropic Team / Enterprise)
  • Обнаружение аномалий (помечать тех, кто потребляет в 3 раза больше нормы)
  • Ежеквартальное распространение «шаблонов расточительства» на всю компанию

10. Семь типичных шаблонов расточительства

ШаблонЧто не такИсправление
Прикреплять все файлы заново на каждом ходуКэш не срабатывает; вход раздуваетсяОтправьте неизменяемые документы один раз и закэшируйте
Задавать один и тот же вопрос и в ChatGPT, и в ClaudeПлатите дважды за один и тот же вход на разных тарифахВыберите один
Продолжать длинный диалог без /compactПолная история шлётся каждый ход/compact после 30 минут
Использовать Opus для простой классификации или извлеченияПлатите в 6 раз больше, чем стоил бы Haiku, за тот же результатПодбирайте модель под задачу
Повторять «более отполированно» / «чуть длиннее»Токены вывода накапливаютсяЗаявите желаемую длину сразу
Определять много ненужных инструментовОпределения инструментов едут в контекстеОпределяйте только то, чем пользуетесь
Тянуться к мультиагенту по привычкеВ 15 раз больше токенов, чем у одного агентаТолько при ясной необходимости

Итоги

  • Три рычага оптимизации стоимости ИИ: кэширование промптов, маршрутизация моделей, бюджет вывода. В сумме — сжимают до 20–30% от неоптимизированной стоимости.
  • Чтение из кэша = 10% от цены входа. Экономия 60–90% на продакшен-нагрузках. Следите за сокращением TTL в начале 2026 года (60 мин → 5 мин); проигнорируете — фактически выросли на 30–60%.
  • Выбор модели: от Opus до Haiku — примерно в 6 раз дешевле. 80% задач прекрасно идут на Sonnet/Haiku.
  • Бюджет вывода: токены вывода стоят в 5–6 раз дороже входа. Явно задавайте max_tokens и просите «кратко».
  • Управление контекстом: /compact после 30 минут на сессию, разбивайте по задачам, сжимайте вывод через Hooks.
  • Ловушка мультиагентов: в 15 раз больше токенов, чем у одного агента. Используйте только при ясной необходимости.
  • Мониторинг: лимиты расхода, оповещения о биллинге и проверка /cost должны стать привычкой.
  • Знайте семь типичных шаблонов расточительства и избегайте их.

FAQ

Q1. Я пользуюсь Claude Code ежедневно — что выгоднее, Pro $20 или Max $200?

Если вы пользуетесь 2+ часа в день, Max почти наверняка выгоднее. Pro быстро упирается в потолок скорости, копится раздражение, и в итоге вы всё равно начинаете тратиться на API-биллинг. Max позволяет работать часами без беспокойства. Даже сама Anthropic в своих сообщениях исходит из того, что пользователи Pro будут пользоваться Claude Code «легко».

Q2. Нужна ли особая настройка для использования кэширования промптов?

В API нужно явно помечать блоки cache_control. По умолчанию это не работает. Интегрированные инструменты вроде Claude Code / Cursor часто используют его автоматически внутри, но если вы сами вызываете API — обязаны его декларировать. Подробнее — в официальной документации Anthropic.

Q3. ChatGPT vs. Claude — что экономичнее?

Зависит от сценария. Для длинных автономных задач и сложного кодинга Claude (особенно с кэшированием) часто оказывается дешевле. Для коротких Q&A и автоматизации терминала GPT-5.5 mini невероятно дёшев ($0,60 на входе). «Подписаться на оба и подбирать инструмент под задачу» — тоже практичный вариант.

Q4. Как понять, что «Haiku достаточно»?

Проведите трёхступенчатый эксперимент. (1) Заставьте работать на Opus. (2) Отправьте тот же промпт в Sonnet и сравните качество. (3) Если Sonnet выглядит сопоставимо, попробуйте и Haiku. Для многих рутинных задач Haiku и Opus отличаются на величину, которую вы не заметите. Берегите Opus для случаев, где действительно нужны глубокое суждение или рассуждение.

Q5. Стоит ли частному пользователю обращаться к API напрямую?

По обстоятельствам. Для 2+ часов интерактивного кодинга в день тариф Max ($100/$200) подавляюще проще. Для встраивания ИИ в собственное приложение, пакетной обработки или автоматизации прямой API необходим. Многие используют и то, и другое.

Q6. Какой порог поставить на оповещения о биллинге?

Для отдельного разработчика реалистичная схема — 1,5× от обычного месячного расхода на первое оповещение и как автостоп. Пример: если обычно тратите $30/мес, оповещение на $50 и стоп на $100. На раннем этапе запустите более тонкие оповещения вроде $5/день, чтобы выработать интуицию, а затем ослабьте.

Q7. Нам сказали: «бюджет компании на ИИ слишком вырос». С чего начать?

Три шага по порядку. (1) Посмотрите на использование по пользователям и проверьте, какой % от общего потребляют верхние 5% (часто 50%+). (2) Опросите этих heavy-пользователей о рабочем процессе и выявите шаблоны расточительства. (3) Разошлите по компании внутреннее руководство по «кэшированию, маршрутизации моделей, бюджету вывода» и ежемесячно отчитывайтесь о прогрессе. Если поговорите с менеджером Anthropic / OpenAI Enterprise, можете получить и бесплатный обзор оптимизации.