Содержание
- 1. Почему счёт за ИИ незаметно раздувается
- 2. Структура расходов — вход, выход, кэш, инструменты
- 3. Выбор тарифа и его влияние на экономию
- 4. Кэширование промптов — самый сильный одиночный рычаг
- 5. Управление контекстом — /compact и разбиение
- 6. Выбор модели — маршрутизация по задачам
- 7. Управление бюджетом вывода
- 8. Ловушка мультиагентов — 15-кратные токены
- 9. Мониторинг и оповещения о биллинге
- 10. Семь типичных шаблонов расточительства
- Итоги
- FAQ
«Я пользовался ChatGPT Plus, потом перешёл на Claude Code, и мой ежемесячный счёт вырос в 10 раз». — На пороге 2026 года такие жалобы среди инженеров стали массовыми. Инструменты ИИ полезны, но если не уметь ими пользоваться, десятки тысяч долларов в месяц могут тихо исчезнуть.
Хорошая новость: сочетая три рычага (кэширование промптов, маршрутизация моделей, бюджет вывода), можно делать ту же работу за 20–30% от неоптимизированной стоимости. Опираясь на официальные рекомендации Anthropic, отраслевые исследования и реальные эксплуатационные данные, эта статья показывает, как законно экономить на расходах на ИИ-инструменты.
Сжать до 20–30% от неоптимизированной стоимости
— реалистичный кейс: $30K/мес снижается до $6–9K
Три рычага умножаются, когда применяются вместе.
«Только кэш» или «только выбор модели» оставляет деньги на столе — бить всеми тремя сразу — главный тезис этой статьи.
1. Почему счёт за ИИ незаметно раздувается
Инструменты ИИ имеют две схемы биллинга: персональные тарифы (фикс) и API-биллинг (по расходу). Взрывается счёт в основном по второй схеме.
- Персональные тарифы: ChatGPT Plus $20/мес, Claude Pro $20/мес, Max $100–200/мес. Фиксированная стоимость, поэтому даже при интенсивном использовании есть потолок (с лимитами скорости).
- API-биллинг: по токенам, по факту использования. Сюда относятся Cursor / Claude Code / собственные ИИ-приложения, Lovable / Bolt.new и подобные. Пользоваться небрежно — и месячный счёт вырастает на порядок.
Причины внезапных «$300 за день» или «$50 сгорело за один день»: (1) токены вывода стоят в 5–6 раз дороже входа, (2) чем длиннее становится ваш контекст, тем больше пересылается целиком на каждом ходу, (3) суб-агенты вызываются за кулисами по нескольку раз, (4) если запустится цикл — он не остановится — всё это накапливается. Стоит понять механику — каждое исправимо.
2. Структура расходов — вход, выход, кэш, инструменты
На примере цен API Claude Opus 4.7 (по состоянию на май 2026 года) разберём, куда уходят деньги.
| Статья | Цена за единицу | Описание |
|---|---|---|
| Токены входа | $5 / 1M токенов | То, что вы отправляете: промпт + история диалога + файлы и т. д. |
| Токены вывода | $25 / 1M токенов | То, что возвращает ИИ. В 5 раз дороже входа. |
| Запись в кэш | $6,25 / 1M токенов (1,25×) | Сохранение в кэш с TTL 5 минут (доплата только за первую запись). |
| Запись в кэш (1 ч) | $10 / 1M токенов (2×) | Кэш с TTL 1 час. Держится дольше, но запись дороже. |
| Чтение из кэша | $0,50 / 1M токенов (10%) | 10% от цены входа. Главная звезда экономии. |
| Вызовы инструментов | — (включено) | Определения инструментов — часть контекста. Чем больше инструментов, тем толще вход. |
Короче говоря, «то, что лежит в кэше, читается за одну десятую цены». Это самый большой рычаг экономии в 2026 году.
3. Выбор тарифа и его влияние на экономию
В тот момент, когда вы можете предсказать, как будете пользоваться, сначала переключитесь на правильный тариф.
| Использование | Рекомендуемый тариф | Цель в месяц | Оговорки |
|---|---|---|---|
| Хобби, обучение, несколько раз в неделю | Claude Free / ChatGPT Free | $0 | Лимиты скорости; не для рабочих данных. |
| Личное, несколько часов в день | Claude Pro / ChatGPT Plus | $20 | Персональный тариф; не для рабочих данных. |
| Интенсивное личное использование | Claude Max | $100–200 | Более высокий потолок; рекомендуется для Claude Code. |
| Командная работа | Claude Team / ChatGPT Team | $25–30/пользователь | Подходит для рабочих данных; данные не используются для обучения. |
| Крупная организация | Enterprise | По запросу | SSO, журналы аудита, SLA. |
| Разработка со встроенным ИИ | Прямой API (Anthropic / OpenAI) | По расходу | Используйте кэширование и batch. |
Если вы собираетесь пользоваться Claude Code «всерьёз, по несколько часов в день», тариф Max ($100 или $200) почти всегда правильный ответ. Дешевле, чем прямой API, и лимитов скорости практически достаточно. Cursor предлагает уровни вроде Pro $20, Ultra $200.
4. Кэширование промптов — самый сильный одиночный рычаг
Если вы обращаетесь к API напрямую, кэширование промптов — это инструмент экономии, у которого «нет причины не использовать». Сама Anthropic называет его «самым недоиспользуемым инструментом оптимизации стоимости 2026 года».
Как это работает
Когда вы переиспользуете один и тот же системный промпт или одни и те же документы между запросами, первый вызов записывает в кэш (стоимость 1,25×). Каждый последующий вызов читает из кэша по 10% от цены входа.
Математика точки безубыточности
- TTL 5 минут (запись 1,25×): безубыточность с двух чтений
- TTL 1 час (запись 2×): безубыточность с пяти чтений
- Эмпирическое правило для продакшена: 3+ чтения на TTL 5 мин или 5+ чтений на TTL 1 ч — гарантированный выигрыш
Важное изменение 2026 года
В начале 2026 года Anthropic сократила TTL кэша промптов по умолчанию с 60 минут до 5 минут. Если вы держите продакшен и не заметили — ваша эффективная стоимость выросла на 30–60%. Разработчики, застрявшие на «старой интуиции», тихо теряют деньги — это скрытая проблема 2026 года.
Рекомендуемый паттерн
Для продакшен-приложений:
- системный промпт + определения инструментов: кэш с TTL 1 час (части, которые не меняются)
- начало истории диалога: кэш с TTL 5 мин (части, к которым обращаются повторно в коротком окне)
Если ваш hit-rate кэша (cache_read / (cache_read + input)) ниже 60% — есть куда оптимизировать. На продакшене целитесь в 80%+.
5. Управление контекстом — /compact и разбиение
Поработайте с Claude Code или Cursor какое-то время, и где-то посреди длинного диалога вы обнаружите, что «я почему-то отправляю по 100k токенов на каждом ходу». Это не вывод — это вход (= прошлый диалог) продолжает раздуваться.
Тактика 1: активно используйте /compact
В Claude Code есть команда /compact. Она суммирует и сжимает историю диалога, регенерируя контекстное окно. Можно ужать 200k токенов до 5 000. Подумайте о ней, когда сессия перевалила за 30 минут.
Тактика 2: разбивайте сессии по задачам
Не делайте «реализовать функцию A», «исправить баг B» и «сгенерировать док C» в одном длинном диалоге — начинайте свежие сессии. Закрывайте сессию по завершении каждой задачи. Если нужна долгосрочная память, выпишите её в файл памяти.
Тактика 3: подрезайте шум через Hooks
Claude Agent SDK / Claude Code предоставляют Hooks — они позволяют преобразовать вывод инструментов до того, как тот дойдёт до ИИ. Пример: сжать длинный лог npm install до простого «успех/неудача» через Hook. Только это сэкономит тысячи токенов на каждом ходу.
6. Выбор модели — маршрутизация по задачам
«Всегда Opus» — стратегия миллионера. Большинство задач получают достаточное качество от Sonnet или Haiku. Официальные ценовые соотношения Anthropic таковы (май 2026 года).
| Модель | Вход | Выход | Лучше всего для |
|---|---|---|---|
| Claude Opus 4.7 | $5 | $25 | Сложный дизайн, рассуждения, длинные автономные задачи |
| Claude Sonnet 4.7 | $3 | $15 | Ежедневный кодинг, анализ, суммирование |
| Claude Haiku 4.5 | $0,80 | $4 | Классификация, извлечение, короткое преобразование, реальное время |
| GPT-5.5 | $5 | $30 | Планирование, исполнение, контроль терминала |
| GPT-5.5 mini | $0,60 | $2,40 | Лёгкие задачи |
От Opus до Haiku — примерно в 6 раз дешевле. Уже одна маршрутизация по задачам даёт огромную экономию. Критерии выбора:
- Используйте Opus для: сложного рефакторинга, дизайна, охватывающего множество файлов, глубоких рассуждений, исследования незнакомой области
- Используйте Sonnet для: ежедневного кодинга, анализа, суммирования, ревью, добавления тестов
- Используйте Haiku для: классификации, извлечения, преобразования формата, подсказок в реальном времени, генерации сообщений коммитов
7. Управление бюджетом вывода
Токены вывода стоят в 5–6 раз дороже входа. Здесь экономия большая.
Три подхода
- Явно задавайте
max_tokens: ограничивайте черезmax_tokens: 1000или похожее в API-вызове. Безлимит по умолчанию опасен. - Добавляйте «отвечай кратко» или «пять пунктов» в промпт: ИИ слушается. Подавляйте лишние вступления, резюме и подписи.
- Структурированный вывод (режим JSON): JSON короче прозы. Если ваше приложение потребляет результат — это путь.
Для ситуаций, где «длинный красивый ответ» не нужен (классификация, извлечение, решения), жёсткое урезание оказывается экономнее.
8. Ловушка мультиагентов — 15-кратные токены
Тренд 2026 года, мультиагентные сборки (оркестратор + параллельные суб-агенты), мощный, но сама Anthropic публично заявила, что «потребление токенов примерно в 15 раз больше по сравнению с одним агентом».
Критерии решения для экономии
- Ясные, последовательные задачи (правка одного файла, суммирование, ревью кода) → достаточно одного агента
- Параллелизм, реально сокращающий время выполнения → мультиагент оправдан
- «Мультиагент по умолчанию» — экономически неверно. Начните с одного агента и разделяйте только те узкие места, которые реально видите.
Подробнее: см. Что такое мультиагент?
9. Мониторинг и оповещения о биллинге
Чтобы избежать сюрприза «вдруг $500», регулярный мониторинг + оповещения обязательны.
Пользователи API
- Проверяйте ежедневное потребление токенов в Anthropic Console / OpenAI Dashboard
- Установите лимит расхода: автоостановка при превышении $200/мес и т. п. Без лимита — опасно.
- Оповещения о биллинге: email при $50, Slack при $100 — пороги по этапам.
Пользователи Claude Code
- Через
/costпроверяйте потребление токенов и оценочную стоимость текущей сессии - Сделайте привычкой проверку
/costв конце дня
Администраторы организаций
- Отчёты по потреблению на пользователя (админ-консоль Anthropic Team / Enterprise)
- Обнаружение аномалий (помечать тех, кто потребляет в 3 раза больше нормы)
- Ежеквартальное распространение «шаблонов расточительства» на всю компанию
10. Семь типичных шаблонов расточительства
| Шаблон | Что не так | Исправление |
|---|---|---|
| Прикреплять все файлы заново на каждом ходу | Кэш не срабатывает; вход раздувается | Отправьте неизменяемые документы один раз и закэшируйте |
| Задавать один и тот же вопрос и в ChatGPT, и в Claude | Платите дважды за один и тот же вход на разных тарифах | Выберите один |
Продолжать длинный диалог без /compact | Полная история шлётся каждый ход | /compact после 30 минут |
| Использовать Opus для простой классификации или извлечения | Платите в 6 раз больше, чем стоил бы Haiku, за тот же результат | Подбирайте модель под задачу |
| Повторять «более отполированно» / «чуть длиннее» | Токены вывода накапливаются | Заявите желаемую длину сразу |
| Определять много ненужных инструментов | Определения инструментов едут в контексте | Определяйте только то, чем пользуетесь |
| Тянуться к мультиагенту по привычке | В 15 раз больше токенов, чем у одного агента | Только при ясной необходимости |
Итоги
- Три рычага оптимизации стоимости ИИ: кэширование промптов, маршрутизация моделей, бюджет вывода. В сумме — сжимают до 20–30% от неоптимизированной стоимости.
- Чтение из кэша = 10% от цены входа. Экономия 60–90% на продакшен-нагрузках. Следите за сокращением TTL в начале 2026 года (60 мин → 5 мин); проигнорируете — фактически выросли на 30–60%.
- Выбор модели: от Opus до Haiku — примерно в 6 раз дешевле. 80% задач прекрасно идут на Sonnet/Haiku.
- Бюджет вывода: токены вывода стоят в 5–6 раз дороже входа. Явно задавайте
max_tokensи просите «кратко». - Управление контекстом:
/compactпосле 30 минут на сессию, разбивайте по задачам, сжимайте вывод через Hooks. - Ловушка мультиагентов: в 15 раз больше токенов, чем у одного агента. Используйте только при ясной необходимости.
- Мониторинг: лимиты расхода, оповещения о биллинге и проверка
/costдолжны стать привычкой. - Знайте семь типичных шаблонов расточительства и избегайте их.
FAQ
Q1. Я пользуюсь Claude Code ежедневно — что выгоднее, Pro $20 или Max $200?
Если вы пользуетесь 2+ часа в день, Max почти наверняка выгоднее. Pro быстро упирается в потолок скорости, копится раздражение, и в итоге вы всё равно начинаете тратиться на API-биллинг. Max позволяет работать часами без беспокойства. Даже сама Anthropic в своих сообщениях исходит из того, что пользователи Pro будут пользоваться Claude Code «легко».
Q2. Нужна ли особая настройка для использования кэширования промптов?
В API нужно явно помечать блоки cache_control. По умолчанию это не работает. Интегрированные инструменты вроде Claude Code / Cursor часто используют его автоматически внутри, но если вы сами вызываете API — обязаны его декларировать. Подробнее — в официальной документации Anthropic.
Q3. ChatGPT vs. Claude — что экономичнее?
Зависит от сценария. Для длинных автономных задач и сложного кодинга Claude (особенно с кэшированием) часто оказывается дешевле. Для коротких Q&A и автоматизации терминала GPT-5.5 mini невероятно дёшев ($0,60 на входе). «Подписаться на оба и подбирать инструмент под задачу» — тоже практичный вариант.
Q4. Как понять, что «Haiku достаточно»?
Проведите трёхступенчатый эксперимент. (1) Заставьте работать на Opus. (2) Отправьте тот же промпт в Sonnet и сравните качество. (3) Если Sonnet выглядит сопоставимо, попробуйте и Haiku. Для многих рутинных задач Haiku и Opus отличаются на величину, которую вы не заметите. Берегите Opus для случаев, где действительно нужны глубокое суждение или рассуждение.
Q5. Стоит ли частному пользователю обращаться к API напрямую?
По обстоятельствам. Для 2+ часов интерактивного кодинга в день тариф Max ($100/$200) подавляюще проще. Для встраивания ИИ в собственное приложение, пакетной обработки или автоматизации прямой API необходим. Многие используют и то, и другое.
Q6. Какой порог поставить на оповещения о биллинге?
Для отдельного разработчика реалистичная схема — 1,5× от обычного месячного расхода на первое оповещение и 3× как автостоп. Пример: если обычно тратите $30/мес, оповещение на $50 и стоп на $100. На раннем этапе запустите более тонкие оповещения вроде $5/день, чтобы выработать интуицию, а затем ослабьте.
Q7. Нам сказали: «бюджет компании на ИИ слишком вырос». С чего начать?
Три шага по порядку. (1) Посмотрите на использование по пользователям и проверьте, какой % от общего потребляют верхние 5% (часто 50%+). (2) Опросите этих heavy-пользователей о рабочем процессе и выявите шаблоны расточительства. (3) Разошлите по компании внутреннее руководство по «кэшированию, маршрутизации моделей, бюджету вывода» и ежемесячно отчитывайтесь о прогрессе. Если поговорите с менеджером Anthropic / OpenAI Enterprise, можете получить и бесплатный обзор оптимизации.