Как сократить расходы на ИИ

Q: Нужна ли особая настройка для использования кэширования промптов?

В API нужно явно помечать блоки cache_control. По умолчанию это не работает. Интегрированные инструменты вроде Claude Code / Cursor часто используют его автоматически внутри, но если вы сами вызываете API — обязаны его декларировать. Подробнее — в официальной документации Anthropic.

Q: ChatGPT vs. Claude — что экономичнее?

Зависит от сценария. Для длинных автономных задач и сложного кодинга Claude (особенно с кэшированием) часто оказывается дешевле. Для коротких Q&amp;amp;A и автоматизации терминала GPT-5.5 mini невероятно дёшев ($0,60 на входе). «Подписаться на оба и подбирать инструмент под задачу» — тоже практичный вариант.

Q: Как понять, что «Haiku достаточно»?

Проведите трёхступенчатый эксперимент. (1) Заставьте работать на Opus. (2) Отправьте тот же промпт в Sonnet и сравните качество. (3) Если Sonnet выглядит сопоставимо, попробуйте и Haiku. Для многих рутинных задач Haiku и Opus отличаются на величину, которую вы не заметите. Берегите Opus для случаев, где действительно нужны глубокое суждение или рассуждение.

Q: Стоит ли частному пользователю обращаться к API напрямую?

По обстоятельствам. Для 2+ часов интерактивного кодинга в день тариф Max ($100/$200) подавляюще проще. Для встраивания ИИ в собственное приложение, пакетной обработки или автоматизации прямой API необходим. Многие используют и то, и другое.

Q: Какой порог поставить на оповещения о биллинге?

Для отдельного разработчика реалистичная схема — 1,5× от обычного месячного расхода на первое оповещение и 3× как автостоп. Пример: если обычно тратите $30/мес, оповещение на $50 и стоп на $100. На раннем этапе запустите более тонкие оповещения вроде $5/день, чтобы выработать интуицию, а затем ослабьте.

Q: Нам сказали: «бюджет компании на ИИ слишком вырос». С чего начать?

Три шага по порядку. (1) Посмотрите на использование по пользователям и проверьте, какой % от общего потребляют верхние 5% (часто 50%+). (2) Опросите этих heavy-пользователей о рабочем процессе и выявите шаблоны расточительства. (3) Разошлите по компании внутреннее руководство по «кэшированию, маршрутизации моделей, бюджету вывода» и ежемесячно отчитывайтесь о прогрессе. Если поговорите с менеджером Anthropic / OpenAI Enterprise, можете получить и бесплатный обзор оптимизации.

Как сократить расходы на ИИ — 3 рычага: кэширование промптов, выбор модели, бюджет вывода

Содержание

1. Почему счёт за ИИ незаметно раздувается
2. Структура расходов — вход, выход, кэш, инструменты
3. Выбор тарифа и его влияние на экономию
4. Кэширование промптов — самый сильный одиночный рычаг
5. Управление контекстом — /compact и разбиение
6. Выбор модели — маршрутизация по задачам
7. Управление бюджетом вывода
8. Ловушка мультиагентов — 15-кратные токены
9. Мониторинг и оповещения о биллинге
10. Семь типичных шаблонов расточительства
Итоги
FAQ

«Я пользовался ChatGPT Plus, потом перешёл на Claude Code, и мой ежемесячный счёт вырос в 10 раз». — На пороге 2026 года такие жалобы среди инженеров стали массовыми. Инструменты ИИ полезны, но если не уметь ими пользоваться, десятки тысяч долларов в месяц могут тихо исчезнуть.

Хорошая новость: сочетая три рычага (кэширование промптов, маршрутизация моделей, бюджет вывода), можно делать ту же работу за 20–30% от неоптимизированной стоимости. Опираясь на официальные рекомендации Anthropic, отраслевые исследования и реальные эксплуатационные данные, эта статья показывает, как законно экономить на расходах на ИИ-инструменты.

3 РЫЧАГА · 2026

Сжать до 20–30% от неоптимизированной стоимости

— реалистичный кейс: $30K/мес снижается до $6–9K

РЫЧАГ 1 КЭШ

−60 до 90%

Кэширование промптов резко снижает стоимость входа. Максимальный эффект на продакшене, где переиспользуется один и тот же системный промпт.

РЫЧАГ 2 ВЫБОР МОДЕЛИ

−50 до 80%

Маршрутизируйте Opus / Sonnet / Haiku под задачу. Восемь из десяти задач прекрасно справляются на более дешёвой модели.

РЫЧАГ 3 БЮДЖЕТ ВЫВОДА

−30 до 60%

Ограничивайте через max_tokens и просите «отвечать кратко». Токены вывода стоят в 5–6 раз дороже входа.

Три рычага умножаются, когда применяются вместе.
«Только кэш» или «только выбор модели» оставляет деньги на столе — бить всеми тремя сразу — главный тезис этой статьи.

1. Почему счёт за ИИ незаметно раздувается

Инструменты ИИ имеют две схемы биллинга: персональные тарифы (фикс) и API-биллинг (по расходу). Взрывается счёт в основном по второй схеме.

Персональные тарифы: ChatGPT Plus $20/мес, Claude Pro $20/мес, Max $100–200/мес. Фиксированная стоимость, поэтому даже при интенсивном использовании есть потолок (с лимитами скорости).
API-биллинг: по токенам, по факту использования. Сюда относятся Cursor / Claude Code / собственные ИИ-приложения, Lovable / Bolt.new и подобные. Пользоваться небрежно — и месячный счёт вырастает на порядок.

Причины внезапных «$300 за день» или «$50 сгорело за один день»: (1) токены вывода стоят в 5–6 раз дороже входа, (2) чем длиннее становится ваш контекст, тем больше пересылается целиком на каждом ходу, (3) суб-агенты вызываются за кулисами по нескольку раз, (4) если запустится цикл — он не остановится — всё это накапливается. Стоит понять механику — каждое исправимо.

2. Структура расходов — вход, выход, кэш, инструменты

На примере цен API Claude Opus 4.7 (по состоянию на май 2026 года) разберём, куда уходят деньги.

Статья	Цена за единицу	Описание
Токены входа	$5 / 1M токенов	То, что вы отправляете: промпт + история диалога + файлы и т. д.
Токены вывода	$25 / 1M токенов	То, что возвращает ИИ. В 5 раз дороже входа.
Запись в кэш	$6,25 / 1M токенов (1,25×)	Сохранение в кэш с TTL 5 минут (доплата только за первую запись).
Запись в кэш (1 ч)	$10 / 1M токенов (2×)	Кэш с TTL 1 час. Держится дольше, но запись дороже.
Чтение из кэша	$0,50 / 1M токенов (10%)	10% от цены входа. Главная звезда экономии.
Вызовы инструментов	— (включено)	Определения инструментов — часть контекста. Чем больше инструментов, тем толще вход.

Короче говоря, «то, что лежит в кэше, читается за одну десятую цены». Это самый большой рычаг экономии в 2026 году.

3. Выбор тарифа и его влияние на экономию

В тот момент, когда вы можете предсказать, как будете пользоваться, сначала переключитесь на правильный тариф.

Использование	Рекомендуемый тариф	Цель в месяц	Оговорки
Хобби, обучение, несколько раз в неделю	Claude Free / ChatGPT Free	$0	Лимиты скорости; не для рабочих данных.
Личное, несколько часов в день	Claude Pro / ChatGPT Plus	$20	Персональный тариф; не для рабочих данных.
Интенсивное личное использование	Claude Max	$100–200	Более высокий потолок; рекомендуется для Claude Code.
Командная работа	Claude Team / ChatGPT Team	$25–30/пользователь	Подходит для рабочих данных; данные не используются для обучения.
Крупная организация	Enterprise	По запросу	SSO, журналы аудита, SLA.
Разработка со встроенным ИИ	Прямой API (Anthropic / OpenAI)	По расходу	Используйте кэширование и batch.

Если вы собираетесь пользоваться Claude Code «всерьёз, по несколько часов в день», тариф Max ($100 или $200) почти всегда правильный ответ. Дешевле, чем прямой API, и лимитов скорости практически достаточно. Cursor предлагает уровни вроде Pro $20, Ultra $200.

4. Кэширование промптов — самый сильный одиночный рычаг

Если вы обращаетесь к API напрямую, кэширование промптов — это инструмент экономии, у которого «нет причины не использовать». Сама Anthropic называет его «самым недоиспользуемым инструментом оптимизации стоимости 2026 года».

Как это работает

Когда вы переиспользуете один и тот же системный промпт или одни и те же документы между запросами, первый вызов записывает в кэш (стоимость 1,25×). Каждый последующий вызов читает из кэша по 10% от цены входа.

Математика точки безубыточности

TTL 5 минут (запись 1,25×): безубыточность с двух чтений
TTL 1 час (запись 2×): безубыточность с пяти чтений
Эмпирическое правило для продакшена: 3+ чтения на TTL 5 мин или 5+ чтений на TTL 1 ч — гарантированный выигрыш

Важное изменение 2026 года

В начале 2026 года Anthropic сократила TTL кэша промптов по умолчанию с 60 минут до 5 минут. Если вы держите продакшен и не заметили — ваша эффективная стоимость выросла на 30–60%. Разработчики, застрявшие на «старой интуиции», тихо теряют деньги — это скрытая проблема 2026 года.

5. Управление контекстом — /compact и разбиение

Поработайте с Claude Code или Cursor какое-то время, и где-то посреди длинного диалога вы обнаружите, что «я почему-то отправляю по 100k токенов на каждом ходу». Это не вывод — это вход (= прошлый диалог) продолжает раздуваться.

Тактика 1: активно используйте `/compact`

В Claude Code есть команда /compact. Она суммирует и сжимает историю диалога, регенерируя контекстное окно. Можно ужать 200k токенов до 5 000. Подумайте о ней, когда сессия перевалила за 30 минут.

Тактика 2: разбивайте сессии по задачам

Не делайте «реализовать функцию A», «исправить баг B» и «сгенерировать док C» в одном длинном диалоге — начинайте свежие сессии. Закрывайте сессию по завершении каждой задачи. Если нужна долгосрочная память, выпишите её в файл памяти.

Тактика 3: подрезайте шум через Hooks

Claude Agent SDK / Claude Code предоставляют Hooks — они позволяют преобразовать вывод инструментов до того, как тот дойдёт до ИИ. Пример: сжать длинный лог npm install до простого «успех/неудача» через Hook. Только это сэкономит тысячи токенов на каждом ходу.

6. Выбор модели — маршрутизация по задачам

«Всегда Opus» — стратегия миллионера. Большинство задач получают достаточное качество от Sonnet или Haiku. Официальные ценовые соотношения Anthropic таковы (май 2026 года).

Модель	Вход	Выход	Лучше всего для
Claude Opus 4.7	$5	$25	Сложный дизайн, рассуждения, длинные автономные задачи
Claude Sonnet 4.7	$3	$15	Ежедневный кодинг, анализ, суммирование
Claude Haiku 4.5	$0,80	$4	Классификация, извлечение, короткое преобразование, реальное время
GPT-5.5	$5	$30	Планирование, исполнение, контроль терминала
GPT-5.5 mini	$0,60	$2,40	Лёгкие задачи

От Opus до Haiku — примерно в 6 раз дешевле. Уже одна маршрутизация по задачам даёт огромную экономию. Критерии выбора:

Используйте Opus для: сложного рефакторинга, дизайна, охватывающего множество файлов, глубоких рассуждений, исследования незнакомой области
Используйте Sonnet для: ежедневного кодинга, анализа, суммирования, ревью, добавления тестов
Используйте Haiku для: классификации, извлечения, преобразования формата, подсказок в реальном времени, генерации сообщений коммитов

7. Управление бюджетом вывода

Токены вывода стоят в 5–6 раз дороже входа. Здесь экономия большая.

Три подхода

Явно задавайте max_tokens: ограничивайте через max_tokens: 1000 или похожее в API-вызове. Безлимит по умолчанию опасен.
Добавляйте «отвечай кратко» или «пять пунктов» в промпт: ИИ слушается. Подавляйте лишние вступления, резюме и подписи.
Структурированный вывод (режим JSON): JSON короче прозы. Если ваше приложение потребляет результат — это путь.

Для ситуаций, где «длинный красивый ответ» не нужен (классификация, извлечение, решения), жёсткое урезание оказывается экономнее.

8. Ловушка мультиагентов — 15-кратные токены

Тренд 2026 года, мультиагентные сборки (оркестратор + параллельные суб-агенты), мощный, но сама Anthropic публично заявила, что «потребление токенов примерно в 15 раз больше по сравнению с одним агентом».

Критерии решения для экономии

Ясные, последовательные задачи (правка одного файла, суммирование, ревью кода) → достаточно одного агента
Параллелизм, реально сокращающий время выполнения → мультиагент оправдан
«Мультиагент по умолчанию» — экономически неверно. Начните с одного агента и разделяйте только те узкие места, которые реально видите.

Подробнее: см. Что такое мультиагент?

9. Мониторинг и оповещения о биллинге

Чтобы избежать сюрприза «вдруг $500», регулярный мониторинг + оповещения обязательны.

Пользователи API

Проверяйте ежедневное потребление токенов в Anthropic Console / OpenAI Dashboard
Установите лимит расхода: автоостановка при превышении $200/мес и т. п. Без лимита — опасно.
Оповещения о биллинге: email при $50, Slack при $100 — пороги по этапам.

Пользователи Claude Code

Через /cost проверяйте потребление токенов и оценочную стоимость текущей сессии
Сделайте привычкой проверку /cost в конце дня

Администраторы организаций

Отчёты по потреблению на пользователя (админ-консоль Anthropic Team / Enterprise)
Обнаружение аномалий (помечать тех, кто потребляет в 3 раза больше нормы)
Ежеквартальное распространение «шаблонов расточительства» на всю компанию

10. Семь типичных шаблонов расточительства

Шаблон	Что не так	Исправление
Прикреплять все файлы заново на каждом ходу	Кэш не срабатывает; вход раздувается	Отправьте неизменяемые документы один раз и закэшируйте
Задавать один и тот же вопрос и в ChatGPT, и в Claude	Платите дважды за один и тот же вход на разных тарифах	Выберите один
Продолжать длинный диалог без `/compact`	Полная история шлётся каждый ход	`/compact` после 30 минут
Использовать Opus для простой классификации или извлечения	Платите в 6 раз больше, чем стоил бы Haiku, за тот же результат	Подбирайте модель под задачу
Повторять «более отполированно» / «чуть длиннее»	Токены вывода накапливаются	Заявите желаемую длину сразу
Определять много ненужных инструментов	Определения инструментов едут в контексте	Определяйте только то, чем пользуетесь
Тянуться к мультиагенту по привычке	В 15 раз больше токенов, чем у одного агента	Только при ясной необходимости

Итоги

Три рычага оптимизации стоимости ИИ: кэширование промптов, маршрутизация моделей, бюджет вывода. В сумме — сжимают до 20–30% от неоптимизированной стоимости.
Чтение из кэша = 10% от цены входа. Экономия 60–90% на продакшен-нагрузках. Следите за сокращением TTL в начале 2026 года (60 мин → 5 мин); проигнорируете — фактически выросли на 30–60%.
Выбор модели: от Opus до Haiku — примерно в 6 раз дешевле. 80% задач прекрасно идут на Sonnet/Haiku.
Бюджет вывода: токены вывода стоят в 5–6 раз дороже входа. Явно задавайте max_tokens и просите «кратко».
Управление контекстом: /compact после 30 минут на сессию, разбивайте по задачам, сжимайте вывод через Hooks.
Ловушка мультиагентов: в 15 раз больше токенов, чем у одного агента. Используйте только при ясной необходимости.
Мониторинг: лимиты расхода, оповещения о биллинге и проверка /cost должны стать привычкой.
Знайте семь типичных шаблонов расточительства и избегайте их.

FAQ

Q1. Я пользуюсь Claude Code ежедневно — что выгоднее, Pro $20 или Max $200?

Если вы пользуетесь 2+ часа в день, Max почти наверняка выгоднее. Pro быстро упирается в потолок скорости, копится раздражение, и в итоге вы всё равно начинаете тратиться на API-биллинг. Max позволяет работать часами без беспокойства. Даже сама Anthropic в своих сообщениях исходит из того, что пользователи Pro будут пользоваться Claude Code «легко».

Q2. Нужна ли особая настройка для использования кэширования промптов?

В API нужно явно помечать блоки cache_control. По умолчанию это не работает. Интегрированные инструменты вроде Claude Code / Cursor часто используют его автоматически внутри, но если вы сами вызываете API — обязаны его декларировать. Подробнее — в официальной документации Anthropic.

Q3. ChatGPT vs. Claude — что экономичнее?

Зависит от сценария. Для длинных автономных задач и сложного кодинга Claude (особенно с кэшированием) часто оказывается дешевле. Для коротких Q&A и автоматизации терминала GPT-5.5 mini невероятно дёшев ($0,60 на входе). «Подписаться на оба и подбирать инструмент под задачу» — тоже практичный вариант.

Q4. Как понять, что «Haiku достаточно»?

Проведите трёхступенчатый эксперимент. (1) Заставьте работать на Opus. (2) Отправьте тот же промпт в Sonnet и сравните качество. (3) Если Sonnet выглядит сопоставимо, попробуйте и Haiku. Для многих рутинных задач Haiku и Opus отличаются на величину, которую вы не заметите. Берегите Opus для случаев, где действительно нужны глубокое суждение или рассуждение.

Q5. Стоит ли частному пользователю обращаться к API напрямую?

По обстоятельствам. Для 2+ часов интерактивного кодинга в день тариф Max ($100/$200) подавляюще проще. Для встраивания ИИ в собственное приложение, пакетной обработки или автоматизации прямой API необходим. Многие используют и то, и другое.

Q6. Какой порог поставить на оповещения о биллинге?

Для отдельного разработчика реалистичная схема — 1,5× от обычного месячного расхода на первое оповещение и 3× как автостоп. Пример: если обычно тратите $30/мес, оповещение на $50 и стоп на $100. На раннем этапе запустите более тонкие оповещения вроде $5/день, чтобы выработать интуицию, а затем ослабьте.

Q7. Нам сказали: «бюджет компании на ИИ слишком вырос». С чего начать?

Три шага по порядку. (1) Посмотрите на использование по пользователям и проверьте, какой % от общего потребляют верхние 5% (часто 50%+). (2) Опросите этих heavy-пользователей о рабочем процессе и выявите шаблоны расточительства. (3) Разошлите по компании внутреннее руководство по «кэшированию, маршрутизации моделей, бюджету вывода» и ежемесячно отчитывайтесь о прогрессе. Если поговорите с менеджером Anthropic / OpenAI Enterprise, можете получить и бесплатный обзор оптимизации.

Как сократить расходы на ИИ — 3 рычага: кэширование промптов, выбор модели, бюджет вывода

Сжать до 20–30% от неоптимизированной стоимости

1. Почему счёт за ИИ незаметно раздувается

2. Структура расходов — вход, выход, кэш, инструменты

3. Выбор тарифа и его влияние на экономию