Содержание
- 1. За год — пять моделей с 1M токенов, но реально читает до конца лишь одна
- 2. Что такое контекст? — Отделяем контейнер от его содержимого
- 3. Основные модели в мае 2026 — размеры контейнеров
- 4. Три причины, почему «больше — значит лучше» не работает
- 5. Ловушка стоимости — OpenAI удваивает цену выше 272K, Anthropic держит плоский тариф
- 6. Пять тактик экономии — ранжированы по реальной отдаче для соло-разработчиков
- Итоги
- FAQ
В 2023 году окно контекста на 32K токенов воспринималось как «просторное». К маю 2026 года 1 миллион токенов (1M) стал отраслевым стандартом. Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.5, Gemini 3.1 Pro, DeepSeek V4-Pro — все ведущие фронтир-модели поддерживают 1M. Gemini 3.1 Ultra достиг 2M.
«Один миллион токенов» — это примерно 8–10 книг карманного формата на английском или десятки тысяч строк исходного кода. Теперь столько информации можно держать «в поле зрения» в рамках одной сессии. Но есть нюанс: лишь одна из этих моделей действительно использует контейнер до самого конца. Независимые бенчмарки (multi-needle NIAH, подробнее ниже) показывают, что только Gemini 3 в режиме Deep Think сохраняет точность по всему диапазону 1M. Остальные начинают терять точность где-то между 200K и 400K — такова честная полевая реальность 2026 года.
Сразу обозначу свою позицию: эпоха выбора модели исключительно по размеру контейнера закончилась. Сейчас важна тройка «эффективный контекст × стоимость × стратегия», и переход Anthropic на плоский тариф 1M — самое интересное событие года. В этой статье разберём, что такое контекст на самом деле, какие модели представлены в мае 2026, почему одного размера недостаточно, в чём различия в структуре цен, и пять практичных тактик экономии контекста, которые соло-разработчики и небольшие команды могут применить уже сегодня — с опорой на цифры из независимых бенчмарков.
Контейнер вырос в 250 раз за три года
— хроника того, как 1M превратился из роскоши в базовый уровень
Но «поддерживает» и «реально дочитывает до конца» — разные вещи. Только Gemini 3 Deep Think сохраняет точность по всему диапазону 1M в multi-needle NIAH-бенчмарках;
остальные начинают деградировать на 200K–400K (Digital Applied, Zylos 2026).
1. За год — пять моделей с 1M токенов, но реально читает до конца лишь одна
Когда OpenAI анонсировала GPT-5.5 в апреле 2026, сеть ликовала: «OpenAI наконец достигла 1M». В том же месяце Google выпустила Gemini 3.1 Ultra с 2M. Anthropic ещё годом ранее ввела плоский тариф 1M на Claude Opus 4.6 и закрепила его в 4.7. DeepSeek V4-Pro тоже идёт с 1M. Пять фронтир-вендоров теперь могут по праву писать «1M+ токенов» в спецификации.
Это должно было стать большим событием. Всего три года назад 32K казались впечатляющими. С тех пор размер окна вырос в 30 с лишним раз. Гонка размеров контейнеров казалась выигранной.
Затем независимые оценщики Digital Applied и Zylos Research провели в 2026 году тест multi-needle Needle-in-a-Haystack (NIAH) — встраивали несколько фактов в длинные документы и просили модели корректно извлечь их все. Вот что они обнаружили:
- Gemini 3 Deep Think: сохраняет заявленную точность по всему диапазону 1M
- Claude Opus 4.7 / GPT-5.5 / DeepSeek V4-Pro: точность падает примерно с 200K–400K
То есть, хотя «поддержка 1M» стала повсеместной, реально использует этот 1M до конца в условиях, эквивалентных продакшену, лишь одна модель. У других фронтир-моделей при попытке интегрировать несколько фактов уже на 200K–400K появляется напряжение. Такова реальность 2026 года.
Не читайте это как «Claude или GPT плохие». Случаи, когда действительно нужен полный 1M, редки. Если вы можете надёжно прочитать 300K (≈ 2–3 книги карманного формата), почти любая задача программирования, исследования или резюмирования будет выполнена. Ловушка — выбирать модель по одному заголовку «поддержка 1M», это уводит решение в сторону.
2. Что такое контекст? — Отделяем контейнер от его содержимого
Краткая терминология. Три слова в этой области часто путают.
Токен, окно, контекст
Коротко: «окно = размер контейнера», «контекст = содержимое», «токен = единица».
Большой контейнер с беспорядочным содержимым по-прежнему даёт беспорядочные ответы.
И ещё: не путайте «контекст» с «памятью». Контекст живёт внутри сессии — закройте чат, и его нет. Функции вроде ChatGPT Memory или Claude Memory — это отдельный механизм межсессионного хранения. Содержимое памяти в итоге всё равно подгружается в окно контекста, но с точки зрения пользователя это постоянное хранилище против эфемерного рабочего пространства.
3. Основные модели в мае 2026 — размеры контейнеров
Когда определения ясны, вот размеры контейнеров, которые на сегодня публикуют ведущие вендоры. Все цифры — из официальных спецификаций по состоянию на май 2026.
| Модель | Лимит входа | Лимит выхода | Примечания |
|---|---|---|---|
| Claude Opus 4.7 | 1 000 000 | 128 000 | Плоский 1M по стандартной цене, beta-заголовок не нужен |
| Claude Sonnet 4.6 | 1 000 000 | 64 000 | Тот же плоский тариф |
| Claude Haiku 4.5 | 200 000 | 64 000 | Лёгкая модель, тарифа 1M нет |
| GPT-5.5 | 922 000 | 128 000 | API всего ~1M; цена входа 2x выше 272K |
| GPT-5.4 | 1 000 000 | 128 000 | Та же надбавка за длинный контекст |
| Gemini 3.1 Pro | 1 000 000 | 65 535 | Доступно через Vertex AI / AI Studio |
| Gemini 3.1 Ultra | 2 000 000 | 65 535 | Тариф 2M — на сегодня единственная коммерческая модель с 2M |
| Grok 4 | 256 000 | 32 000 | Официальная спецификация xAI; консервативная среди фронтир |
| DeepSeek V4-Pro | 1 000 000 | 96 000 | Самая большая в open-weight-сегменте |
Прочитайте только таблицу — и сделаете вывод «Gemini Ultra побеждает, конец истории». Но есть один факт, заслуживающий выделения: Anthropic предлагает 1M по плоскому тарифу на Opus 4.6/4.7 и Sonnet 4.6, тогда как OpenAI удваивает цену входа на GPT-5.5 выше 272K токенов. Это не просто рычажок ценообразования — это стратегическая позиция о том, как должны обслуживаться нагрузки с длинным контекстом. Математику стоимости разберём чуть позже.
Лично я держу Claude Opus 4.7 как рабочую лошадку для длинных задач. Три причины: плоский тариф, стабильная точность в полосе 200K и качество документации Anthropic. Для документов, которые действительно превышают 300K, переключаюсь на Gemini 3 Deep Think. Смешивание моделей по сценариям — правильный ход в 2026.
4. Три причины, почему «больше — значит лучше» не работает
Предыдущая таблица перечисляла лишь физические размеры контейнеров. Куда сложнее вопрос, действительно ли модели используют то, что заявлено. Короткий ответ: за пределами Gemini 3 Deep Think — мрачно. Три причины.
Причина ①: Lost in the Middle
Впервые задокументирована Стэнфордом (Stanford) в 2023 году и воспроизведена в каждом поколении моделей с тех пор. ИИ сильно взвешивает начало и конец входа, а середину (позиционная зона 30–70%) недооценивает. Информация, размещённая ближе к центру 100K-контекста, извлекается с точностью на 5–15 процентных пунктов ниже, чем та же информация в начале или конце.
Бытовой симптом: «вставляешь длинный PDF, спрашиваешь "какова цифра по X?", и модель неверно сообщает число, которое находится прямо посередине». Это и есть Lost in the Middle. Спустя три года после оригинальной статьи Стэнфорда даже фронтир-модели не закрыли этот разрыв полностью.
Причина ②: Context Rot
Чем дольше идёт разговор, тем больше выцветают изначальные инструкции. Вы сказали «отвечай в формальном английском» в начале; через двадцать ходов модель уже сместилась обратно к разговорным формулировкам — это и есть Context Rot.
Две причины. ① Ранние инструкции лежат относительно «старыми» и в истории взвешиваются легче. ② При длинной истории внимание рассеивается, и обращаться к конкретным токенам становится сложнее. В 2026 году Anthropic начала формулировать это как «context engineering» — осознанный навык управления этими эффектами.
Причина ③: Заявленный контекст ≠ эффективный контекст
Вот как реально выглядят свежие бенчмарки 2026 года (multi-needle NIAH, условия, эквивалентные продакшену).
Эффективный контекст (интеграция нескольких фактов)
Источники: Digital Applied «Long-Context Retrieval 2026» / Zylos Research «LLM Context Window Management 2026».
В single-needle NIAH (один факт для извлечения) все модели проходят 1M, но интеграция нескольких фактов рассказывает другую историю.
Повторю: это не «Claude Opus 4.7 сломан». 200K–400K — это всё ещё ёмкость в 2–3 романа карманного формата. Большинство реальных задач (ревью кода, длинные тексты, протоколы встреч, синтез исследований) укладываются в этот диапазон. Проблема — в предположении «раз это 1M, давайте просто свалим туда 1M». Эта стратегия работает только на Gemini Deep Think.
5. Ловушка стоимости — OpenAI удваивает цену выше 272K, Anthropic держит плоский тариф
Только что мы установили: «эффективные — 200K–400K». Поверх этого — вторая ловушка: длинный контекст резко увеличивает счёт. Anthropic и OpenAI здесь выбрали противоположные стратегии.
| Модель | Стандартная цена входа | Надбавка за длинный контекст |
|---|---|---|
| Claude Opus 4.7 | $5.00 / 1M токенов | Плоский по всему 1M, без надбавки |
| Claude Sonnet 4.6 | $3.00 / 1M токенов | То же — без надбавки |
| GPT-5.5 | $5.00 / 1M токенов | Выше 272K: 2x на вход, 1.5x на выход |
| GPT-5.4 | Сопоставимо | Та же надбавка за длинный контекст |
Конкретная арифметика. Вход 500K токенов + выход 50K токенов, один цикл — канонический случай резюмирования крупной кодовой базы или годового отчёта за один проход.
- Claude Opus 4.7: $5.00 × 0.5 + $25.00 × 0.05 = $3.75
- GPT-5.5 (с надбавкой за превышение 272K): $10.00 × 0.5 + $45.00 × 0.05 = $7.25
Это $3.50 за вызов. Запустите 100 раз в день — и вы расходитесь на $10 500 в месяц. Для команд, гоняющих долгоживущих агентов, разрыв легко достигает середины пятизначных сумм в месяц. Тот же структурный паттерн, что мы разбирали в экономии токенов и расходов на сессии ИИ.
6. Пять тактик экономии — ранжированы по реальной отдаче для соло-разработчиков
«Контейнер — 1M, эффективные — около 300K, и долгое использование стоит дорого». Мы это разобрали. Что же реально можно сделать в поле? Вот пять тактик, которые я применяю изо дня в день, ранжированные по тому, какая даёт наибольшую отдачу.
Экономия контекста — порядок приоритетов
/compact или начинайте новую сессию.
Из пяти тактик тактика ① «Прервать сессию» даёт самый заметный прирост. Уже одно прерывание чата ощутимо снижает галлюцинации.
Тактика ④ — для разработчиков API: UI (claude.ai / ChatGPT) обрабатывают кэширование автоматически.
Моя личная лучшая практика: уже одно последовательное применение ① и ② заметно сдвигает ощущаемую точность. Даже с Claude Code, вместо того чтобы тянуть одну длинную сессию, нажимать /compact или начинать свежую сессию при каждой смене темы — это удерживает итоговое качество вывода стабильным.
Итоги
Резюмирую:
- Окно контекста = максимальное число токенов, которое ИИ может обработать за один обмен. Размер контейнера.
- По состоянию на май 2026, Claude Opus 4.7 / Sonnet 4.6 / GPT-5.5 / Gemini 3.1 Pro / DeepSeek V4-Pro — все поддерживают 1M; Gemini 3.1 Ultra дотягивается до 2M.
- Независимые бенчмарки (multi-needle NIAH) показывают, что только Gemini 3 Deep Think сохраняет точность по всему 1M; остальные начинают выцветать на 200K–400K.
- По стоимости Anthropic держит плоский тариф, а OpenAI применяет надбавку выше 272K. Чёткое стратегическое расхождение.
- Пять тактик — прервать сессию, отправлять выдержки, повторить в конце, кэшировать, адресовать явно — и тактики ① и ② несут наибольший вес.
Даже с большими контейнерами реальная работа по-прежнему сводится к тому, что отправить, а что оставить за бортом. Навык ИИ 2026 года — это не «впихивай всё». Это умение точно отправлять только нужное — именно оно остаётся полезным надолго. Понаблюдав за тем, как пять вендоров короновали себя «1M» в этом году, к такому выводу прихожу я.
FAQ
OpenAI предлагает библиотеку tiktoken; Anthropic выставляет в официальном SDK API, эквивалентный countTokens(). Эмпирическое правило: ~0,75 английских слова на токен, ~1–1,5 токена на CJK-символ. Код варьируется в зависимости от токенизатора, поэтому перед отправкой длинных входов измеряйте.
Контекст живёт только внутри сессии — закрыли чат, и его нет. Память (ChatGPT Memory / Claude Memory) — это отдельный механизм межсессионного хранения. Содержимое памяти в итоге попадает в окно контекста, но с точки зрения пользователя это постоянное против эфемерного.
RAG — это паттерн «динамически подгружать в контекст только нужную информацию». Даже с окном в 1M сваливать туда всё подряд — медленно, тяжеловесно и дорого, поэтому подход «сначала найти, потом загрузить» (RAG) остаётся мейнстримом. Подробнее в «Что такое RAG».
Несоответствие между длинами последовательностей при обучении и при инференсе, ограничения позиционного кодирования в механизме внимания и взрыв вычислений, нужный для интеграции нескольких фактов, — всё это складывается. «Поддерживается» и «точность сохраняется по всему диапазону» — разные задачи.
Да. MCP — это механизм подгрузки по требованию через инструменты, поэтому не нужно загружать всё в контекст заранее. Смените ментальную модель с «вставить файл целиком» на «дать ему сходить и прочитать файл».