В 2023 году окно контекста на 32K токенов воспринималось как «просторное». К маю 2026 года 1 миллион токенов (1M) стал отраслевым стандартом. Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.5, Gemini 3.1 Pro, DeepSeek V4-Pro — все ведущие фронтир-модели поддерживают 1M. Gemini 3.1 Ultra достиг 2M.

«Один миллион токенов» — это примерно 8–10 книг карманного формата на английском или десятки тысяч строк исходного кода. Теперь столько информации можно держать «в поле зрения» в рамках одной сессии. Но есть нюанс: лишь одна из этих моделей действительно использует контейнер до самого конца. Независимые бенчмарки (multi-needle NIAH, подробнее ниже) показывают, что только Gemini 3 в режиме Deep Think сохраняет точность по всему диапазону 1M. Остальные начинают терять точность где-то между 200K и 400K — такова честная полевая реальность 2026 года.

Сразу обозначу свою позицию: эпоха выбора модели исключительно по размеру контейнера закончилась. Сейчас важна тройка «эффективный контекст × стоимость × стратегия», и переход Anthropic на плоский тариф 1M — самое интересное событие года. В этой статье разберём, что такое контекст на самом деле, какие модели представлены в мае 2026, почему одного размера недостаточно, в чём различия в структуре цен, и пять практичных тактик экономии контекста, которые соло-разработчики и небольшие команды могут применить уже сегодня — с опорой на цифры из независимых бенчмарков.

ОКНО КОНТЕКСТА · 2023→2026

Контейнер вырос в 250 раз за три года

— хроника того, как 1M превратился из роскоши в базовый уровень

2023
4K–32K
GPT-3.5, ранний GPT-4. Едва вмещает одну научную статью.
2024
128K–200K
Claude 3 / GPT-4 Turbo. Десять статей или один роман целиком.
2025
1M–2M
Claude 4.6 / Gemini 1.5 Pro открывают 1M. Gemini Ultra достигает 2M.
2026
1M = стандарт
Opus 4.7, Sonnet 4.6, GPT-5.5, Gemini 3.1, DeepSeek V4 — все включены.

Но «поддерживает» и «реально дочитывает до конца» — разные вещи. Только Gemini 3 Deep Think сохраняет точность по всему диапазону 1M в multi-needle NIAH-бенчмарках;
остальные начинают деградировать на 200K–400K (Digital Applied, Zylos 2026).

1. За год — пять моделей с 1M токенов, но реально читает до конца лишь одна

Когда OpenAI анонсировала GPT-5.5 в апреле 2026, сеть ликовала: «OpenAI наконец достигла 1M». В том же месяце Google выпустила Gemini 3.1 Ultra с 2M. Anthropic ещё годом ранее ввела плоский тариф 1M на Claude Opus 4.6 и закрепила его в 4.7. DeepSeek V4-Pro тоже идёт с 1M. Пять фронтир-вендоров теперь могут по праву писать «1M+ токенов» в спецификации.

Это должно было стать большим событием. Всего три года назад 32K казались впечатляющими. С тех пор размер окна вырос в 30 с лишним раз. Гонка размеров контейнеров казалась выигранной.

Затем независимые оценщики Digital Applied и Zylos Research провели в 2026 году тест multi-needle Needle-in-a-Haystack (NIAH) — встраивали несколько фактов в длинные документы и просили модели корректно извлечь их все. Вот что они обнаружили:

  • Gemini 3 Deep Think: сохраняет заявленную точность по всему диапазону 1M
  • Claude Opus 4.7 / GPT-5.5 / DeepSeek V4-Pro: точность падает примерно с 200K–400K

То есть, хотя «поддержка 1M» стала повсеместной, реально использует этот 1M до конца в условиях, эквивалентных продакшену, лишь одна модель. У других фронтир-моделей при попытке интегрировать несколько фактов уже на 200K–400K появляется напряжение. Такова реальность 2026 года.

Не читайте это как «Claude или GPT плохие». Случаи, когда действительно нужен полный 1M, редки. Если вы можете надёжно прочитать 300K (≈ 2–3 книги карманного формата), почти любая задача программирования, исследования или резюмирования будет выполнена. Ловушка — выбирать модель по одному заголовку «поддержка 1M», это уводит решение в сторону.

2. Что такое контекст? — Отделяем контейнер от его содержимого

Краткая терминология. Три слова в этой области часто путают.

Три термина

Токен, окно, контекст

① ТОКЕН — единица текста
Минимальная единица, в которой ИИ обрабатывает текст. ~4 символа английского на токен (или ~0,75 слова); для языков CJK — примерно 1–1,5 токена на символ.
② ОКНО — размер контейнера
Максимальное число токенов, которое модель может обработать за один обмен. Вход и выход — суммарно. Всё, что выходит за границу, отрезается со стороны самого старого.
③ КОНТЕКСТ — содержимое
То, что сейчас загружено в окно. Включает системный промпт, историю беседы, вложения, выводы инструментов — всё это.

Коротко: «окно = размер контейнера», «контекст = содержимое», «токен = единица».
Большой контейнер с беспорядочным содержимым по-прежнему даёт беспорядочные ответы.

И ещё: не путайте «контекст» с «памятью». Контекст живёт внутри сессии — закройте чат, и его нет. Функции вроде ChatGPT Memory или Claude Memory — это отдельный механизм межсессионного хранения. Содержимое памяти в итоге всё равно подгружается в окно контекста, но с точки зрения пользователя это постоянное хранилище против эфемерного рабочего пространства.

Распространённое заблуждение: «Больше окно контекста = умнее ИИ» — неверно. Размер окна — это лишь верхняя граница того, что может находиться в поле зрения. Способность к рассуждению, глубина знаний и точность следования инструкциям измеряются отдельно. Каждый релиз модели подаёт в заголовке «1M контекста!», но это лишь одна грань возможностей.

3. Основные модели в мае 2026 — размеры контейнеров

Когда определения ясны, вот размеры контейнеров, которые на сегодня публикуют ведущие вендоры. Все цифры — из официальных спецификаций по состоянию на май 2026.

МодельЛимит входаЛимит выходаПримечания
Claude Opus 4.71 000 000128 000Плоский 1M по стандартной цене, beta-заголовок не нужен
Claude Sonnet 4.61 000 00064 000Тот же плоский тариф
Claude Haiku 4.5200 00064 000Лёгкая модель, тарифа 1M нет
GPT-5.5922 000128 000API всего ~1M; цена входа 2x выше 272K
GPT-5.41 000 000128 000Та же надбавка за длинный контекст
Gemini 3.1 Pro1 000 00065 535Доступно через Vertex AI / AI Studio
Gemini 3.1 Ultra2 000 00065 535Тариф 2M — на сегодня единственная коммерческая модель с 2M
Grok 4256 00032 000Официальная спецификация xAI; консервативная среди фронтир
DeepSeek V4-Pro1 000 00096 000Самая большая в open-weight-сегменте

Прочитайте только таблицу — и сделаете вывод «Gemini Ultra побеждает, конец истории». Но есть один факт, заслуживающий выделения: Anthropic предлагает 1M по плоскому тарифу на Opus 4.6/4.7 и Sonnet 4.6, тогда как OpenAI удваивает цену входа на GPT-5.5 выше 272K токенов. Это не просто рычажок ценообразования — это стратегическая позиция о том, как должны обслуживаться нагрузки с длинным контекстом. Математику стоимости разберём чуть позже.

Лично я держу Claude Opus 4.7 как рабочую лошадку для длинных задач. Три причины: плоский тариф, стабильная точность в полосе 200K и качество документации Anthropic. Для документов, которые действительно превышают 300K, переключаюсь на Gemini 3 Deep Think. Смешивание моделей по сценариям — правильный ход в 2026.

4. Три причины, почему «больше — значит лучше» не работает

Предыдущая таблица перечисляла лишь физические размеры контейнеров. Куда сложнее вопрос, действительно ли модели используют то, что заявлено. Короткий ответ: за пределами Gemini 3 Deep Think — мрачно. Три причины.

Причина ①: Lost in the Middle

Впервые задокументирована Стэнфордом (Stanford) в 2023 году и воспроизведена в каждом поколении моделей с тех пор. ИИ сильно взвешивает начало и конец входа, а середину (позиционная зона 30–70%) недооценивает. Информация, размещённая ближе к центру 100K-контекста, извлекается с точностью на 5–15 процентных пунктов ниже, чем та же информация в начале или конце.

Бытовой симптом: «вставляешь длинный PDF, спрашиваешь "какова цифра по X?", и модель неверно сообщает число, которое находится прямо посередине». Это и есть Lost in the Middle. Спустя три года после оригинальной статьи Стэнфорда даже фронтир-модели не закрыли этот разрыв полностью.

Причина ②: Context Rot

Чем дольше идёт разговор, тем больше выцветают изначальные инструкции. Вы сказали «отвечай в формальном английском» в начале; через двадцать ходов модель уже сместилась обратно к разговорным формулировкам — это и есть Context Rot.

Две причины. ① Ранние инструкции лежат относительно «старыми» и в истории взвешиваются легче. ② При длинной истории внимание рассеивается, и обращаться к конкретным токенам становится сложнее. В 2026 году Anthropic начала формулировать это как «context engineering» — осознанный навык управления этими эффектами.

Причина ③: Заявленный контекст ≠ эффективный контекст

Вот как реально выглядят свежие бенчмарки 2026 года (multi-needle NIAH, условия, эквивалентные продакшену).

Multi-Needle NIAH × 4 модели

Эффективный контекст (интеграция нескольких фактов)

Gemini 3 Deep Think ~весь 1M
Claude Opus 4.7 ~200K–400K
GPT-5.5 ~200K–400K
DeepSeek V4-Pro ~200K–400K

Источники: Digital Applied «Long-Context Retrieval 2026» / Zylos Research «LLM Context Window Management 2026».
В single-needle NIAH (один факт для извлечения) все модели проходят 1M, но интеграция нескольких фактов рассказывает другую историю.

Повторю: это не «Claude Opus 4.7 сломан». 200K–400K — это всё ещё ёмкость в 2–3 романа карманного формата. Большинство реальных задач (ревью кода, длинные тексты, протоколы встреч, синтез исследований) укладываются в этот диапазон. Проблема — в предположении «раз это 1M, давайте просто свалим туда 1M». Эта стратегия работает только на Gemini Deep Think.

5. Ловушка стоимости — OpenAI удваивает цену выше 272K, Anthropic держит плоский тариф

Только что мы установили: «эффективные — 200K–400K». Поверх этого — вторая ловушка: длинный контекст резко увеличивает счёт. Anthropic и OpenAI здесь выбрали противоположные стратегии.

МодельСтандартная цена входаНадбавка за длинный контекст
Claude Opus 4.7$5.00 / 1M токеновПлоский по всему 1M, без надбавки
Claude Sonnet 4.6$3.00 / 1M токеновТо же — без надбавки
GPT-5.5$5.00 / 1M токеновВыше 272K: 2x на вход, 1.5x на выход
GPT-5.4СопоставимоТа же надбавка за длинный контекст

Конкретная арифметика. Вход 500K токенов + выход 50K токенов, один цикл — канонический случай резюмирования крупной кодовой базы или годового отчёта за один проход.

  • Claude Opus 4.7: $5.00 × 0.5 + $25.00 × 0.05 = $3.75
  • GPT-5.5 (с надбавкой за превышение 272K): $10.00 × 0.5 + $45.00 × 0.05 = $7.25

Это $3.50 за вызов. Запустите 100 раз в день — и вы расходитесь на $10 500 в месяц. Для команд, гоняющих долгоживущих агентов, разрыв легко достигает середины пятизначных сумм в месяц. Тот же структурный паттерн, что мы разбирали в экономии токенов и расходов на сессии ИИ.

Замечание: плоский тариф 1M у Anthropic подавался как «намеренная дифференциация» в апрельском анализе Finout 2026 года. Там, где OpenAI монетизирует пользователей длинного контекста, Anthropic позиционирует «используйте длинный контекст без колебаний» как ценность бренда.

6. Пять тактик экономии — ранжированы по реальной отдаче для соло-разработчиков

«Контейнер — 1M, эффективные — около 300K, и долгое использование стоит дорого». Мы это разобрали. Что же реально можно сделать в поле? Вот пять тактик, которые я применяю изо дня в день, ранжированные по тому, какая даёт наибольшую отдачу.

Пять практичных советов

Экономия контекста — порядок приоритетов

① Прервать сессию
Когда тема меняется, открывайте новый чат. Уже сам факт того, что старый контекст не переносится, устраняет Context Rot. В Claude Code используйте /compact или начинайте новую сессию.
② Отправляйте выдержки, а не полные тексты
Вставлять 100-страничный PDF целиком — худший ход. Используйте grep / поиск, чтобы вытащить нужные разделы, сожмите до 3–5 страниц и отправляйте. Подход RAG, применённый сольно.
③ Повторите ключевые инструкции в конце
Контрмера к Lost-in-the-Middle. Повторите правило из начала одной строкой в конце: «Учитывая вышесказанное, выведи в формате X».
④ Prompt Caching
Если вы многократно переиспользуете один и тот же системный промпт, функция кэширования у Anthropic / OpenAI снижает цену входа до 90%. Если вы стучитесь в API — настройте это в первую очередь.
⑤ Делайте адреса файлов явными
Указание «файл N, строка X» повышает точность извлечения в длинных контекстах. Воспринимайте это как передачу ИИ оглавления с предметным указателем.

Из пяти тактик тактика ① «Прервать сессию» даёт самый заметный прирост. Уже одно прерывание чата ощутимо снижает галлюцинации.
Тактика ④ — для разработчиков API: UI (claude.ai / ChatGPT) обрабатывают кэширование автоматически.

Моя личная лучшая практика: уже одно последовательное применение ① и ② заметно сдвигает ощущаемую точность. Даже с Claude Code, вместо того чтобы тянуть одну длинную сессию, нажимать /compact или начинать свежую сессию при каждой смене темы — это удерживает итоговое качество вывода стабильным.

Итоги

Резюмирую:

  • Окно контекста = максимальное число токенов, которое ИИ может обработать за один обмен. Размер контейнера.
  • По состоянию на май 2026, Claude Opus 4.7 / Sonnet 4.6 / GPT-5.5 / Gemini 3.1 Pro / DeepSeek V4-Pro — все поддерживают 1M; Gemini 3.1 Ultra дотягивается до 2M.
  • Независимые бенчмарки (multi-needle NIAH) показывают, что только Gemini 3 Deep Think сохраняет точность по всему 1M; остальные начинают выцветать на 200K–400K.
  • По стоимости Anthropic держит плоский тариф, а OpenAI применяет надбавку выше 272K. Чёткое стратегическое расхождение.
  • Пять тактик — прервать сессию, отправлять выдержки, повторить в конце, кэшировать, адресовать явно — и тактики ① и ② несут наибольший вес.

Даже с большими контейнерами реальная работа по-прежнему сводится к тому, что отправить, а что оставить за бортом. Навык ИИ 2026 года — это не «впихивай всё». Это умение точно отправлять только нужное — именно оно остаётся полезным надолго. Понаблюдав за тем, как пять вендоров короновали себя «1M» в этом году, к такому выводу прихожу я.

FAQ

Q1. Как посчитать токены до отправки?

OpenAI предлагает библиотеку tiktoken; Anthropic выставляет в официальном SDK API, эквивалентный countTokens(). Эмпирическое правило: ~0,75 английских слова на токен, ~1–1,5 токена на CJK-символ. Код варьируется в зависимости от токенизатора, поэтому перед отправкой длинных входов измеряйте.

Q2. Чем «память» отличается от контекста?

Контекст живёт только внутри сессии — закрыли чат, и его нет. Память (ChatGPT Memory / Claude Memory) — это отдельный механизм межсессионного хранения. Содержимое памяти в итоге попадает в окно контекста, но с точки зрения пользователя это постоянное против эфемерного.

Q3. Как RAG соотносится с окном контекста?

RAG — это паттерн «динамически подгружать в контекст только нужную информацию». Даже с окном в 1M сваливать туда всё подряд — медленно, тяжеловесно и дорого, поэтому подход «сначала найти, потом загрузить» (RAG) остаётся мейнстримом. Подробнее в «Что такое RAG».

Q4. Почему деградирует на 300K, если поддерживается 1M?

Несоответствие между длинами последовательностей при обучении и при инференсе, ограничения позиционного кодирования в механизме внимания и взрыв вычислений, нужный для интеграции нескольких фактов, — всё это складывается. «Поддерживается» и «точность сохраняется по всему диапазону» — разные задачи.

Q5. Экономят ли MCP-серверы контекст?

Да. MCP — это механизм подгрузки по требованию через инструменты, поэтому не нужно загружать всё в контекст заранее. Смените ментальную модель с «вставить файл целиком» на «дать ему сходить и прочитать файл».