Содержание
- 1. В 2026 году AI перестал быть «только текстом» — MMMU-Pro преодолел 80 %
- 2. Что такое мультимодальный AI? — Четыре входа, один мозг
- 3. «Сшитая» vs «нативная» — архитектурный водораздел
- 4. Сравнение основных моделей — GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro
- 5. Важные бенчмарки — MMMU / Video-MMMU / OCR / Audio
- 6. По сценариям — гид «выбирай это»
- 7. Жёсткие ограничения — пользуйся, но не доверяй слепо
- Итог
- FAQ
В апреле 2026 года на мультимодальном бенчмарке MMMU-Pro (междисциплинарное понимание изображений, диаграмм и схем) GPT-5.5, Claude Opus 4.7, Gemini 3 и Qwen 3.5 Omni разом вышли на 81–83 %. Цифра впечатляющая, если вспомнить, что GPT-4V в 2023 году впервые добрался здесь до 56 %, — но фронтир уже насыщен. Эпоха «только текстового» AI действительно закончилась.
Дело не только в баллах. Архитектура целиком мигрировала от «сшитой» к «нативно-единой». До 2024 года господствовала схема «обучаем текстовую модель, энкодер изображений и энкодер аудио отдельно, а затем прикручиваем их на выходе». Флагманы 2026 года превращают текст, изображения, аудио и кадры видео в один и тот же поток токенов и рассуждают о них в едином мозге. Благодаря этому такие задачи, как «соотнести аудио и видеоряд, чтобы понять смысл сцены» или «перекрёстно интерпретировать схемы и основной текст в PDF», ощущаются естественно.
Сразу обозначу позицию: мультимодальность перешла из «приятного дополнения» в «без него никуда». Сфотографировать экран с ошибкой и тут же получить решение, сделать скриншот PDF и вытащить ключевые тезисы, расшифровать и резюмировать YouTube-видео — это базовая беглость работы с AI в 2026 году. В статье разобраны определение, разница между сшитой и нативной мультимодальностью, реальные возможности тройки флагманов (GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro), бенчмарки, выбор по сценариям и ограничения — на основе актуальных исследований и практики.
Четыре входа обрабатывает один мозг
— Текст, изображения, аудио и видео как единый общий поток токенов
Апрель 2026: GPT-5.5, Claude Opus 4.7, Gemini 3 — все на 81–83 % в MMMU-Pro.
Эпоха «изображение как бонус» закончилась; новая норма — рассуждение по четырём модальностям в одном мозге.
1. В 2026 году AI перестал быть «только текстом» — MMMU-Pro преодолел 80 %
Тренд «мультимодальность» поднялся в 2024 году, но модели тогда воспринимали изображения как нечто второстепенное: топовые результаты MMMU (междисциплинарное мультимодальное понимание) колебались около 56 %. Медиана человека (82 %) оставалась недосягаемой для вопросов с изображениями, требующих экспертных знаний.
В 2026 году картина совсем иная. Свежие результаты MMMU-Pro (более жёсткой обновлённой версии бенчмарка) на апрель 2026:
- GPT-5.5: 83,4 %
- Claude Opus 4.7: 82,1 %
- Gemini 3.1 Pro: 81,7 %
- Qwen 3.5 Omni: 81,0 %
«Переход за 80 % означает, что бенчмарк насыщается» — это реальность 2026 года. Точка дифференциации сместилась в понимание видео (Video-MMMU), документы с плотным OCR и совместное аудиовизуальное рассуждение — на более сложную территорию. Публичный лидерборд на MMMU benchmark позволяет сравнить модели самостоятельно.
2. Что такое мультимодальный AI? — Четыре входа, один мозг
Определение: «AI-модель, обрабатывающая входы шире, чем просто текст, — изображения, аудио, видео и т. д.» В лексиконе 2026 года «мультимодальный» чаще всего означает модели, которые интегрируют текст, изображение, аудио и видео — четыре модальности — в едином конвейере.
Прежний AI был одномодальным: GPT-3 работал с текстом, Whisper — только с распознаванием речи, Stable Diffusion — только text-to-image. Чтобы соединить их, требовался конвейер, в котором выход одной модели подавался во вход другой, и на каждом стыке часть информации терялась.
Мультимодальный AI меняет правила: «одна модель одновременно понимает все входы». Составная задача вроде «прочти этот скриншот ошибки (изображение) вместе с моим вопросом (текст), а затем объясни причину голосом (аудио)» закрывается одним вызовом API.
3. «Сшитая» vs «нативная» — архитектурный водораздел
Понимание того, «как это устроено внутри», сразу проясняет сильные стороны каждой модели. Между 2024 и 2026 годами произошёл смена поколений в архитектуре.
Сшитая (~2024) vs нативная (2025+)
- Текстовая модель + энкодер изображений
- Слой-адаптер соединяет их на выходе
- Аудио и видео — на отдельных конвейерах
- Потери информации на стыках
- Например, GPT-4V, Claude 3 Vision
- Все модальности → единый поток токенов
- Одновременно обрабатываются одним Transformer
- Аудио + кадры видео связаны на одном шаге
- Минимум потерь, более глубокое рассуждение
- Например, GPT-5.5, Gemini 3, Qwen Omni
В нативной архитектуре естественны такие задачи, как «совместно интерпретировать аудио и видеоряд» / «перекрёстно рассуждать о схемах и тексте PDF».
Сшитой требовались промежуточные шаги — например, «сначала вытащить текст из изображения» в качестве реле.
Конкретный пример: «посмотреть кулинарное видео на YouTube и достать рецепт». Сшитая: аудио → Whisper в текст → GPT для резюме; видео → извлечение кадров → отдельный анализ изображений. Много шагов. Нативная: один вызов API принимает видеофайл целиком и возвращает рецепт напрямую. Корреляция между речевыми пояснениями и видимыми действиями ощущается на принципиально ином уровне естественности.
4. Сравнение основных моделей — GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro
Состояние мультимодальных способностей у тройки лидеров 2026 года (плюс альтернативы):
| Модель | Текст | Изобр. | Аудио | Видео | Сильная сторона |
|---|---|---|---|---|---|
| GPT-5.5 | ◎ | ◎ | ◎ | ◎ | Лучшая по всем 4 модальностям; двусторонний Voice Mode |
| Gemini 3.1 Pro | ◎ | ◎ | ◎ | ◎◎ | Лидер по видео — 78,4 %; сильна на длинных видео |
| Claude Opus 4.7 | ◎ | ◎ | △ | △ | Разбор UI и документов; сильна для агентных задач |
| Qwen 3.5 Omni | ◎ | ◎ | ◎ | ◎ | Открытые веса, omnimodal, хорошее соотношение цена/качество |
| DeepSeek V4-Pro | ◎ | ○ | △ | △ | Текст + изображение, очень дешёвая |
Что бросается в глаза:
- Видео — территория Gemini 3: Video-MME — 78,4 % против GPT-5.5 (71,2 %) и Claude (67,8 %); ощутимый отрыв. Длинное видео (1 час+) реально пригодно к работе только здесь
- Голосовой диалог — GPT-5.5: Voice Mode отвечает менее чем за 200 мс и считывает эмоции. Gemini подтягивается, но опыт пока на стороне GPT
- Разбор документов — Claude: плотные PDF и UI-скриншоты читаются точно — именно поэтому он силён в агентных связках вроде Cursor
- Рывок открытых моделей: Qwen 3.5 Omni и DeepSeek V4 выходят почти на фронтировой уровень качества при кратно меньшей стоимости
5. Важные бенчмарки — MMMU / Video-MMMU / OCR / Audio
Не зная, что именно измеряет каждый бенчмарк, легко выбрать не ту модель. Четыре бенчмарка, которые нужно знать в 2026 году:
Чем измеряем мультимодальный AI
«Высокий MMMU = хорош во всём» — неверно.
Для видео смотри Video-MMMU, для документов — DocVQA, для аудио — AudioBench, иначе ошибёшься с выбором.
6. По сценариям — гид «выбирай это»
Пять распространённых паттернов с конкретными вариантами «начни отсюда».
- ① Q&A и диагностика по фото со смартфона (фото блюда → калорийность, экран с ошибкой → исправление, фото товара → поиск)
→ ChatGPT (GPT-5.5) или Claude (Opus 4.7). Снял, отправил, спросил. Работает и на бесплатных тарифах - ② Разбор PDF и документов (чеки, договоры, технические спецификации, научные статьи)
→ Claude Opus 4.7. Длинный текст + схемы + OCR — всё чётко. Поддержка PDF у Anthropic надёжная - ③ Расшифровка и резюме видео (совещания, лекции, YouTube)
→ Gemini 3.1 Pro. Структурные резюме по видео 1 час+. Бесплатно попробовать можно через Google AI Studio - ④ Голосовой диалог / синхронный переводчик / тренировка интервью
→ GPT-5.5 Voice Mode. Отклик менее 200 мс, эмоциональная окраска. Нужен ChatGPT Plus - ⑤ Приоритет — стоимость / массовая обработка
→ Qwen 3.5 Omni (open) или Gemini 2.5 Flash-Lite. Batch API режет цену ещё вдвое
7. Жёсткие ограничения — пользуйся, но не доверяй слепо
Мультимодальный AI силён, но три ограничения сильно ударят, если их игнорировать.
Ограничение ①: не воспринимай «догадки» по фото как факты
Вопрос «распознай сумму на этом чеке через OCR» звучит просто, но если изображение низкого разрешения, тёмное или перекошенное, AI выдумывает правдоподобные цифры. Даже 83 % на MMMU означают 17 % ошибок. Суммы, даты, имена собственные — всегда перепроверяйте человеком. Особенно в юриспруденции, финансах и медицине.
Ограничение ②: в середине видео точность падает
Даже у лидера по видео, Gemini 3, извлечение информации из середины часового видео даётся тяжело — та же проблема «Lost in the Middle», что и у контекстного окна. Для важных фрагментов указывайте таймкоды: «проанализируй именно отрезок 30:00–35:00» — результат заметно лучше.
Ограничение ③: с диалектами и жаргоном аудио буксует
Стандартная английская и японская речь распознаётся точно, но региональные диалекты, узкоспециальная лексика, наложение голосов нескольких говорящих и шумные условия резко увеличивают ошибки. Для протоколов совещаний и других ответственных задач сочетайте AI со специализированными инструментами (Otter.ai, Notta и т. д.) или предварительно чистите аудио, прежде чем отправлять модели.
Итог
Кратко:
- Апрель 2026: GPT-5.5, Claude Opus 4.7, Gemini 3 — все на 81–83 % в MMMU-Pro. Мультимодальный AI прошёл путь от «приятного дополнения» к «обязательной части набора»
- Архитектура: сшитая (~2024) → нативная omnimodal (2025+). Все модальности идут через единый поток токенов
- Топ-модели: GPT-5.5 (лучшая по всем 4 модальностям, сильный Voice) / Gemini 3.1 Pro (лидер по видео) / Claude Opus 4.7 (документы + UI) / Qwen 3.5 Omni (открытая, отличное цена/качество)
- Бенчмарки: MMMU-Pro / Video-MMMU / DocVQA / AudioBench — перед выбором сверяй все четыре оси
- Пять вариантов под сценарий. Личный ответ: связка ChatGPT Plus + Claude Pro = $40/мес
- Три ограничения: догадки по низкокачественным изображениям / падение точности в середине видео / диалекты и жаргон в аудио. Критичные выводы перепроверяйте
В 2026 году работа с AI, которая укладывается «только в текст», стремительно сжимается. Фото со смартфона, записи совещаний, YouTube-видео, PDF — теперь всё это проходит через один и тот же AI. Уметь обращаться с мультимодальностью — уже не «удобная опция», а базовый уровень AI-грамотности 2026 года. Начните с того, чтобы скормить AI сегодня одну фотографию со смартфона — этого достаточно, чтобы стартовать.
FAQ
Да. Бесплатный ChatGPT (GPT-5 mini, приём изображений), Google AI Studio (Gemini 2.5 Flash, с видео, бесплатный тариф), Claude.ai на бесплатном тарифе (Sonnet, изображения поддерживаются) — везде можно попробовать. Voice Mode и длинное видео требуют платных тарифов. См. Гид по бесплатным AI-инструментам.
Это разные понятия. Такие инструменты, как Midjourney и Stable Diffusion, специализируются на генерации изображений из текста — однонаправленный поток text → image. Мультимодальный AI означает понимание изображений (и других модальностей) как входов. GPT-5.5 и Gemini 3 умеют и то, и другое. См. Сравнение AI для генерации изображений.
Gemini API принимает видеофайлы напрямую через поле fileData (с использованием Google Cloud Storage). У OpenAI типовой паттерн — извлечь кадры и отправить их как последовательность изображений. API Claude по состоянию на май 2026 года не принимает видео нативно — нужны кадры. См. Гид по AI API для новичков.
В изображениях, аудио и видео часто содержатся чувствительные данные. OpenAI, Anthropic и Google по умолчанию исключают ваши входы из обучения, но для корпоративного использования выбирайте Enterprise-тарифы или доступ через API (по умолчанию обучение отключено). Лица, медицинские снимки, внутренние документы — будьте особенно осторожны. Для полной конфиденциальности рассмотрите локальные LLM (открытые веса Qwen 3.5 Omni и др.).
Изображения и видео тарифицируются через перевод в токены. Одно изображение ≈ несколько сотен — порядка 1000 токенов (зависит от разрешения и модели); видео — секунды × десятки или сотни токенов. Часовое видео может «съесть» сотни тысяч токенов. Приёмы экономии из статьи об экономии токенов AI (отправка только нужных фрагментов, кеширование) работают и для видео.