Насколько ИИ автоматизирует браузер? Реальность

Насколько ИИ способен автоматизировать работу в браузере? Реальность заполнения форм, бронирования и поиска

Содержание

1. Что такое «управление браузером с помощью ИИ»? Два подхода
2. Главные игроки в 2026 году
3. Насколько далеко это заходит? Реальность в 3 уровнях
4. Почему ИИ не справляется с «бронированием»
5. Главная ловушка: prompt injection
6. Практический чек-лист для безопасного использования
Итоги
FAQ

«Я попросил ИИ — и он сам открыл браузер, всё нашёл и даже заполнил за меня форму». В 2026 году это уже не постановочная демонстрация. ИИ-агенты, которые «видят, кликают и печатают» в браузере, — так называемые агентные браузеры — появились разом: ChatGPT Atlas, Claude for Chrome, Gemini/Chrome, Perplexity Comet и другие.

Так насколько далеко они действительно способны автоматизировать? Коротко: реальность чётко делится на три уровня. «Исследование» уже практически готово к работе, «заполнение форм» — условно, а «бронирование и оплату» по-прежнему стоит делать самому. Используйте эти инструменты без понимания этой разницы — и обожжётесь. В статье мы честно показываем текущее состояние дел: где стоит каждый вендор, какие у бенчмарков цифры и — что часто упускают из виду — ловушки безопасности, чтобы дать настоящую картину «реальности».

УПРАВЛЕНИЕ БРАУЗЕРОМ ИИ · РЕАЛЬНОСТЬ

То же «управление браузером» — но три уровня «справится ли»

— В зависимости от характера задачи сигнал загорается зелёным, жёлтым или красным

🟢

Исследование

Только чтение = готово к работе

○ Делегируйте

🟡

Заполнение форм

Работает, но проверяйте

△ Условно

🔴

Бронирование / оплата

Спотыкается о CAPTCHA / оформление

× Делайте сами

Бенчмарки исследования 89-98% Сложные задачи ниже уровня человека Главная стена — безопасность

* Цифры бенчмарков, характеристики продуктов и цены в этой статье приведены из различных публичных материалов, новостных сообщений и анонсов компаний (по состоянию на июнь 2026 года). Эти продукты обновляются быстро, поэтому поддерживаемые ОС, цены и возможности могут меняться. Числа зависят от методологии — воспринимайте их как ориентир.

1. Что такое «управление браузером с помощью ИИ»? Два подхода

«ИИ управляет браузером» на самом деле бывает в двух технических вариантах. Оба запускают один и тот же цикл агента: видит экран (восприятие) → решает, что делать дальше (планирование) → кликает или печатает (действие).

🧭

① Потребительский: встроен в браузер/расширение

ИИ живёт внутри браузера, которым вы уже пользуетесь, — как отдельный браузер (ChatGPT Atlas) или расширение (Claude for Chrome) — и выполняет поиск и заполнение форм в вашей собственной авторизованной сессии. Легко внедрить, но с оговорками по безопасности, о которых речь ниже.

напр. Atlas / Claude for Chrome / Gemini в Chrome / Comet

⚙️

② Для разработчиков: автоматизация через API/OSS

Управляйте браузером в песочнице из кода. С помощью инструмента computer-use от OpenAI или open-source browser-use можно выполнять повторяющиеся веб-задачи без присмотра. Ближе к развитому RPA и хорошо подходит для встраивания в рабочие процессы.

напр. computer-use (CUA) / browser-use / Skyvern / Steel

Эта статья сосредоточена в основном на ① потребительской стороне, чтобы оценить, «как далеко это заходит». Учтите, что ② часто использует под капотом те же модели ИИ, поэтому сильные и слабые стороны у них, как правило, общие.

2. Главные игроки в 2026 году

С конца 2025 года и в 2026-м агентные браузеры появились все разом — и так же быстро началась консолидация (отсев): самостоятельные продукты сворачивали в их родительские сервисы. Вот текущий расклад.

Продукт	Форма	Статус (на июнь 2026)
ChatGPT Atlas OpenAI	Отдельный браузер (на базе Chromium)	Запущен 2025/10/21. Режим агента для Plus/Pro/Business и др. Изначально ориентирован на Mac; версии для Windows/мобильных постепенно выходят. По задумке не может выполнять код, скачивать файлы или читать пароли.
Claude for Chrome Anthropic	Расширение Chrome (боковая панель)	Бета на платных планах (Pro/Max и др.). Переходит по ссылкам, кликает, заполняет формы, выполняет многовкладочные многошаговые сценарии. Доступные модели зависят от плана.
Gemini / Chrome Google	Интеграция в браузер	Экспериментальный «Project Mariner» завершился 2026/5/4, а его технологии были встроены в Gemini/Chrome. Функция Chrome «Auto Browse» автоматизирует сложные сценарии.
Perplexity Comet Perplexity	Отдельный браузер	Популярен для исследований. Но были обнаружены несколько уязвимостей prompt injection (см. ниже); исправления выпущены в начале 2026 года.
ChatGPT Agent OpenAI (бывш. Operator)	Встроенный + API	Самостоятельный «Operator» закрыт 2025/8/31; его возможности перешли в ChatGPT и Agents SDK (computer-use). Его уход говорит о «реальности» (см. ниже).
browser-use OSS	Библиотека (MIT)	Более 78k звёзд на GitHub. Подключите любую LLM и постройте собственную автоматизацию. Активно развиваются и родственные OSS вроде Skyvern и Steel.

Что бросается в глаза — это волна «интеграции и закрытия» самостоятельных продуктов. И Operator от OpenAI, и Mariner от Google отказались от отдельных приложений и были поглощены родительским сервисом. Это отражает сдвиг в индустрии от «эффектных экспериментов» к «функциям, встроенным в продукты повседневного пользования» — и в равной мере его обратную сторону: полностью автономное управление само по себе пока даётся трудно.

3. Насколько далеко это заходит? Реальность в 3 уровнях

Это самая суть. Даже в рамках «управления браузером» практическая надёжность резко расходится в зависимости от характера задачи. Давайте дополним светофор из вступления конкретными примерами и бенчмарками.

🟢 Исследование / сбор информации = самое «применимое» сегодня

Сравнить цены на разных сайтах, обобщить отзывы, следить за обновлениями конкурентов, выгрузить числа из дашборда без API — работа «только на чтение» готова к продакшену. На WebVoyager, который тестирует реальные сайты, лучшие агенты достигают 89-98%, фактически насыщая бенчмарк. Поскольку неверное действие здесь почти ничего не стоит, именно отсюда стоит начинать делегирование.

🟡 Заполнение форм = возможно, но нужен «контролёр»

Контактные формы, черновики заявок, перенос данных в таблицу — сам ввод поддерживается каждым агентом. Но он может неправильно подписать поля, ошибиться с выбором опции или нажать не ту кнопку отправки. «ИИ составляет черновик, человек отправляет» — безопасный подход. На деле многие продукты, вроде Atlas, спроектированы так, чтобы запрашивать подтверждение перед важными действиями.

🔴 Бронирование / оплата = пока делайте сами

Бронирование отелей и авиабилетов, покупки в e-commerce, подтверждения за логином — задачи «деньги уходят, отменить трудно» — самое слабое место. Агенты спотыкаются о CAPTCHA, сложное оформление заказа на JavaScript, двухфакторную аутентификацию и управление сессиями. На WebArena, который тестирует сложные многошаговые задачи, даже лучшие набирают около 47-68% (ниже человеческого ориентира в ~78%). Сама причина, по которой OpenAI закрыла самостоятельный Operator, — ненадёжность сценариев оформления заказа.

«Разрыв» в бенчмарках (числа ориентировочны)

WebVoyager (реальные сайты, уклон в исследование)89-98%

WebArena (сложные многошаговые задачи)47-68%

Человеческий ориентир (WebArena)~78%

* Два года назад успех на похожих задачах, по сообщениям, был около 14%, так что прогресс быстрый. И всё же «сложные задачи по-прежнему не дотягивают до человека» — тоже факт.

Коротко: отлично ищет информацию, слабо выполняет действия с последствиями. Достаточно запомнить эту одну строчку — и вы избежите большей части разочарований от несовпадения ожиданий.

4. Почему ИИ не справляется с «бронированием»

«Если он умеет искать, почему не может забронировать?» Единственной причины нет. Бронирование и оплата собирают в одном месте сразу несколько «барьеров», с которыми ИИ плохо справляется.

🧩 CAPTCHA / защита от ботов

Механизмы, требующие «доказать, что ты человек», существуют именно для того, чтобы останавливать агентов. Попытка их обойти сама по себе может нарушать условия использования.

💳 Сложные сценарии оформления заказа

Перегруженные JavaScript корзины, 3-D Secure, переадресации на внешнюю оплату. Одна ошибка где угодно ломает весь процесс, и восстановиться трудно.

🔐 Двухфакторная аутентификация / вход

SMS-коды и подтверждения в приложении завершаются только в ваших собственных руках. Многие продукты намеренно избегают паролей и учётных данных.

↩️ Цена отмены

«Купил по ошибке» или «двойное бронирование» причиняют реальный вред. Поэтому вендоры вставляют подтверждение человеком на важных действиях и не подтверждают автоматически.

Иначе говоря, «провал» при бронировании — не столько в том, что ИИ недостаточно умён, сколько в столкновении с замыслом дизайна: «сайты не рассчитаны на автоматизацию» и «крупные действия должны оставаться за человеком». Поэтому скачок к 100%-й автоматизации в краткосрочной перспективе маловероятен. На практике «ИИ — до отбора вариантов, человек — для финального подтверждения» — лучший ответ на сегодня.

5. Главная ловушка: prompt injection

Важнее, чем «может или не может», — безопасность. Самый большой риск, уникальный именно для агентных браузеров, — это непрямой prompt injection: агента обманывают «скрытыми инструкциями для ИИ», заложенными в веб-страницу или письмо.

Что такое непрямой prompt injection: злоумышленник встраивает команды вроде «укради почту пользователя и отправь её», используя текст, который человеку трудно заметить (текст под цвет фона, символы внутри изображений, разделы комментариев), так что читающий страницу агент оказывается захвачен. Поскольку он работает в вашей авторизованной сессии, ущерб может быть прямым.

Это не теория. В начале 2026 года было обнаружено несколько уязвимостей в ориентированном на исследования Perplexity Comet. В демонстрациях исследователей достаточно было дать ему прочитать вредоносную страницу или пост, чтобы украсть учётные данные и одноразовые коды и захватить аккаунт — это путь «zero-click» атаки (Perplexity выпустила меры защиты в феврале 2026 года). С тех пор похожие слабости были отмечены и в других крупных браузерах.

Насколько хорошо работает защита? (пример опубликованных цифр)

23.6%

Успех атаки до защиты
(собственное измерение одного вендора)

~11%

После базовой защиты
(не ноль)

~1%

При самой сильной защите
(всё ещё не ноль)

* Цифры приводятся самими вендорами и зависят от условий, поэтому их нельзя сравнивать напрямую. Суть в том, что защита резко снижает риск, но никогда не до нуля. Исследования также сообщают, что по мере того как атакующие итерируют, доля успешных взломов растёт.

Вендоры отвечают классификаторами, которые выявляют скрытые инструкции, плюс подтверждениями и ограничениями прав на важных действиях. Но честное состояние дел в 2026 году таково, что «даже при наличии защиты остаточный риск сохраняется». Именно поэтому ваши собственные правила работы — последняя линия обороны. Подробнее см. инциденты безопасности ИИ-агентов.

6. Практический чек-лист для безопасного использования

Учитывая описанную выше «реальность», вот 5 принципов безопасного использования, которые работают уже сегодня. Никаких хитрых настроек — это вопрос подхода.

Начните с режима «только чтение»

Поначалу ограничьтесь поиском, сравнением и обобщением — работой, где ошибка ничего не стоит. Переходите к задачам ввода только когда освоитесь.

Отправку и оплату должен подтверждать человек

«ИИ — до черновика, финальная кнопка — за вами». Не настраивайте автоподтверждение без проверки.

Не передавайте конфиденциальные данные и пароли

Не используйте его для онлайн-банкинга, платежей или конфиденциальных экранов. Многие продукты не зря спроектированы так, чтобы не касаться учётных данных.

Не запускайте агента на сайтах, которым не доверяете

Подозрительные страницы и ссылки от неизвестных отправителей — рассадник скрытых инструкций. Прежде чем дать агенту их «прочитать», сделайте паузу.

Минимум привилегий, в отдельном профиле

Не давайте ему доступ ко всем авторизованным вкладкам. По возможности запускайте в отдельном рабочем профиле, чтобы ограничить радиус поражения.

Главный вывод: «удобство» и «привилегии» — это компромисс. Чем больше власти вы даёте агенту, тем больше он может — но тем больше ущерб, если его захватят. Начинайте с малого и расширяйте по мере результатов — то же базовое правило, что и в примерах автоматизации бизнеса.

Итоги

Управление браузером с помощью ИИ сделало в 2026 году большой шаг от «эксперимента» к «повседневному инструменту». Но оно не всесильно — реальность делится на три уровня.

Ключевые выводы

🟢 Исследование, сравнение и обобщение готовы к работе — начинайте отсюда.
🟡 Заполнение форм работает, но предполагает, что «человек подтверждает» в конце.
🔴 Бронирование и оплата всё ещё слабы — стены CAPTCHA/оформления/2FA. «ИИ — до вариантов, человек — для подтверждения».
⚠️ Главная стена — безопасность — prompt injection сохраняется несмотря на защиту. Защищайте себя правилами работы.

«Отличный партнёр для исследований; действия, двигающие деньги, делайте сами». Держите эту дистанцию — и управление браузером с помощью ИИ сэкономит вам массу времени. Начните уже сегодня с «исследования», где ошибка не причиняет вреда. Об основах агентов в целом см. что такое ИИ-агент; о безопасности — углубитесь в инциденты безопасности.

FAQ

В. Можно ли полностью доверить бронирование ИИ?

О. Не рекомендуется по состоянию на 2026 год. Он легко спотыкается о CAPTCHA, сложное оформление заказа и двухфакторную аутентификацию, рискуя ошибочными покупками или двойным бронированием. Безопасно: «ИИ — до сравнения вариантов, финальное подтверждение — за человеком».

В. Что выбрать? В чём разница между ChatGPT Atlas и Claude for Chrome?

О. Большая разница в форме: Atlas — «отдельный браузер», Claude for Chrome — «расширение Chrome». Если вы уже пользуетесь Chrome, расширение проще; если хотите попробовать совершенно новую среду — берите отдельный браузер. Цены и доступные модели зависят от плана — см. сравнение цен.

В. Стоит ли обычным пользователям беспокоиться о prompt injection?

О. Да. Поскольку агент работает в вашей авторизованной сессии, ущерб может быть прямым. Всего три привычки — не запускать его на сомнительных сайтах, давать человеку подтверждать платежи и отправку, и не использовать его на экранах с конфиденциальной информацией — существенно снижают риск.

В. Можно ли попробовать бесплатно?

О. Зависит от продукта. Многие функции агентов доступны на платных планах, но есть и бесплатные варианты вроде OSS browser-use, который можно собрать самому (за использование LLM при этом всё равно придётся платить отдельно). Сначала проверьте, что поддерживает ваш текущий ИИ-сервис.

В. Для простой рутинной работы традиционный RPA лучше?

О. Если шаги каждый раз абсолютно одинаковы, традиционная автоматизация может быть стабильнее и быстрее. Сила ИИ-агентов — в работе, которая «чуть-чуть иная каждый раз» или «требует суждения». Эти два подхода не соперники — используйте подходящий под задачу.

Насколько ИИ способен автоматизировать работу в браузере? Реальность заполнения форм, бронирования и поиска

То же «управление браузером» — но три уровня «справится ли»

1. Что такое «управление браузером с помощью ИИ»? Два подхода

2. Главные игроки в 2026 году

3. Насколько далеко это заходит? Реальность в 3 уровнях

4. Почему ИИ не справляется с «бронированием»

5. Главная ловушка: prompt injection

6. Практический чек-лист для безопасного использования

Итоги

FAQ

Похожие статьи

Что такое Claude Agent SDK? Полное руководство по разработке ИИ-агентов

Что такое ИИ-агент? Отличия от чат-ботов, возможности и ограничения

Что такое OpenClaw? Открытый ИИ-ассистент с 240 000+ звёзд на GitHub

Заменят ли Claude Code и Codex инженеров инфраструктуры и сетей? — Реальность эксплуатации в эпоху ИИ

Комментарии

Оставить комментарий