「AIに頼んだら、ブラウザを開いて勝手に調べて、フォームまで入力してくれた」——2026年、これはもう実演デモの中だけの話ではない。AIエージェントがブラウザを"見て・クリックして・入力する"エージェント型ブラウザが、ChatGPT Atlas、Claude for Chrome、Gemini/Chrome、Perplexity Comet と各社から一斉に登場した。

では、実際どこまで自動化できるのか? 結論を先に言うと、現実はくっきり3階層に分かれている。「調べる(調査)」はほぼ実用、「フォーム入力」は条件つき、「予約・決済」はまだ自分でやるべき——この温度差を知らずに使うと、痛い目に遭う。本記事は最新の到達点・各社の現状・ベンチマークの数字・そして見落とされがちなセキュリティの落とし穴まで、「現実」を率直に整理する。

AIブラウザ操作 · 自動化の現実

同じ「ブラウザ操作」でも、できる度は3段階

— タスクの性質で、信号は緑・黄・赤に分かれる

🟢

調査・情報収集

読むだけ=実用レベル

○ 任せられる
🟡

フォーム入力

できるが要確認

△ 条件つき
🔴

予約・決済

CAPTCHA・決済で失敗

× まだ自分で
調査ベンチは89〜98% 複雑タスクは人間に届かず 最大の壁はセキュリティ

※本記事のベンチマーク値・各社の仕様・料金は各種公表資料・報道・企業発表の引用(2026年6月時点)。製品は更新が速く、対応OS・料金・できる範囲は変わりうる。数値は測定方法により幅があり、傾向の参考として読んでほしい。

1. 「AIのブラウザ操作」とは?2つの方式

ひとくちに「AIがブラウザを操作する」と言っても、技術的には2つの方式がある。どちらも、AIが画面を見て(認識)→次の操作を決めて(計画)→クリックや入力を実行する(行動)というエージェントのループを回している点は共通だ。

🧭

① 消費者向け:ブラウザ/拡張に内蔵

ふだん使うブラウザにAIが同居する形。専用ブラウザ(ChatGPT Atlas)や拡張機能(Claude for Chrome)として動き、あなたのログイン状態をそのまま使って調査やフォーム入力を代行する。導入が手軽な反面、後述のセキュリティ注意が要る。

例:Atlas/Claude for Chrome/Gemini in Chrome/Comet

⚙️

② 開発者向け:API/OSSで自動化

プログラムからサンドボックス上のブラウザを動かす方式。OpenAIの computer-use ツールや、OSSの browser-use などで、定型のWeb作業を無人で繰り返し回せる。RPAの進化形に近く、業務組込みに向く。

例:computer-use(CUA)/browser-use/Skyvern/Steel

本記事では主に①の消費者向けを軸に「どこまでできるか」を見ていく。②は、①と同じAIモデルを"裏側"で使っていることが多く、得意・不得意の傾向は共通だと考えてよい。

2. 2026年の主要プレイヤー一覧

2025年後半から2026年にかけて、ブラウザ操作AIは一気に出そろった。同時に整理(淘汰)も進み、単体プロダクトが本体サービスに統合される動きが目立つ。現状を一覧にまとめる。

プロダクト 形態 現状(2026年6月時点)
ChatGPT Atlas
OpenAI
専用ブラウザ(Chromium系) 2025/10/21公開。Plus/Pro/Business等でエージェントモード。当初macOS中心で、Windows/モバイルは順次。コード実行・ファイルDL・パスワード参照は不可に制限。
Claude for Chrome
Anthropic
Chrome拡張(サイドパネル) 有料プラン(Pro/Max等)でベータ提供。ナビゲート・クリック・フォーム入力・複数タブの多段作業に対応。プランで使えるモデルが異なる。
Gemini/Chrome
Google
ブラウザ統合 実験版「Project Mariner」は2026/5/4に終了し、技術はGemini/Chromeへ統合。Chromeの「Auto Browse」で複雑な手順を自動化する方向に。
Perplexity Comet
Perplexity
専用ブラウザ 調査特化で人気。一方でプロンプトインジェクションの脆弱性が複数報告され(後述)、2026年初頭に対策を実施。
ChatGPT Agent
OpenAI(旧Operator)
本体内蔵+API 単体の「Operator」は2025/8/31に終了し、機能はChatGPT本体とAgents SDK(computer-use)へ。撤退理由が"現実"を物語る(後述)。
browser-use
OSS
ライブラリ(MIT) GitHubで7.8万スター超。好きなLLMを差して自前の自動化を組める。Skyvern・Steel等の周辺OSSも活発。

注目したいのは、単体プロダクトの「統合・終了」が相次いだこと。OpenAIのOperatorも、GoogleのMarinerも、独立アプリをやめ本体サービスに吸収された。「派手な実験」より「毎日使う製品への組込み」へ——という業界の流れであり、同時に単体での完全自動化がまだ難しいことの裏返しでもある。

3. どこまでできる?現実を3階層で

ここが本題だ。同じ「ブラウザ操作」でも、タスクの性質で実用度がはっきり分かれる。冒頭の信号機を、具体例とベンチマークで肉づけする。

🟢 調査・情報収集 = いま一番"使える"

複数サイトを横断して価格を比べる、口コミを要約する、競合の更新を見張る、APIのないダッシュボードから数字を抜く——「読むだけ」の作業は実用レベル。実在サイトで測る WebVoyager では、上位エージェントが89〜98%に達し、ベンチとしてはほぼ飽和。失敗しても被害が小さい領域なので、まずここから任せるのが鉄則。

🟡 フォーム入力 = できる、ただし"見張り"が要る

問い合わせフォーム、申込みの下書き、表計算への転記など、入力そのものは各エージェントが対応する。ただし、項目の取り違え・選択肢の誤判断・送信ボタンの押し間違いは起こりうる。「AIが下書き、最終送信は人が確認」が安全。実際、Atlasなど多くの製品は重要操作の前に確認を求める設計になっている。

🔴 予約・決済 = まだ自分でやるべき

ホテル・航空券の予約、ECの購入、ログイン後の確定操作——「お金が動く・後戻りしにくい」作業は最も苦手。CAPTCHA、複雑なJavaScript決済、二要素認証、セッション管理でつまずく。複雑な多段タスクを測る WebArena では、最新でも47〜68%程度(人間の目安 約78%に未達)。OpenAIがOperator単体を畳んだ主因も、まさに"決済の信頼性不足"だった。

ベンチで見る"温度差"(数値は傾向の参考)

WebVoyager(実在サイト・調査寄り)89〜98%
WebArena(複雑な多段タスク)47〜68%
人間の目安(WebArena)約78%

※2年前は同種タスクの成功率が約14%だったとの報告もあり、進歩は速い。一方で「複雑タスクはまだ人間に届かない」のも事実。

つまり「調べてもらうのは得意、確定操作は苦手」。この一行を覚えておくだけで、期待値のズレによる失望はかなり防げる。

4. なぜ「予約」で失敗するのか

「調査はできるのに、なぜ予約はダメなのか?」——理由は1つではない。予約・決済には、AIが苦手とする"関門"が重なって配置されているからだ。

🧩 CAPTCHA・bot対策

「人間であること」を求める仕組みは、本来エージェントを止めるためのもの。突破を試みること自体が規約違反になりうる。

💳 複雑な決済フロー

JavaScript多用のカート、3Dセキュア、外部決済への遷移など。1か所のズレで全体が崩れ、リカバリも難しい。

🔐 二要素認証・ログイン

SMSコードやアプリ承認は、本人の手元でしか完結しない。多くの製品はパスワードや認証情報にあえて触れない設計。

↩️ 後戻りのコスト

「誤って購入」「重複予約」は実害が出る。だから各社は重要操作で人の承認を挟み、自動では確定させない。

言い換えると、予約での"失敗"は単なるAIの賢さ不足ではなく、「Webサイト側が自動操作を想定していない」「重大操作は人が握るべき」という設計上の意図とぶつかっている面が大きい。だから短期で100%自動になる、とは考えにくい。現実的には「候補までAI、最終確定は人」が当面の最適解だ。

5. 最大の落とし穴:プロンプトインジェクション

「できる/できない」以上に重要なのが安全性だ。エージェント型ブラウザ特有の最大リスクが 間接プロンプトインジェクション——Webページやメールに仕込まれた"AI向けの隠し命令"に、エージェントがだまされてしまう攻撃である。

間接プロンプトインジェクションとは:サイトに人には見えにくい文字(背景同化テキスト、画像内の文字、コメント欄など)で「ユーザーのメールを盗んで送れ」等の命令を埋め込み、ページを読んだエージェントを乗っ取る手口。あなたのログイン状態で動くからこそ、被害が直接的になりうる。

これは理論上の話ではない。2026年初頭、調査特化の Perplexity Comet で複数の脆弱性が報告された。研究者の実証では、悪意あるページや投稿を読ませるだけで、認証情報やワンタイムコードを盗み出してアカウントを乗っ取る"ゼロクリック"の攻撃経路が示された(Perplexityは2026年2月に対策を実施)。Comet以外の主要ブラウザでも、同種の弱点が次々と指摘されている。

対策はどこまで効くのか(公表値の例)

23.6%

対策前の攻撃成功率
(ある提供元の自社計測)

約11%

基本的な防御を入れた後
(ゼロにはならない)

約1%

最も強い防御設定で
(それでも非ゼロ)

※数値は各提供元の自己申告・条件依存で、横並び比較はできない。重要なのは「対策で大きく下がるが、完全にはゼロにならない」という点。攻撃側が試行を重ねると突破率が上がるという研究報告もある。

各社は隠し命令を検出する分類器や、重要操作での確認・権限制限で対抗している。だが「対策しても残存リスクがある」のが2026年時点の正直なところ。だからこそ、使う側の運用ルールが安全の最後の砦になる。詳しくはAIエージェントのセキュリティ事故もあわせて読んでほしい。

6. 安全に使う実践チェックリスト

ここまでの「現実」を踏まえ、今日から安全に使うための原則を5つにまとめる。難しい設定は不要、考え方の問題だ。

1

「読むだけ」から始める

最初は調査・比較・要約など失敗しても被害ゼロの作業に限定。慣れてから入力系へ広げる。

2

送信・決済は必ず人が承認

「下書きまでAI、最終ボタンは自分」。確認なしで確定する設定にはしない。

3

機微情報・パスワードは渡さない

ネットバンキングや決済、社外秘の画面では使わない。多くの製品が認証情報に触れない設計なのには理由がある。

4

信頼できないサイトでエージェントを走らせない

怪しいページ・知らない送信元のリンクは、隠し命令の温床。エージェントに「読ませる」前に一呼吸。

5

権限は最小限・専用プロファイルで

ログイン中の全タブにアクセスさせない。可能なら作業用の別プロファイルで動かし、被害範囲を限定する。

要は「便利さ」と「権限」はトレードオフだということ。エージェントに与える権限が大きいほど、できることも増えるが、乗っ取られたときの被害も大きくなる。小さく始めて、効果を見ながら広げる——業務自動化の活用事例でも基本は同じだ。

まとめ

AIのブラウザ操作は、2026年に「実験」から「日常の道具」へ大きく前進した。だが万能ではなく、現実は3階層に分かれる。

この記事の要点

  • 🟢 調査・比較・要約は実用レベル——まずここから任せる。
  • 🟡 フォーム入力はできるが「人が最終確認」が前提。
  • 🔴 予約・決済はまだ苦手——CAPTCHA・決済・2FAの壁。「候補までAI、確定は人」。
  • ⚠️ 最大の壁はセキュリティ——プロンプトインジェクションは対策しても残存。運用ルールで守る。

「調べる相棒としては優秀、お金が動く操作はまだ自分で」。この距離感で付き合えば、ブラウザ操作AIは時間を大きく節約してくれる。まずは失敗しても痛くない"調査"から、今日ひとつ試してみてほしい。エージェント全体の基礎はAIエージェントとは、安全面はセキュリティ事故で深掘りできる。

FAQ

Q. AIに完全に予約まで任せられますか?

A. 2026年時点では推奨しません。CAPTCHA・複雑な決済・二要素認証でつまずきやすく、誤購入や重複予約のリスクがあります。「候補の比較まではAI、最終確定は人」が安全です。

Q. どれを使えばいい?ChatGPT AtlasとClaude for Chromeの違いは?

A. Atlasは"専用ブラウザ"、Claude for Chromeは"Chromeの拡張"という形態の違いが大きいです。すでにChromeを使っているなら拡張型が手軽、まるごと新環境で試すなら専用ブラウザ型。料金や使えるモデルはプランで異なるので、料金比較も参考に。

Q. プロンプトインジェクションは普通のユーザーも気にすべき?

A. はい。エージェントはあなたのログイン状態で動くため、被害が直接的になりえます。怪しいサイトで走らせない、決済・送信は人が承認する、機微情報を扱う画面では使わない——この3つだけでもリスクは大きく下がります。

Q. 無料で試せますか?

A. 製品により異なります。多くのエージェント機能は有料プラン向けですが、OSSの browser-use のように無料で自前構築できる選択肢もあります(別途LLMの利用料は必要)。まずは手持ちのAIサービスで対応状況を確認しましょう。

Q. 単純な定型作業なら従来のRPAとどちらがいい?

A. 毎回まったく同じ手順なら、従来型の自動化のほうが安定して速いこともあります。AIエージェントの強みは「毎回少し違う」「判断が要る」作業。両者は競合でなく使い分けです。