AI 操作浏览器能自动化到哪一步？现实真相

1. 什么是「AI 操作浏览器」？两种方式
2. 2026 年的主要玩家一览
3. 究竟能做到哪一步？用三个层级看清现实
4. 为什么会在「预订」上失败
5. 最大的陷阱：提示词注入
6. 安全使用的实用清单
总结
FAQ

「我让 AI 帮忙，它就打开浏览器、自己上网查资料，连表单都帮我填好了。」——在 2026 年，这已经不再只是演示舞台上的桥段。能在浏览器里「看、点击、输入」的 AI 智能体，也就是所谓的智能体型浏览器，正在集中涌现：ChatGPT Atlas、Claude for Chrome、Gemini／Chrome、Perplexity Comet 等等。

那么，它们到底能自动化到什么程度？ 先说结论：现实清晰地分成三个层级。「查资料（调研）」基本已经实用，「填表单」是有条件的，「预订与支付」则仍然应该自己来做。 不了解这种落差就贸然使用，迟早会吃亏。本文将坦率地梳理出最新的技术高度、各家的现状、基准测试的数字，以及常被忽视的安全陷阱，把「现实」摆给你看。

AI 浏览器操作 · 自动化的现实

同样是「操作浏览器」，能不能做却分三个等级

— 取决于任务性质，信号灯会变成绿、黄或红

🟢

调研、信息收集

只读＝实用级别

○ 可放心交托

🟡

填表单

能做，但要核对

△ 有条件

🔴

预订、支付

栽在 CAPTCHA、结账上

× 仍需自己来

调研基准 89-98% 复杂任务仍不及人类最大的墙是安全

* 本文的基准测试数值、各家规格与价格，均引用自各类公开资料、新闻报道与企业公告（截至 2026 年 6 月）。这些产品更新很快，支持的操作系统、价格与能力范围都可能改变。数值因测量方法不同而有差异，请作为趋势参考来阅读。

1. 什么是「AI 操作浏览器」？两种方式

笼统地说「AI 操作浏览器」，在技术上其实有两种方式。两者的共同点是，都在运行同一套智能体循环——看屏幕（感知）→ 决定下一步操作（规划）→ 执行点击或输入（行动）。

🧭

① 面向消费者：内置于浏览器／扩展

AI 与你日常使用的浏览器共处一体——以专用浏览器（ChatGPT Atlas）或扩展（Claude for Chrome）的形式运行，直接借用你的登录状态来代为调研和填写表单。上手轻松，但伴随着后文所讲的安全注意事项。

例：Atlas／Claude for Chrome／Gemini in Chrome／Comet

⚙️

② 面向开发者：通过 API／OSS 自动化

用代码驱动沙箱中的浏览器。借助 OpenAI 的 computer-use 工具或开源的 browser-use，就能无人值守地反复跑定型的网页任务。更接近进化版的 RPA，适合嵌入到工作流程中。

例：computer-use（CUA）／browser-use／Skyvern／Steel

本文主要以① 面向消费者的方式为轴，来看「能做到哪一步」。需要注意的是，② 在「幕后」往往使用与 ① 相同的 AI 模型，因此擅长与不擅长的倾向大体相通。

2. 2026 年的主要玩家一览

从 2025 年下半年到 2026 年，操作浏览器的 AI 一下子全冒了出来。与此同时整合（淘汰）也在推进，单体产品被并入主体服务的动向尤为明显。下面把现状整理成一览表。

产品	形态	现状（截至 2026 年 6 月）
ChatGPT Atlas OpenAI	专用浏览器（基于 Chromium）	2025/10/21 发布。Plus/Pro/Business 等可用智能体模式。初期以 Mac 为主，Windows／移动端陆续推出。在设计上不可运行代码、下载文件或读取密码。
Claude for Chrome Anthropic	Chrome 扩展（侧边栏）	在付费方案（Pro/Max 等）下提供 Beta。可导航、点击、填表单，执行多标签页的多步骤流程。可用模型因方案而异。
Gemini／Chrome Google	浏览器集成	实验版「Project Mariner」于 2026/5/4 结束，其技术并入 Gemini／Chrome。Chrome 的「Auto Browse」可自动化复杂的操作步骤。
Perplexity Comet Perplexity	专用浏览器	因专注调研而受欢迎。但被报告存在多个提示词注入漏洞（详见后文），已于 2026 年初实施修复。
ChatGPT Agent OpenAI（前 Operator）	主体内置＋API	单体的「Operator」于 2025/8/31 结束，功能转入 ChatGPT 主体与 Agents SDK（computer-use）。其退场恰恰道出了「现实」（详见后文）。
browser-use OSS	代码库（MIT）	GitHub 上超过 78k 星标。接入任意 LLM 即可搭建自己的自动化。Skyvern、Steel 等同源 OSS 也很活跃。

值得关注的是，单体产品的「整合、关停」接连发生。无论是 OpenAI 的 Operator 还是 Google 的 Mariner，都放弃了独立应用，被吸收进主体服务。这反映出行业从「华丽的实验」转向「嵌入到人们日常使用的产品里」的潮流；同时这也从反面说明，单凭自身实现完全自动化仍然很难。

3. 究竟能做到哪一步？用三个层级看清现实

这才是正题。即便同样是「操作浏览器」，实用度也会因任务性质而泾渭分明。我们用具体例子和基准测试，给开篇的信号灯添上血肉。

🟢 调研、信息收集＝当下最「好用」

跨多个网站比价、汇总评论、盯着竞品的更新、从没有 API 的仪表盘里抽取数字——「只读」类的工作已达实用级别。在测试真实网站的 WebVoyager 上，头部智能体达到 89-98%，作为基准已近乎饱和。由于这里即便出错代价也很小，从这里开始放手交托是铁律。

🟡 填表单＝能做，但需要「盯梢」

咨询表单、申请草稿、往电子表格里转录等，输入本身各家智能体都支持。但它可能填错字段、误判选项，或按错提交按钮。「AI 起草，人来发送」才是安全的做法。事实上，Atlas 等许多产品都设计为在重要操作前请求确认。

🔴 预订、支付＝还得自己来

酒店与机票预订、电商购物、登录后的确认操作——「涉及金钱、难以撤回」的任务是最薄弱的环节。智能体会栽在 CAPTCHA、复杂的 JavaScript 结账、双因素认证以及会话管理上。在测试复杂多步骤任务的 WebArena 上，即便是最好的成绩也只在 47-68% 左右（低于人类约 78% 的基准线）。OpenAI 之所以关停单体 Operator，正是因为结账流程不够可靠。

从基准测试看「落差」（数值仅作趋势参考）

WebVoyager（真实网站、偏调研）89-98%

WebArena（复杂的多步骤任务）47-68%

人类基准线（WebArena）~78%

* 也有报告称，两年前同类任务的成功率约为 14%，可见进步之快。但「复杂任务仍不及人类」也是事实。

一句话：查资料很在行，确认提交很不行。只要记住这一句，就能避免绝大多数因期望落差带来的失望。

4. 为什么会在「预订」上失败

「既然能查资料，为什么不能预订？」——原因不止一个。预订与支付把好几道 AI 不擅长的「关卡」叠在了一处。

🧩 CAPTCHA、反爬虫机制

要求「证明你是人类」的机制，本来就是为了拦住智能体而存在的。试图绕过它本身就可能违反服务条款。

💳 复杂的结账流程

大量使用 JavaScript 的购物车、3-D Secure、跳转到外部支付等。任一处出错就会让整个流程崩掉，且很难恢复。

🔐 双因素认证、登录

短信验证码和 App 审批，只能在本人手上完成。许多产品刻意不去触碰密码与凭据。

↩️ 撤回的代价

「误买」「重复预订」会造成实际损失。因此各家都在重要操作上加入人工审批，不会自动确认。

换句话说，预订上的「失败」与其说是 AI 不够聪明，不如说它在很大程度上撞上了一种设计意图：「网站本就没打算被自动操作」「重大操作应由人来掌控」。所以短期内跳到 100% 自动化是不太可能的。从实务上看，「候选项交给 AI，最终确认由人来」是当前的最佳答案。

5. 最大的陷阱：提示词注入

比「能不能做」更重要的是安全性。智能体型浏览器特有的最大风险，是间接提示词注入——智能体被埋藏在网页或邮件里的「给 AI 的隐藏指令」所欺骗。

什么是间接提示词注入：攻击者用人眼难以看见的文字（与背景同色的文字、图片内的字符、评论区等）嵌入「窃取用户的邮件并发送出去」之类的命令，从而劫持读取该页面的智能体。正因为它运行在你的登录状态下，所造成的危害可能十分直接。

这并非纸上谈兵。2026 年初，专注调研的 Perplexity Comet 被报告存在多个漏洞。在研究者的演示中，仅仅让它读取一个恶意页面或帖子，就足以窃取凭据和一次性验证码并接管账户——这是一条「零点击」的攻击路径（Perplexity 已于 2026 年 2 月实施缓解措施）。此后，其他主要浏览器也陆续被指出类似的弱点。

防御究竟有多大效果？（公开数值示例）

23.6%

防御前的攻击成功率
（某厂商的自测）

~11%

加入基础防御后
（不会归零）

~1%

在最强防御设置下
（仍非零）

* 这些数值由各厂商自行申报、依赖条件，无法横向并列比较。关键在于：防御能大幅降低风险，但永远无法降到零。也有研究报告指出，随着攻击方反复试探，突破率会上升。

各家以检测隐藏指令的分类器，外加在重要操作上的确认与权限限制来应对。但 2026 年的实情是，「即便有防御，残余风险依然存在」。正因如此，使用者的运营规则才是安全的最后一道防线。更多内容可参阅 AI 智能体安全事故。

6. 安全使用的实用清单

基于上面的「现实」，这里归纳出从今天起就能安全使用的 5 条原则。无需复杂设置——关键在于心态。

从「只读」开始

一开始只限于调研、比较、汇总等失败也不会有损失的工作。等熟悉之后再扩展到输入类任务。

发送与支付必须由人审批

「草稿交给 AI，最后那一按由你来。」不要设置成无需复核就自动确认。

不要交出敏感信息和密码

不要在网银、支付或机密画面上使用它。许多产品被设计成不去触碰凭据，是有原因的。

不要在不可信的网站上运行智能体

可疑页面和来自陌生发件人的链接，是隐藏指令的温床。在让智能体「读取」它们之前，先停一停。

最小权限，使用专用配置文件

不要让它访问所有已登录的标签页。条件允许时，在一个独立的工作用配置文件中运行，把影响范围控制住。

归根结底，「便利」与「权限」是一对取舍。给智能体的权限越大，它能做的事就越多——但一旦被劫持，损害也越大。从小处着手，看到成效再逐步扩展——这与业务自动化的应用案例中的基本原则如出一辙。

总结

AI 操作浏览器在 2026 年迈出了一大步，从「实验」走向「日常工具」。但它并非万能，现实分成三个层级。

本文要点

🟢 调研、比较、汇总已达实用级别——从这里开始放手。
🟡 填表单能做，但前提是「由人做最终确认」。
🔴 预订与支付仍然薄弱——CAPTCHA／结账／2FA 这几道墙。「候选项交给 AI，确认由人来」。
⚠️ 最大的墙是安全——提示词注入即便有防御也会残留。用运营规则保护自己。

「作为查资料的搭档很出色，涉及金钱的操作还是自己来。」保持这样的距离感，AI 操作浏览器就能为你大大节省时间。今天就从「调研」这种出错也不伤筋动骨的事开始试一试吧。智能体整体的基础可参阅什么是 AI 智能体，安全方面可深入阅读安全事故。

FAQ

Q. 可以把整个预订都交给 AI 吗？

A. 截至 2026 年并不推荐。它很容易栽在 CAPTCHA、复杂结账和双因素认证上，存在误购或重复预订的风险。「比较候选项之前交给 AI，最终确认由人来」才是安全的。

Q. 该用哪一个？ChatGPT Atlas 和 Claude for Chrome 有什么区别？

A. 最大的区别在于形态：Atlas 是「专用浏览器」，Claude for Chrome 是「Chrome 扩展」。如果你已经在用 Chrome，扩展型更省事；如果想用一个全新环境来尝试，就选专用浏览器型。价格和可用模型因方案而异，可参考价格对比。

Q. 普通用户也需要担心提示词注入吗？

A. 需要。由于智能体运行在你的登录状态下，危害可能十分直接。仅仅做到三件事——不在可疑网站上运行、支付与发送由人审批、不在含敏感信息的画面上使用——就能大幅降低风险。

Q. 可以免费试用吗？

A. 视产品而定。许多智能体功能面向付费方案，但也有像开源 browser-use 这样可以免费自行搭建的选项（仍需另行支付 LLM 的使用费）。先确认一下你手头的 AI 服务是否支持。

Q. 对于简单的日常重复工作，传统 RPA 是不是更好？

A. 如果每次步骤完全相同，传统自动化可能更稳定也更快。AI 智能体的强项在于「每次都略有不同」或「需要判断」的工作。两者并非对手，而是各司其职、按需选用。

AI 操作浏览器到底能自动化到哪一步？填表单、预订与调研的现实

同样是「操作浏览器」，能不能做却分三个等级

1. 什么是「AI 操作浏览器」？两种方式

2. 2026 年的主要玩家一览

3. 究竟能做到哪一步？用三个层级看清现实

4. 为什么会在「预订」上失败

5. 最大的陷阱：提示词注入

6. 安全使用的实用清单

总结

FAQ

相关文章

什么是Claude Agent SDK？AI智能体开发从入门到实践

什么是AI智能体？与聊天机器人的区别、能做什么、不能做什么

什么是 OpenClaw？GitHub 24 万星的开源 AI 助手全面解析

有了Claude Code和Codex，基础设施与网络工程师会被淘汰吗？——AI正在改变的运维现实

评论

发表评论