目录
「我让 AI 帮忙,它就打开浏览器、自己上网查资料,连表单都帮我填好了。」——在 2026 年,这已经不再只是演示舞台上的桥段。能在浏览器里「看、点击、输入」的 AI 智能体,也就是所谓的智能体型浏览器,正在集中涌现:ChatGPT Atlas、Claude for Chrome、Gemini/Chrome、Perplexity Comet 等等。
那么,它们到底能自动化到什么程度? 先说结论:现实清晰地分成三个层级。「查资料(调研)」基本已经实用,「填表单」是有条件的,「预订与支付」则仍然应该自己来做。 不了解这种落差就贸然使用,迟早会吃亏。本文将坦率地梳理出最新的技术高度、各家的现状、基准测试的数字,以及常被忽视的安全陷阱,把「现实」摆给你看。
同样是「操作浏览器」,能不能做却分三个等级
— 取决于任务性质,信号灯会变成绿、黄或红
调研・信息收集
只读 = 实用级别
○ 可放心交托填表单
能做,但要核对
△ 有条件预订・支付
栽在 CAPTCHA・结账上
× 仍需自己来* 本文的基准测试数值、各家规格与价格,均引用自各类公开资料、新闻报道与企业公告(截至 2026 年 6 月)。这些产品更新很快,支持的操作系统、价格与能力范围都可能改变。数值因测量方法不同而有差异,请作为趋势参考来阅读。
1. 什么是「AI 操作浏览器」?两种方式
笼统地说「AI 操作浏览器」,在技术上其实有两种方式。两者的共同点是,都在运行同一套 智能体 循环——看屏幕(感知)→ 决定下一步操作(规划)→ 执行点击或输入(行动)。
① 面向消费者:内置于浏览器/扩展
AI 与你日常使用的浏览器共处一体——以专用浏览器(ChatGPT Atlas)或扩展(Claude for Chrome)的形式运行,直接借用你的登录状态来代为调研和填写表单。上手轻松,但伴随着后文所讲的安全注意事项。
例:Atlas/Claude for Chrome/Gemini in Chrome/Comet
② 面向开发者:通过 API/OSS 自动化
用代码驱动沙箱中的浏览器。借助 OpenAI 的 computer-use 工具或开源的 browser-use,就能无人值守地反复跑定型的网页任务。更接近进化版的 RPA,适合嵌入到工作流程中。
例:computer-use(CUA)/browser-use/Skyvern/Steel
本文主要以① 面向消费者的方式为轴,来看「能做到哪一步」。需要注意的是,② 在「幕后」往往使用与 ① 相同的 AI 模型,因此擅长与不擅长的倾向大体相通。
2. 2026 年的主要玩家一览
从 2025 年下半年到 2026 年,操作浏览器的 AI 一下子全冒了出来。与此同时整合(淘汰)也在推进,单体产品被并入主体服务的动向尤为明显。下面把现状整理成一览表。
| 产品 | 形态 | 现状(截至 2026 年 6 月) |
|---|---|---|
| ChatGPT Atlas OpenAI |
专用浏览器(基于 Chromium) | 2025/10/21 发布。Plus/Pro/Business 等可用智能体模式。初期以 Mac 为主,Windows/移动端陆续推出。在设计上不可运行代码、下载文件或读取密码。 |
| Claude for Chrome Anthropic |
Chrome 扩展(侧边栏) | 在付费方案(Pro/Max 等)下提供 Beta。可导航、点击、填表单,执行多标签页的多步骤流程。可用模型因方案而异。 |
| Gemini/Chrome |
浏览器集成 | 实验版「Project Mariner」于 2026/5/4 结束,其技术并入 Gemini/Chrome。Chrome 的「Auto Browse」可自动化复杂的操作步骤。 |
| Perplexity Comet Perplexity |
专用浏览器 | 因专注调研而受欢迎。但被报告存在多个提示词注入漏洞(详见后文),已于 2026 年初实施修复。 |
| ChatGPT Agent OpenAI(前 Operator) |
主体内置+API | 单体的「Operator」于 2025/8/31 结束,功能转入 ChatGPT 主体与 Agents SDK(computer-use)。其退场恰恰道出了「现实」(详见后文)。 |
| browser-use OSS |
代码库(MIT) | GitHub 上超过 78k 星标。接入任意 LLM 即可搭建自己的自动化。Skyvern、Steel 等同源 OSS 也很活跃。 |
值得关注的是,单体产品的「整合・关停」接连发生。无论是 OpenAI 的 Operator 还是 Google 的 Mariner,都放弃了独立应用,被吸收进主体服务。这反映出行业从「华丽的实验」转向「嵌入到人们日常使用的产品里」的潮流;同时这也从反面说明,单凭自身实现完全自动化仍然很难。
3. 究竟能做到哪一步?用三个层级看清现实
这才是正题。即便同样是「操作浏览器」,实用度也会因任务性质而泾渭分明。我们用具体例子和基准测试,给开篇的信号灯添上血肉。
🟢 调研・信息收集 = 当下最「好用」
跨多个网站比价、汇总评论、盯着竞品的更新、从没有 API 的仪表盘里抽取数字——「只读」类的工作已达实用级别。在测试真实网站的 WebVoyager 上,头部智能体达到 89-98%,作为基准已近乎饱和。由于这里即便出错代价也很小,从这里开始放手交托是铁律。
🟡 填表单 = 能做,但需要「盯梢」
咨询表单、申请草稿、往电子表格里转录等,输入本身各家智能体都支持。但它可能填错字段、误判选项,或按错提交按钮。「AI 起草,人来发送」才是安全的做法。事实上,Atlas 等许多产品都设计为在重要操作前请求确认。
🔴 预订・支付 = 还得自己来
酒店与机票预订、电商购物、登录后的确认操作——「涉及金钱、难以撤回」的任务是最薄弱的环节。智能体会栽在 CAPTCHA、复杂的 JavaScript 结账、双因素认证以及会话管理上。在测试复杂多步骤任务的 WebArena 上,即便是最好的成绩也只在 47-68% 左右(低于人类约 78% 的基准线)。OpenAI 之所以关停单体 Operator,正是因为结账流程不够可靠。
从基准测试看「落差」(数值仅作趋势参考)
* 也有报告称,两年前同类任务的成功率约为 14%,可见进步之快。但「复杂任务仍不及人类」也是事实。
一句话:查资料很在行,确认提交很不行。只要记住这一句,就能避免绝大多数因期望落差带来的失望。
4. 为什么会在「预订」上失败
「既然能查资料,为什么不能预订?」——原因不止一个。预订与支付把好几道 AI 不擅长的「关卡」叠在了一处。
🧩 CAPTCHA・反爬虫机制
要求「证明你是人类」的机制,本来就是为了拦住智能体而存在的。试图绕过它本身就可能违反服务条款。
💳 复杂的结账流程
大量使用 JavaScript 的购物车、3-D Secure、跳转到外部支付等。任一处出错就会让整个流程崩掉,且很难恢复。
🔐 双因素认证・登录
短信验证码和 App 审批,只能在本人手上完成。许多产品刻意不去触碰密码与凭据。
↩️ 撤回的代价
「误买」「重复预订」会造成实际损失。因此各家都在重要操作上加入人工审批,不会自动确认。
换句话说,预订上的「失败」与其说是 AI 不够聪明,不如说它在很大程度上撞上了一种设计意图:「网站本就没打算被自动操作」「重大操作应由人来掌控」。所以短期内跳到 100% 自动化是不太可能的。从实务上看,「候选项交给 AI,最终确认由人来」是当前的最佳答案。
5. 最大的陷阱:提示词注入
比「能不能做」更重要的是安全性。智能体型浏览器特有的最大风险,是间接提示词注入——智能体被埋藏在网页或邮件里的「给 AI 的隐藏指令」所欺骗。
什么是间接提示词注入:攻击者用人眼难以看见的文字(与背景同色的文字、图片内的字符、评论区等)嵌入「窃取用户的邮件并发送出去」之类的命令,从而劫持读取该页面的智能体。正因为它运行在你的登录状态下,所造成的危害可能十分直接。
这并非纸上谈兵。2026 年初,专注调研的 Perplexity Comet 被报告存在多个漏洞。在研究者的演示中,仅仅让它读取一个恶意页面或帖子,就足以窃取凭据和一次性验证码并接管账户——这是一条「零点击」的攻击路径(Perplexity 已于 2026 年 2 月实施缓解措施)。此后,其他主要浏览器也陆续被指出类似的弱点。
防御究竟有多大效果?(公开数值示例)
防御前的攻击成功率
(某厂商的自测)
加入基础防御后
(不会归零)
在最强防御设置下
(仍非零)
* 这些数值由各厂商自行申报、依赖条件,无法横向并列比较。关键在于:防御能大幅降低风险,但永远无法降到零。也有研究报告指出,随着攻击方反复试探,突破率会上升。
各家以检测隐藏指令的分类器,外加在重要操作上的确认与权限限制来应对。但 2026 年的实情是,「即便有防御,残余风险依然存在」。正因如此,使用者的运营规则才是安全的最后一道防线。更多内容可参阅 AI 智能体安全事故。
6. 安全使用的实用清单
基于上面的「现实」,这里归纳出从今天起就能安全使用的 5 条原则。无需复杂设置——关键在于心态。
从「只读」开始
一开始只限于调研、比较、汇总等失败也不会有损失的工作。等熟悉之后再扩展到输入类任务。
发送与支付必须由人审批
「草稿交给 AI,最后那一按由你来。」不要设置成无需复核就自动确认。
不要交出敏感信息和密码
不要在网银、支付或机密画面上使用它。许多产品被设计成不去触碰凭据,是有原因的。
不要在不可信的网站上运行智能体
可疑页面和来自陌生发件人的链接,是隐藏指令的温床。在让智能体「读取」它们之前,先停一停。
最小权限,使用专用配置文件
不要让它访问所有已登录的标签页。条件允许时,在一个独立的工作用配置文件中运行,把影响范围控制住。
归根结底,「便利」与「权限」是一对取舍。给智能体的权限越大,它能做的事就越多——但一旦被劫持,损害也越大。从小处着手,看到成效再逐步扩展——这与 业务自动化的应用案例 中的基本原则如出一辙。
总结
AI 操作浏览器在 2026 年迈出了一大步,从「实验」走向「日常工具」。但它并非万能,现实分成三个层级。
本文要点
- 🟢 调研、比较、汇总已达实用级别——从这里开始放手。
- 🟡 填表单能做,但前提是「由人做最终确认」。
- 🔴 预订与支付仍然薄弱——CAPTCHA/结账/2FA 这几道墙。「候选项交给 AI,确认由人来」。
- ⚠️ 最大的墙是安全——提示词注入即便有防御也会残留。用运营规则保护自己。
「作为查资料的搭档很出色,涉及金钱的操作还是自己来。」保持这样的距离感,AI 操作浏览器就能为你大大节省时间。今天就从「调研」这种出错也不伤筋动骨的事开始试一试吧。智能体整体的基础可参阅 什么是 AI 智能体,安全方面可深入阅读 安全事故。
FAQ
Q. 可以把整个预订都交给 AI 吗?
A. 截至 2026 年并不推荐。它很容易栽在 CAPTCHA、复杂结账和双因素认证上,存在误购或重复预订的风险。「比较候选项之前交给 AI,最终确认由人来」才是安全的。
Q. 该用哪一个?ChatGPT Atlas 和 Claude for Chrome 有什么区别?
A. 最大的区别在于形态:Atlas 是「专用浏览器」,Claude for Chrome 是「Chrome 扩展」。如果你已经在用 Chrome,扩展型更省事;如果想用一个全新环境来尝试,就选专用浏览器型。价格和可用模型因方案而异,可参考 价格对比。
Q. 普通用户也需要担心提示词注入吗?
A. 需要。由于智能体运行在你的登录状态下,危害可能十分直接。仅仅做到三件事——不在可疑网站上运行、支付与发送由人审批、不在含敏感信息的画面上使用——就能大幅降低风险。
Q. 可以免费试用吗?
A. 视产品而定。许多智能体功能面向付费方案,但也有像开源 browser-use 这样可以免费自行搭建的选项(仍需另行支付 LLM 的使用费)。先确认一下你手头的 AI 服务 是否支持。
Q. 对于简单的日常重复工作,传统 RPA 是不是更好?
A. 如果每次步骤完全相同,传统自动化可能更稳定也更快。AI 智能体的强项在于「每次都略有不同」或「需要判断」的工作。两者并非对手,而是各司其职、按需选用。