AI 操作浏览器到底能自动化到哪一步?填表单、预订与调研的现实
「我让 AI 帮忙,它就打开浏览器自己查资料,连表单都帮我填好了。」在 2026 年,这已不再是演示桥段:ChatGPT Atlas、Claude for Chrome、Gemini/Chrome、Perplexity Comet 等智能体型浏览器集中涌现。那么它们到底能自动化到什么程度?现实清晰地分成三个层级。(1)调研=已实用:在测试真实网站的 WebVoyager 上头部智能体达到 89-98%,近乎饱和,且出错代价小,应从这里开始放手交托。(2)填表单=能做但要核对:输入本身各家都支持,但可能填错字段或按错提交,因此「AI 起草、人来发送」才安全,Atlas 等许多产品会在重要操作前请求确认。(3)预订/支付=仍需自己来:智能体会栽在 CAPTCHA、复杂 JavaScript 结账、双因素认证与会话管理上,在 WebArena 上即便最好也只有约 47-68%,低于人类约 78% 的基准;OpenAI 关停单体 Operator 正是因为结账不够可靠。文章先梳理两种方式(面向消费者的浏览器/扩展,对面向开发者的 API/OSS),再盘点 2026 年的玩家(Atlas 设计上不可运行代码或读密码;Claude for Chrome 为扩展侧边栏;Google 的 Project Mariner 于 2026/5/4 并入 Gemini/Chrome;Operator 转入 ChatGPT Agent 与 Agents SDK;开源 browser-use 已超 78k 星标),解释让预订失败的四道墙,并深入剖析最大陷阱——间接提示词注入(Comet 曾被证实存在零点击窃取凭据的漏洞并于 2026 年 2 月修复,攻击成功率从防御前 23.6% 降到基础防御约 11%、最强防御约 1%,但仍非零),最后给出五条安全原则。它是出色的调研搭档,但涉及金钱的操作还是自己来。文中数值引自公开资料与公告,仅作趋势参考。