"मैंने एक AI से कहा, और उसने खुद ब्राउज़र खोला, चीज़ें ढूँढीं, और मेरे लिए एक form भी भर दिया।" 2026 में यह अब सिर्फ़ एक दिखावटी demo नहीं रहा। ब्राउज़र में "देखने, click करने और type करने" वाले AI agents — यानी तथाकथित agentic browsers — एक साथ आ गए हैं: ChatGPT Atlas, Claude for Chrome, Gemini/Chrome, Perplexity Comet, और भी बहुत कुछ।

तो ये असल में कहाँ तक automate कर सकते हैं? छोटा-सा जवाब: हकीकत साफ़-साफ़ तीन स्तरों में बँट जाती है। "रिसर्च करना" तो लगभग production-ready है, "form भरना" शर्तों के साथ है, और "बुकिंग व भुगतान" वह काम है जो आपको अभी भी खुद ही करना चाहिए। इस फ़र्क को जाने बिना इन tools का इस्तेमाल करेंगे तो नुकसान उठाएँगे। यह लेख मौजूदा हालत, हर vendor की स्थिति, benchmark के आँकड़े और — जिसे अक्सर नज़रअंदाज़ कर दिया जाता है — सुरक्षा के खतरे सामने रखता है, ताकि आपको "हकीकत" की एक ईमानदार तस्वीर मिले।

AI BROWSER CONTROL · THE REALITY

एक ही "ब्राउज़र कंट्रोल" — पर "कर पाने" के तीन स्तर

— काम की प्रकृति के हिसाब से signal हरा, पीला या लाल हो जाता है

🟢

रिसर्च

सिर्फ़ पढ़ना = production-ready

○ सौंप दें
🟡

Form भरना

चलता है, पर जाँच ज़रूरी

△ शर्तों के साथ
🔴

बुकिंग / भुगतान

CAPTCHA / checkout पर विफल

× खुद करें
रिसर्च benchmarks 89-98% जटिल काम इंसानी स्तर से नीचे सबसे बड़ी दीवार है सुरक्षा

* इस लेख के benchmark आँकड़े, vendor specs और कीमतें विभिन्न सार्वजनिक सामग्री, समाचार रिपोर्टों और कंपनियों की घोषणाओं से लिए गए हैं (जून 2026 तक)। ये products तेज़ी से अपडेट होते हैं, और इनके समर्थित OS, कीमतें व क्षमताएँ बदल सकती हैं। आँकड़े मापने के तरीके के हिसाब से अलग-अलग होते हैं — इन्हें दिशासूचक के रूप में लें।

1. "AI ब्राउज़र कंट्रोल" क्या है? दो तरीके

"AI द्वारा ब्राउज़र चलाना" असल में दो तकनीकी रूपों में आता है। दोनों एक ही agent loop पर चलते हैं — स्क्रीन देखना (perceive) → अगली action तय करना (plan) → उसे click या type करना (act)

🧭

① उपभोक्ता: ब्राउज़र/extension में बना हुआ

AI उसी ब्राउज़र के अंदर रहता है जो आप पहले से इस्तेमाल करते हैं — एक समर्पित ब्राउज़र (ChatGPT Atlas) या एक extension (Claude for Chrome) के रूप में — और आपके अपने logged-in session का इस्तेमाल करके रिसर्च व form भरना संभालता है। अपनाना आसान है, पर इसके साथ नीचे बताए गए सुरक्षा-संबंधी चेतावनियाँ भी आती हैं।

जैसे Atlas / Claude for Chrome / Gemini in Chrome / Comet

⚙️

② डेवलपर: API/OSS से automate करना

code से एक sandbox में ब्राउज़र चलाएँ। OpenAI के computer-use tool या open-source browser-use से आप दोहराव वाले web काम बिना निगरानी के चला सकते हैं। यह एक उन्नत RPA के करीब है, workflows में embed करने के लिए बढ़िया।

जैसे computer-use (CUA) / browser-use / Skyvern / Steel

यह लेख मुख्य रूप से ① उपभोक्ता पक्ष पर केंद्रित है ताकि "यह कहाँ तक जाता है" को आँका जा सके। ध्यान दें कि ② अक्सर अंदर वही AI models इस्तेमाल करता है, इसलिए इसकी खूबियाँ और कमज़ोरियाँ आमतौर पर साझा होती हैं।

2. 2026 के प्रमुख खिलाड़ी

2025 के आख़िर से 2026 तक, agentic browsers एक साथ आ गए — और उतनी ही तेज़ी से समेकन (shakeout) भी शुरू हो गया, जहाँ स्वतंत्र products अपनी मूल सेवाओं में मिला दिए गए। यहाँ मौजूदा लाइनअप है।

प्रोडक्ट रूप स्थिति (जून 2026 तक)
ChatGPT Atlas
OpenAI
समर्पित ब्राउज़र (Chromium-आधारित) 2025/10/21 को लॉन्च। Plus/Pro/Business आदि के लिए Agent mode। शुरुआत में Mac-केंद्रित; Windows/mobile पर रोलआउट जारी। डिज़ाइन के हिसाब से यह code चलाना, files download करना या passwords पढ़ना नहीं कर सकता।
Claude for Chrome
Anthropic
Chrome extension (side panel) paid plans पर beta (Pro/Max आदि)। navigate करता है, click करता है, forms भरता है, multi-tab और multi-step flows चलाता है। उपलब्ध models plan के हिसाब से अलग होते हैं।
Gemini / Chrome
Google
ब्राउज़र integration प्रयोगात्मक "Project Mariner" 2026/5/4 को बंद हुआ और इसकी तकनीक Gemini/Chrome में मिला दी गई। Chrome का "Auto Browse" जटिल flows को automate करता है।
Perplexity Comet
Perplexity
समर्पित ब्राउज़र रिसर्च के लिए लोकप्रिय। पर कई prompt-injection कमज़ोरियाँ रिपोर्ट हुईं (नीचे देखें); 2026 की शुरुआत में सुधार जारी हुए।
ChatGPT Agent
OpenAI (ex-Operator)
अंदर बना + API स्वतंत्र "Operator" 2025/8/31 को बंद हुआ; इसकी क्षमताएँ ChatGPT और Agents SDK (computer-use) में चली गईं। इसका जाना ही "हकीकत" बयान करता है (नीचे देखें)।
browser-use
OSS
Library (MIT) 78k से ज़्यादा GitHub stars। कोई भी LLM लगाकर अपना खुद का automation बनाएँ। Skyvern और Steel जैसे सहयोगी OSS भी सक्रिय हैं।

जो बात उभरकर सामने आती है वह है स्वतंत्र products का "एकीकरण और बंद होना"। OpenAI का Operator और Google का Mariner — दोनों ने अपने अलग apps छोड़े और मूल सेवा में समाहित कर दिए गए। यह उद्योग के एक बदलाव को दर्शाता है — "चमकदार प्रयोगों" से "रोज़मर्रा इस्तेमाल होने वाले products में embed फ़ीचर्स" की ओर — और साथ ही इसका दूसरा पहलू भी: पूरी तरह स्वायत्त कंट्रोल अकेले अभी भी मुश्किल है।

3. यह कहाँ तक जा सकता है? 3 स्तरों में हकीकत

यही असली बात है। "ब्राउज़र कंट्रोल" के अंदर भी, व्यावहारिक भरोसेमंदी काम की प्रकृति के हिसाब से तीखे ढंग से बँट जाती है। आइए शुरुआती ट्रैफ़िक लाइट को ठोस उदाहरणों और benchmarks के साथ विस्तार दें।

🟢 रिसर्च / जानकारी जुटाना = आज सबसे ज़्यादा "इस्तेमाल लायक"

कई sites पर कीमतों की तुलना, reviews का सारांश, प्रतिस्पर्धियों पर अपडेट की नज़र, API-रहित dashboard से आँकड़े निकालना — "सिर्फ़ पढ़ने" वाला काम production-ready है। असली websites पर परखने वाले WebVoyager पर शीर्ष agents 89-98% तक पहुँचते हैं, यानी benchmark लगभग saturate हो चुका है। चूँकि यहाँ ग़लत action की क़ीमत कम है, इसी जगह से सौंपना शुरू करें।

🟡 Form भरना = हो सकता है, पर एक "निगरानीकर्ता" चाहिए

contact forms, आवेदनों के draft, spreadsheet में डेटा उतारना — इनपुट करना खुद हर agent में समर्थित है। पर यह fields को ग़लत label दे सकता है, options ग़लत आँक सकता है, या ग़लत submit button दबा सकता है। "AI draft करे, इंसान भेजे" सुरक्षित तरीका है। दरअसल Atlas जैसे कई products अहम actions से पहले पुष्टि माँगने के लिए डिज़ाइन किए गए हैं।

🔴 बुकिंग / भुगतान = अभी भी खुद करें

होटल व फ़्लाइट बुकिंग, e-commerce ख़रीदारी, login के पीछे की पुष्टि — "पैसा हिलता है, पलटना मुश्किल" वाले काम सबसे कमज़ोर जगह हैं। agents CAPTCHA, जटिल JavaScript checkout, two-factor auth और session management पर लड़खड़ा जाते हैं। जटिल multi-step काम परखने वाले WebArena पर, सबसे बेहतरीन भी क़रीब 47-68% ही पाते हैं (~78% के इंसानी baseline से नीचे)। OpenAI ने स्वतंत्र Operator को बंद किया, उसकी असली वजह ही checkout flows का भरोसेमंद न होना था।

benchmarks में "फ़र्क" (आँकड़े दिशासूचक हैं)

WebVoyager (असली sites, रिसर्च-झुकाव)89-98%
WebArena (जटिल multi-step काम)47-68%
इंसानी baseline (WebArena)~78%

* कहा जाता है कि दो साल पहले इसी तरह के कामों में सफलता क़रीब 14% थी, यानी प्रगति तेज़ है। फिर भी "जटिल काम अभी भी इंसानों से पीछे हैं" — यह भी एक हक़ीक़त है।

संक्षेप में: चीज़ें ढूँढने में बेहतरीन, actions करने में कमज़ोर। बस इतनी एक पंक्ति याद रखने भर से, उम्मीदों के मेल न खाने से होने वाली ज़्यादातर निराशा से बच जाएँगे।

4. "बुकिंग" में यह क्यों विफल होता है

"अगर यह रिसर्च कर सकता है, तो बुकिंग क्यों नहीं?" इसकी कोई एक वजह नहीं है। बुकिंग और भुगतान में, AI जिन कामों में कमज़ोर है, उनके कई "द्वार" एक ही जगह जमा हो जाते हैं।

🧩 CAPTCHA / bot सुरक्षा

"इंसान होने का सबूत" माँगने वाले तंत्र इसीलिए बने हैं कि agents को रोका जा सके। इन्हें bypass करने की कोशिश खुद terms of service का उल्लंघन हो सकती है।

💳 जटिल checkout flows

JavaScript-भारी carts, 3-D Secure, बाहरी भुगतान पर redirect। कहीं भी एक चूक पूरी प्रक्रिया तोड़ देती है, और सुधार करना मुश्किल होता है।

🔐 Two-factor auth / login

SMS codes और app approvals सिर्फ़ आपके अपने हाथों में ही पूरे होते हैं। कई products जानबूझकर passwords और credentials से दूर रहते हैं।

↩️ पलटने की क़ीमत

"ग़लती से ख़रीद लिया" या "दोहरी बुकिंग" असली नुकसान करती है। इसलिए vendors अहम actions पर इंसानी मंज़ूरी डालते हैं और अपने-आप पुष्टि नहीं करते।

दूसरे शब्दों में, बुकिंग में "विफलता" इस वजह से कम है कि AI काफ़ी समझदार नहीं, और इस वजह से ज़्यादा कि यह एक डिज़ाइन-मंशा से टकराता है: "websites automation की उम्मीद नहीं रखतीं" और "बड़े फ़ैसले इंसानों के हाथ में रहने चाहिए।" इसलिए कम समय में 100% automation की छलाँग की संभावना नहीं है। व्यावहारिक रूप से, "विकल्प तक AI, आख़िरी पुष्टि इंसान" ही अभी सबसे बेहतर जवाब है।

5. सबसे बड़ा खतरा: prompt injection

"कर सकता है या नहीं" से ज़्यादा अहम है सुरक्षा। agentic browsers का सबसे बड़ा और अनोखा जोखिम है indirect prompt injectionकिसी web page या email में लगाए गए "AI के लिए छिपे निर्देशों" से agent को धोखा दे देना।

indirect prompt injection क्या है: एक हमलावर "उपयोगकर्ता का email चुराकर भेजो" जैसे commands को ऐसे text में embed कर देता है जो इंसानों को देखना मुश्किल हो (background से मेल खाता text, images के अंदर के characters, comment sections), ताकि page पढ़ने वाला agent अगवा हो जाए। चूँकि यह आपके logged-in session में चलता है, नुकसान सीधा हो सकता है।

यह कोरी कल्पना नहीं है। 2026 की शुरुआत में, रिसर्च-केंद्रित Perplexity Comet में कई कमज़ोरियाँ रिपोर्ट हुईं। शोधकर्ताओं के प्रदर्शनों में, सिर्फ़ किसी दुर्भावनापूर्ण page या post को पढ़वा देना ही credentials और one-time codes चुराने और account पर कब्ज़ा करने के लिए काफ़ी था — एक "zero-click" हमले का रास्ता (Perplexity ने फ़रवरी 2026 में बचाव उपाय जारी किए)। इसके बाद से दूसरे प्रमुख browsers में भी ऐसी ही कमज़ोरियाँ चिह्नित हुई हैं।

बचाव कितना कारगर है? (प्रकाशित आँकड़ों का एक उदाहरण)

23.6%

बचाव से पहले हमले की सफलता
(एक vendor का अपना माप)

~11%

बुनियादी बचाव के बाद
(शून्य नहीं)

~1%

सबसे मज़बूत बचाव के तहत
(फिर भी शून्य नहीं)

* ये आँकड़े हर vendor के अपने बताए हुए और स्थिति पर निर्भर हैं, इसलिए इनकी आपस में सीधी तुलना नहीं की जा सकती। मुद्दा यह है: बचाव इसे तेज़ी से घटाते हैं, पर कभी शून्य तक नहीं। शोध यह भी बताता है कि जैसे-जैसे हमलावर बार-बार कोशिश करते हैं, सफलता की दर बढ़ती जाती है।

vendors इसका मुक़ाबला छिपे निर्देशों को पकड़ने वाले classifiers से, और अहम actions पर पुष्टि व अनुमति की सीमाओं से करते हैं। पर 2026 की ईमानदार हालत यह है कि "बचाव के बावजूद, बाक़ी बचा जोखिम रहता है।" ठीक इसीलिए आपके अपने इस्तेमाल के नियम बचाव की आख़िरी पंक्ति हैं। और जानने के लिए, देखें AI agent सुरक्षा घटनाएँ

6. सुरक्षित उपयोग की व्यावहारिक चेकलिस्ट

ऊपर बताई "हकीकत" को देखते हुए, यहाँ आज से सुरक्षित उपयोग के 5 सिद्धांत हैं। कोई पेचीदा settings नहीं — यह बस सोच की बात है।

1

"सिर्फ़ पढ़ने" से शुरू करें

शुरुआत में इसे रिसर्च, तुलना और सारांश तक सीमित रखें — ऐसा काम जहाँ विफलता की कोई क़ीमत नहीं। सहज होने के बाद ही इनपुट वाले कामों तक बढ़ें।

2

भेजने और भुगतान को इंसान ही मंज़ूरी दे

"draft तक AI, आख़िरी button आपका।" बिना समीक्षा के पुष्टि करने पर इसे सेट न करें।

3

संवेदनशील जानकारी या passwords न सौंपें

online banking, भुगतान या गोपनीय screens के लिए इसका इस्तेमाल न करें। कई products को credentials छूने न देने के लिए डिज़ाइन किए जाने की एक वजह है।

4

अविश्वसनीय sites पर agent न चलाएँ

संदिग्ध pages और अनजान भेजने वालों के links छिपे निर्देशों की खान हैं। agent को उन्हें "पढ़ने" देने से पहले रुकें।

5

कम-से-कम अधिकार, एक समर्पित profile में

इसे हर logged-in tab तक पहुँच न दें। जहाँ संभव हो, नुकसान का दायरा सीमित करने के लिए इसे एक अलग work profile में चलाएँ।

निचोड़: "सुविधा" और "अधिकार" एक trade-off हैं। आप agent को जितनी ज़्यादा ताक़त देंगे, यह उतना ही ज़्यादा कर पाएगा — पर अगर यह अगवा हो गया तो नुकसान भी उतना ही बड़ा होगा। छोटे से शुरू करें और नतीजे देखते हुए बढ़ाएँ — यही बुनियादी नियम बिज़नेस automation के उपयोग उदाहरणों में भी लागू होता है।

सारांश

AI ब्राउज़र कंट्रोल ने 2026 में "प्रयोग" से "रोज़मर्रा के tool" की ओर एक बड़ा कदम उठाया। पर यह सर्वशक्तिमान नहीं है — हकीकत तीन स्तरों में बँट जाती है।

मुख्य बातें

  • 🟢 रिसर्च, तुलना और सारांश production-ready हैं — यहीं से शुरू करें।
  • 🟡 Form भरना चलता है, पर मान लें कि आख़िर में "इंसान पुष्टि करता है।"
  • 🔴 बुकिंग और भुगतान अभी भी कमज़ोर हैं — CAPTCHA/checkout/2FA की दीवारें। "विकल्प तक AI, पुष्टि इंसान।"
  • ⚠️ सबसे बड़ी दीवार है सुरक्षा — बचाव के बावजूद prompt injection बना रहता है। अपने इस्तेमाल के नियमों से खुद को बचाएँ।

"एक बेहतरीन रिसर्च साथी; पैसा हिलाने वाले काम खुद करें।" यह दूरी बनाए रखें और AI ब्राउज़र कंट्रोल आपका काफ़ी समय बचाएगा। आज "रिसर्च" से शुरू करें, जहाँ ग़लती से कोई नुकसान नहीं होता। agents की कुल बुनियाद के लिए, देखें AI agent क्या है; सुरक्षा के लिए, गहराई से जानें सुरक्षा घटनाएँ

FAQ

Q. क्या मैं पूरी बुकिंग किसी AI पर छोड़ सकता हूँ?

A. 2026 तक अनुशंसित नहीं। यह CAPTCHA, जटिल checkout और two-factor auth पर आसानी से लड़खड़ा जाता है, जिससे ग़लत ख़रीदारी या दोहरी बुकिंग का जोखिम रहता है। "विकल्पों की तुलना तक AI, आख़िरी पुष्टि इंसान" सुरक्षित है।

Q. मुझे किसका इस्तेमाल करना चाहिए? ChatGPT Atlas और Claude for Chrome में क्या फ़र्क है?

A. बड़ा फ़र्क रूप का है: Atlas एक "समर्पित ब्राउज़र" है, Claude for Chrome एक "Chrome extension" है। अगर आप पहले से Chrome इस्तेमाल करते हैं, तो extension आसान है; एक बिल्कुल नया environment आज़माना हो, तो समर्पित ब्राउज़र चुनें। कीमत और उपलब्ध models plan के हिसाब से अलग होते हैं — देखें कीमत तुलना

Q. क्या आम उपयोगकर्ताओं को prompt injection की चिंता करनी चाहिए?

A. हाँ। चूँकि agent आपके logged-in session में चलता है, नुकसान सीधा हो सकता है। बस तीन आदतें — संदिग्ध sites पर इसे न चलाएँ, भुगतान व भेजने को इंसान मंज़ूरी दे, और संवेदनशील जानकारी वाले screens पर इसका इस्तेमाल न करें — जोखिम काफ़ी घटा देती हैं।

Q. क्या मैं इसे मुफ़्त में आज़मा सकता हूँ?

A. यह product पर निर्भर करता है। कई agent फ़ीचर्स paid plans के लिए हैं, पर OSS browser-use जैसे मुफ़्त विकल्प भी हैं जिन्हें आप खुद बना सकते हैं (LLM के इस्तेमाल का शुल्क फिर भी अलग से देना होगा)। पहले जाँचें कि आपकी मौजूदा AI सेवा क्या समर्थन देती है।

Q. साधारण नियमित काम के लिए, क्या पारंपरिक RPA बेहतर है?

A. अगर हर बार क़दम बिल्कुल एक जैसे हों, तो पारंपरिक automation ज़्यादा स्थिर और तेज़ हो सकता है। AI agents की ताक़त ऐसे काम में है जो "हर बार थोड़ा अलग" हो या "जिसमें फ़ैसले की ज़रूरत" हो। दोनों प्रतिद्वंद्वी नहीं हैं — काम के हिसाब से सही चुनें।