Agent evals यह व्यवस्थित रूप से मापने की प्रक्रिया है कि एक agent—जो टूल्स का उपयोग करता है और किसी लक्ष्य तक पहुँचने के लिए कई चरण लेता है—सचमुच अपने कार्य पूरे कर सकता है या नहीं। ये LLM evals का विकास हैं, जो लक्ष्य को "एक आउटपुट" से बढ़ाकर "क्रियाओं का एक अनुक्रम" बना देते हैं। चूँकि एक agent योजना बनाता है, टूल्स कॉल करता है, और स्टेट अपडेट करता है, इसलिए केवल अंतिम आउटपुट पर्याप्त नहीं है; Google कहता है कि आपको agent की क्रियाओं के पीछे का "क्यों" समझना होगा और मूल्यांकन को final response तथा trajectory में बाँटता है। पाँच आयाम हैं: outcome (कार्य की सफलता, अंतिम स्टेट से आँकी गई—क्या DB में आरक्षण मौजूद है, न कि "मैंने बुक कर दिया" कथन), trajectory (उचित चरण, सही क्रम में सही टूल्स), टूल-उपयोग की शुद्धता (सही टूल और आर्गुमेंट, फ़ंक्शन नाम व प्रकार जाँचना), दक्षता (चरण, टोकन, लागत, latency—अक्सर observability संकेत जो मूल्यांकन में लाए जाते हैं), और अंतिम-प्रतिक्रिया की गुणवत्ता (LLM-as-judge या रूब्रिक से)। ग्रेडर हैं code (तेज़/सस्ता/पुनरुत्पाद्य पर भंगुर), LLM-as-judge (लचीला पर अनिर्धारणीय और कैलिब्रेशन चाहिए), और human (स्वर्ण-मानक पर महँगा—हो सके तो टालें)। Anthropic पथ नहीं, बल्कि परिणाम को ग्रेड करने की सलाह देता है: रटी-रटाई trajectory मैचिंग "बहुत कठोर और भंगुर" है क्योंकि agents वैध विकल्प खोज लेते हैं, जबकि Google और Microsoft विफलताओं के निदान के लिए trajectory-match मेट्रिक्स देते हैं। अनोखी मुश्किलें हैं अनिर्धारणीयता (pass^k), संयोजी त्रुटियाँ (p^t), reward hacking (DeepMind का रोबोट आर्म पकड़ का नाटक करते हुए), और पुराने या contaminated eval सेट। Anthropic के अनुसार व्यावहारिक रणनीति: 20-50 प्रोडक्शन विफलताओं को टेस्ट केस में बदलें, CI में स्वचालित ग्रेडिंग चलाएँ, capability और regression evals अलग करें, और इन्हें जल्दी लिखें। SWE-bench, tau-bench, WebArena, GAIA, OSWorld, और BFCL जैसे बेंचमार्क उपयोगी संदर्भ हैं (स्कोर वर्शन के साथ बदलते हैं, इसलिए उन्हें अंकित मूल्य पर न लें)। आधिकारिक जानकारी पर आधारित, अनिश्चितताओं को चिह्नित करते हुए।

2026/06/20

नवीनतम लेख

सभी देखें

Claude AI डेवलपमेंट और प्रोग्रामिंग शुरुआती गाइड

Agent Evals क्या हैं? परिणाम और Trajectory दोनों मापना

2026/06/20

Claude AI डेवलपमेंट और प्रोग्रामिंग शुरुआती गाइड

Claude Code hooks क्या हैं? shell कमांड डिटरमिनिस्टिक रूप से चलाएँ

Claude Code hooks यूज़र द्वारा परिभाषित shell कमांड हैं जो Claude Code के लाइफ़साइकल में निश्चित बिंदुओं पर अपने-आप चलते हैं, और "ऐसा हमेशा होना ही चाहिए" को LLM के फ़ैसले पर निर्भर हुए बिना सच और डिटरमिनिस्टिक बना देते हैं। क्लासिक इवेंट नौ हैं—SessionStart, UserPromptSubmit, PreToolUse, PostToolUse, Notification, Stop, SubagentStop, SessionEnd, PreCompact—जिनमें से PreToolUse और अन्य ब्लॉक कर सकते हैं (सुरक्षित फ़ाइलों में एडिट या ख़तरनाक कमांड रोककर)। आप इन्हें settings.json में "hooks" की के तहत इवेंट नाम -> matcher -> type + command के रूप में कॉन्फ़िगर करते हैं। I/O कॉन्ट्रैक्ट: एक hook stdin पर JSON प्राप्त करता है (session_id, tool_input आदि) और exit code 0 (सफलता) / 2 (ब्लॉक, stderr Claude को वापस) या स्ट्रक्चर्ड JSON (continue, decision:block, permissionDecision: deny/allow/ask) के ज़रिए लौटाता है। मुख्य सिद्धांत है "hooks पाबंदियाँ सख़्त कर सकते हैं पर ढीली नहीं" (deny हमेशा जीतता है, bypassPermissions के तहत भी ब्लॉक)। क्लासिक उपयोग-केस: एडिट के बाद ऑटो-फ़ॉर्मैट (PostToolUse + Edit|Write), अहम फ़ाइलों की सुरक्षा, ख़तरनाक कमांड रोकना, कॉन्टेक्स्ट फिर से इंजेक्ट करना (SessionStart), नोटिफ़िकेशन/ऑडिट लॉगिंग, और रुकने से पहले टेस्ट (Stop)। सुरक्षा पर, hooks आपके अधिकारों के साथ मनमाने shell कमांड चलाते हैं, इसलिए केवल भरोसेमंद ही कॉन्फ़िगर करें और इनपुट वैलिडेट/कोट करें; hook कॉन्फ़िग सेशन स्टार्टअप पर कैप्चर होता है (एक सुरक्षा फ़ीचर) इसलिए सेशन के बीच के बदलाव लागू नहीं होते। आधिकारिक दस्तावेज़ पर आधारित, नौ क्लासिक इवेंट और I/O कॉन्ट्रैक्ट पर केंद्रित।

2026/06/20

Claude AI डेवलपमेंट और प्रोग्रामिंग शुरुआती गाइड

Claude Code checkpointing और /rewind क्या हैं? बदलाव वापस लें

Checkpointing और /rewind एक सुरक्षा-जाल हैं: Claude Code आपके काम करते समय Claude के फ़ाइल एडिट्स को अपने-आप ट्रैक करता है, ताकि आप कुछ ही कीस्ट्रोक में "गड़बड़ होने से पहले" तक वापस लौट सकें। हर एडिट से पहले एक स्नैपशॉट लिया जाता है, आपका भेजा हर प्रॉम्प्ट एक रिस्टोर पॉइंट बन जाता है, और checkpoints सेशनों के पार बने रहते हैं। इसका इस्तेमाल करने के लिए, /rewind टाइप करें या इनपुट खाली होने पर Esc दो बार दबाकर मेन्यू खोलें, फिर एक बिंदु चुनें और कोड और बातचीत बहाल करें / बातचीत बहाल करें / कोड बहाल करें चुनें (ध्यान दें: अगर इनपुट में टेक्स्ट हो, तो Esc दो बार उसे साफ़ कर देता है)। सबसे ज़रूरी चेतावनी: केवल Claude के एडिट टूल्स (Write/Edit/NotebookEdit) द्वारा किए गए बदलाव बहाल होते हैं — bash कमांड (rm/mv/cp) के फ़ाइल बदलाव, सेशन के बाहर या अन्य सेशनों से किए गए बदलाव, डायरेक्टरी ऑपरेशन, रिमोट फ़ाइलें, और डेटाबेस स्थिति rewind से पूर्ववत नहीं होतीं। दस्तावेज़ इसे "checkpoints = लोकल undo, Git = स्थायी इतिहास" के रूप में रखता है, यह कहते हुए कि यह वर्ज़न कंट्रोल का पूरक है पर स्थान नहीं लेता, इसलिए माइलस्टोन पर Git में कमिट करना नियम है। /rewind tool-use कॉन्करेंसी और thinking blocks से जुड़े 400 एरर की भी रिकवरी है (प्रोडक्ट खुद इसे चलाने को कहता है), हालाँकि v2.1.156 से पुराने वर्ज़न इसे साफ़ न कर पाएँ इसलिए पहले claude update। यह इंटरैक्टिव CLI में डिफ़ॉल्ट रूप से चालू है, Agent SDK में opt-in, और सेशनों के साथ 30 दिन तक रखा जाता है (कॉन्फ़िगर करने योग्य)। आधिकारिक दस्तावेज़ के आधार पर, अनिश्चितताओं को चिह्नित करते हुए।

2026/06/20

Claude AI डेवलपमेंट और प्रोग्रामिंग शुरुआती गाइड

Claude Managed Agents क्या है? Anthropic का पूर्णतः managed cloud

Claude Managed Agents 8 अप्रैल 2026 को public beta के रूप में लॉन्च हुआ — बड़े पैमाने पर cloud-hosted agents बनाने और तैनात करने के लिए composable APIs का एक सूट। अपना खुद का agent loop, tool execution, और runtime बनाने के बजाय आपको एक पूरी तरह managed environment मिलता है जहाँ Claude सुरक्षित रूप से files पढ़ सकता है, commands चला सकता है, web ब्राउज़ कर सकता है, और code execute कर सकता है — prompt caching, context compaction, sandboxing, और state persistence अंतर्निहित के साथ। यह चार अवधारणाओं (Agent, Environment, Session, Events) के इर्द-गिर्द संगठित है, और Environment या तो Anthropic-managed cloud sandbox हो सकता है या self-hosted। self-hosted Agent SDK (जहाँ आप loop, tools, और infrastructure चलाते हैं) से अंतर है "आप चलाते हैं बनाम Anthropic चलाता है" — प्रतिस्पर्धी नहीं बल्कि इस बारे में एक चुनाव कि संचालन का कितना हिस्सा आप रखते हैं। एक विशिष्ट सुविधा है workspace-scoped स्थायी memory (एक memory store) जो sandbox में /mnt/memory पर mounted होती है, जिसे agent सामान्य file operations से पढ़ता-लिखता है और जो sessions के बीच बनी रहती है (अपरिवर्तनीय versions, 30-दिन रिटेंशन, प्रति memory 100 kB जैसी सीमाएँ)। Dreaming एक async job है जो मौजूदा memory और पिछले transcripts को पढ़कर एक पुनर्व्यवस्थित memory store तैयार करता है — डुप्लिकेट मर्ज करते हुए, पुराने मान अपडेट करते हुए, और नई अंतर्दृष्टियाँ सामने लाते हुए (एक research preview जिसके लिए access आवश्यक; कुछ इसे "scheduled" कहते हैं पर docs एक on-demand async job वर्णित करते हैं)। इसमें outcomes-आधारित ग्रेडिंग (एक अलग grader आपके rubric के विरुद्ध मूल्यांकन करता है; 10 अंक तक सुधार रिपोर्ट किया गया) और multi-agent orchestration भी है। मूल्य है tokens + $0.08 प्रति session-hour (मिलीसेकंड तक मापा गया, केवल चलने के दौरान; एक 1-घंटे के Opus 4.8 session के लिए लगभग $0.705)। सभी API accounts के लिए डिफ़ॉल्ट रूप से सक्षम, लेकिन stateful इसलिए ZDR या HIPAA BAA के लिए योग्य नहीं। आधिकारिक जानकारी के आधार पर, अनिश्चितताओं को चिह्नित करते हुए।

2026/06/20

Claude AI डेवलपमेंट और प्रोग्रामिंग शुरुआती गाइड

Claude Code plugin और marketplace क्या है — फीचर्स बंडल करें और साझा करें

एक Claude Code plugin आपके slash commands, subagents, MCP servers और hooks को एक ही directory में बंडल कर देता है जिसे आप version, साझा और पुनः इस्तेमाल कर सकते हैं, और इन्हें marketplaces के ज़रिए वितरित किया जाता है। यह लेख plugin की संरचना, /plugin से उपयोग, आधिकारिक व community marketplaces, खुद बनाना तथा वितरण scope और सुरक्षा को कवर करता है।

2026/06/20

Claude AI डेवलपमेंट और प्रोग्रामिंग शुरुआती गाइड

Claude Code में Subagents बनाम Agent Teams — अंतर और कब कौन-सा चुनें

Claude Code में काम बाँटने के दो तंत्र हैं: subagents और Agent Teams। Subagents अंतर्निहित हैं, एक केंद्रित कार्य सौंपकर सारांश लौटाते हैं (पदानुक्रमित, क्षणिक)। Agent Teams प्रयोगात्मक हैं और डिफ़ॉल्ट रूप से बंद हैं, जहाँ स्वतंत्र सत्र समकक्षों की तरह समन्वय करते हैं। यह लेख निर्णायक अंतर, कौन-सा चुनें और सावधानियाँ बताता है।

2026/06/20