विषय-सूची
"Prompt engineering ख़त्म हो चुकी है" — यह बात 2025 के आसपास घूमने लगी थी। उसकी जगह जो concept उभरा वह है "Harness Engineering." इसे Anthropic के researchers और Claude Code तथा Cursor जैसे agents बनाने वाले engineers ने गढ़ा, और यह तेज़ी से AI agent युग की केंद्रीय engineering disciplines में से एक बन गया।
यह लेख स्पष्ट करता है कि harness engineering असल में क्या है, यह prompt engineering से कैसे अलग है, एक harness बनाने वाले छह घटक कौन-कौन से हैं, एक व्यावहारिक डिज़ाइन चेकलिस्ट और आज के अग्रणी tools के ठोस उदाहरण — वह बुनियाद जो आपको चाहिए अगर आप AI agents को गंभीरता से इस्तेमाल या निर्माण करना चाहते हैं।
Harness = LLM को घेरने वाली 4 परतें
— घोड़े के harness की तरह, वह सरंजाम जो शक्तिशाली जानवर को आपके लक्ष्य की ओर मोड़ता है
एक ही LLM के साथ, अकेले harness design से quality और safety दोनों में बहुत बड़ा फ़र्क़ आ सकता है।
यही है "Harness Engineering" का मैदान — एक बिल्कुल नई design discipline।
1. Harness Engineering क्या है?
"Harness" मूल रूप से घोड़े पर लगने वाले साज़-सामान को कहा जाता है — वह सरंजाम जो जानवर की ताक़त को आपकी मनचाही दिशा में मोड़ता है। AI में यह शब्द ठीक उसी रूपक के तौर पर काम करता है: शक्तिशाली लेकिन बेक़ाबू LLM को उत्पादक काम पर लगाने वाला पूरा साज़-सामान।
ठोस रूप से इसमें शामिल है:
- Tools: file operations, web search, code execution — वे साधन जिनसे LLM कार्रवाई कर सकता है।
- Context management: prompt में क्या जाएगा और क्या compress या discard होगा, इसकी रणनीति।
- Memory systems: persistent knowledge और user preferences जो sessions के पार बनी रहती हैं।
- Agent loop: perceive → reason → act → observe चक्र।
- Guardrails: permissions, sandbox, Hooks, approval flows।
- Output format: markdown, JSON, citations, streaming।
इन सबको एक साथ डिज़ाइन करना ही harness engineering कहलाता है। LLM को training देना या ख़ुद उसे सुधारना नहीं, बल्कि LLM के चारों ओर सब कुछ engineer करके वास्तविक दुनिया की उपयोगिता बढ़ाने का शिल्प। Claude Code, Cursor, Devin, Codex CLI — ये सभी मोटे तौर पर एक जैसे models पर चलते हैं, फिर भी इनका व्यवहार और प्रदर्शन तीखे ढंग से अलग होता है क्योंकि इनके harnesses में अंतर है।
2. Harness Engineering बनाम Prompt Engineering
Prompt engineering ख़त्म नहीं हुई है — लेकिन इसका दायरा मूलतः अलग है।
| आयाम | Prompt Engineering | Harness Engineering |
|---|---|---|
| लक्ष्य | Single-turn input text | पूरा system (tools, memory, loop) |
| मुख्य काम | Prompt की शब्दावली optimize करना, few-shot examples चुनना | Tool design, context strategy, loop design |
| Deliverable | Text templates | Code, configuration, system architecture |
| आवश्यक कौशल | भाषा-संवेदनशीलता, LLM व्यवहार की समझ | सामान्य software engineering |
| प्रभाव क्षेत्र | एक response की quality | लंबे tasks की completion rate, cost और safety |
| उदाहरण | "Think step by step" | एक calculator tool define करना और LLM को उसे call करने देना |
अगर prompt engineering "LLM से क्या कहें" का शिल्प है, तो harness engineering "LLM को क्या दें और उसे कैसे चलाएँ" का शिल्प है। दोनों प्रतिस्पर्धी नहीं हैं — वे स्तरीय (layered) हैं। Prompt harness के भीतर का सिर्फ़ एक घटक है।
3. Harness के 6 घटक
1. Tool Use
दुनिया पर कार्रवाई करने का LLM का साधन: files पढ़ना और लिखना, code execute करना, web search करना, APIs call करना। Tool interface ग़लत हो — names, arguments, return values — तो LLM उसे ठीक से इस्तेमाल नहीं कर सकता। ठोस तौर पर:
- Verb-आधारित, स्पष्ट names (जैसे
read_file)। - आवश्यक बनाम वैकल्पिक arguments स्पष्ट हों, defaults के साथ।
- विफलता पर structured error messages (model को बताएँ कि आगे क्या करना है)।
- Side-effecting (विनाशकारी) operations पर स्पष्ट चेतावनियाँ।
2. Context Management
LLM का ध्यान सीमित है — आप जो दिखाते हैं वही तय करता है कि वह क्या कहेगा। ठोस तौर पर:
- Relevance filtering: पूरी files नहीं, सिर्फ़ task से प्रासंगिक हिस्से लें।
- Compaction: लंबी बातचीत को बनाए रखने के लिए summarize करें।
- RAG integration: vector search के ज़रिए जो ज़रूरी है उसे लाएँ।
- Caching: Anthropic के prompt cache जैसे tools से दोहराए गए system prompts पर cost घटाएँ।
संबंधित: RAG क्या है?
3. Memory System
Sessions के पार ज्ञान बनाए रखना। Claude Code की CLAUDE.md, Cursor की .cursor/rules, और Codex की AGENTS.md — ये सब project memory के उदाहरण हैं। इसके अलावा:
- Short-term memory: हाल की बातचीत का इतिहास।
- Long-term memory: user profile, पिछले निर्णय।
- Factual knowledge: domain-विशिष्ट knowledge bases।
4. Agent Loop
वह केंद्रीय हिस्सा जो "AI agent" को असल में काम करवाता है। मूल रूप perceive → reason → act → observe चक्र है:
- User का लक्ष्य प्राप्त करना।
- वर्तमान स्थिति का विश्लेषण (ज़रूरत पड़े तो tools से जानकारी जुटाना)।
- अगली कार्रवाई की योजना।
- Tool के माध्यम से कार्रवाई।
- परिणाम observe करना; जाँचना कि लक्ष्य पूरा हुआ या नहीं।
- नहीं हुआ तो loop, हुआ तो terminate।
आपका agent कितना smart बनेगा, यह इस बात पर निर्भर है कि आप replanning, self-critique और subgoal decomposition को बेक़ायदा रूप से अंदर रखते हैं या नहीं।
5. Guardrails
बेलगाम व्यवहार रोकने वाले तंत्र। जैसा कि AI आपके .md rules क्यों नज़रअंदाज़ करता है में बताया गया है, environment के ज़रिए व्यवहार लागू करना गद्य में विनम्रता से कहने से कहीं ज़्यादा भरोसेमंद है:
- Approval mode: ख़तरनाक operations के लिए मानवीय पुष्टि अनिवार्य (जैसे Claude Code का Plan mode)।
- Sandbox: filesystem और network access को सीमित करें।
- Hooks: tool calls से पहले और बाद में मनमाफ़िक जाँचें।
- Rate limiting: कुछ ग़लत हो जाए तो नुक़सान न्यूनतम रखें।
6. Output UX
परिणाम ऐसे रूप में पेश करना जिसे user समझ और सत्यापित कर सके। Markdown rendering, source citations, syntax-highlighted code blocks, streaming output, दिखने वाला reasoning (thinking), structured output (JSON), इत्यादि। "सही उत्तर" तैयार करना ही काफ़ी नहीं है — उसे user के भरोसे और जाँच-योग्य रूप में पहुँचाना harness का काम है।
4. Harness Engineering, और अभी क्यों?
Harness काम में बढ़ती दिलचस्पी की तीन वजहें हैं।
1. कच्ची LLM क्षमता की छत दिखने लगी है। GPT-5-class models, Claude Opus 4.7, और Gemini 3.1 Pro बाज़ार में हैं, और benchmark में बढ़त धीमी होने लगी है। एक ही model के लिए वास्तविक दुनिया का प्रदर्शन harness के अनुसार 2x या उससे अधिक झूल सकता है, यानी हम उस युग में आ चुके हैं जहाँ model बदलने से ज़्यादा फ़ायदा harness बदलने से होता है।
2. ऐसी समस्याएँ जमा हो रही हैं जिन्हें अकेले prompts हल नहीं कर सकते। "बहुत सारे tools हैं, model ग़लत चुन लेता है।" "Context इतना भरा है कि ज़रूरी संकेत दब जाता है।" "लंबे tasks में agent बीच में ही धागा खो देता है।" ये एक turn में चालाक शब्दों से ठीक होने वाली समस्याएँ नहीं हैं — ये design की समस्याएँ हैं।
3. Production AI agents की रुकावट harness पर शिफ़्ट हो चुकी है। 2024 LLMs को smarter बनाने की दौड़ थी। 2025 से 2026 harnesses को smarter बनाने की दौड़ है। हर बड़ा product — Anthropic का Claude Code, OpenAI का Codex, Cursor, Devin — harness engineering पर ही प्रतिस्पर्धा कर रहा है।
5. व्यावहारिक Harness डिज़ाइन चेकलिस्ट
अच्छे Harness के 7 Checkpoints
6. प्रमुख Harnesses की तुलना
प्रमुख AI Agent Harnesses की Design प्रवृत्तियाँ
इन सभी harnesses के नीचे लगभग एक जैसे LLMs (Claude / GPT / Gemini) चलते हैं, फिर भी इनकी शक्तियाँ harness design दर्शन के अंतर के कारण तीखे ढंग से अलग होती हैं। "कौन-सा LLM?" से ज़्यादा "कौन-सा harness?" मायने रखता है — यही agent युग का असली मैदान है।
7. Anti-Patterns
1. बहुत ज़्यादा tools जोड़ना
लगभग 20 tools पार करते ही LLM की ग़लत tool चुनने की संभावना तेज़ी से बढ़ जाती है। सिर्फ़ ज़रूरी tools रखने पर निर्ममता से क़ायम रहें, और मिलते-जुलते को merge करें।
2. context में सब कुछ भरना
"सुरक्षा के लिए सब कुछ दिखा दो" उल्टा असर करता है। Relevance filter से गुज़ारें और सिर्फ़ ज़रूरी ही शामिल करें। Context महत्वपूर्ण संकेत को सामने लाने का साधन है — स्टोरेज ख़ज़ाना नहीं।
3. सुरक्षा सिर्फ़ prompts से लागू करना
"कृपया ख़तरनाक operations न करें" परिस्थिति के अनुसार देर-सवेर नज़रअंदाज़ हो जाता है। सही जवाब है इसे environment स्तर पर भौतिक रूप से असंभव बनाना — sandbox, Hooks, permission limits।
सारांश
Harness engineering LLM के "बाहर" वाली परत को डिज़ाइन करने का शिल्प है। Prompt engineering harness के भीतर का सिर्फ़ एक घटक है। छह तत्वों — tool definition, context management, memory, loop, guardrails, output UX — को सोच-समझकर बरतने से एक ही underlying LLM से वास्तविक दुनिया का प्रदर्शन रूपांतरित किया जा सकता है।
2026 के अनुसार, production AI agents का मुख्य मैदान स्पष्ट रूप से harness पर शिफ़्ट हो गया है। "Smart prompts" लिखना नहीं, बल्कि "smart harnesses" बनाना — यही अगली पीढ़ी के engineers का अंतर तय करेगा।
FAQ
Q1. तो अब prompt engineering की ज़रूरत नहीं?
ग़लत। यह अब भी ज़रूरी है — harness के भीतर एक घटक के रूप में। Tool descriptions, system prompts, error messages — ये सब prompt design की सतहें हैं। पुराना तरीक़ा है यह सोच कि "मैं इसे बेहतर prompt से ठीक कर लूँगा"।
Q2. Harness engineering सीखने का पहला क़दम क्या है?
Claude Code या Cursor लें और सिर्फ़ इस्तेमाल मत करें — config tweak करके इसका व्यवहार बदलें। CLAUDE.md / .cursor/rules लिखें। Hooks आज़माएँ। एक slash command बनाएँ। यही harness क्या होता है — का प्रत्यक्ष अनुभव है।
Q3. क्या harnesses LangChain जैसे frameworks के समान हैं?
क़रीब, लेकिन एक नहीं। Framework एक implementation toolkit है; harness एक design discipline और मानसिकता है। LangChain, LlamaIndex, Claude Agent SDK इत्यादि harnesses बनाने के औज़ार हैं।
Q4. ख़ुद का harness बनाएँ या मौजूदा का इस्तेमाल करें?
अधिकांश मामलों में, एक मौजूदा harness (Claude Code, Cursor, इत्यादि) और customization काफ़ी है। शून्य से बनाना सिर्फ़ enterprise आवश्यकताओं, niche domains या अति cost optimization के लिए ही समझदारी है।
Q5. क्या "Harness Engineer" वास्तविक job title बनेगा?
संकेत पहले से हैं। Anthropic, OpenAI, Cursor और अन्य agent-निर्माण कंपनियाँ "Agent Engineer," "Tool Designer," और "Context Engineer" जैसी roles के लिए hiring शुरू कर चुकी हैं। 2027 या 2028 तक यह अपनी एक अलग job category के रूप में स्थापित हो जाएगी।