"Prompt engineering ख़त्म हो चुकी है" — यह बात 2025 के आसपास घूमने लगी थी। उसकी जगह जो concept उभरा वह है "Harness Engineering." इसे Anthropic के researchers और Claude Code तथा Cursor जैसे agents बनाने वाले engineers ने गढ़ा, और यह तेज़ी से AI agent युग की केंद्रीय engineering disciplines में से एक बन गया।

यह लेख स्पष्ट करता है कि harness engineering असल में क्या है, यह prompt engineering से कैसे अलग है, एक harness बनाने वाले छह घटक कौन-कौन से हैं, एक व्यावहारिक डिज़ाइन चेकलिस्ट और आज के अग्रणी tools के ठोस उदाहरण — वह बुनियाद जो आपको चाहिए अगर आप AI agents को गंभीरता से इस्तेमाल या निर्माण करना चाहते हैं।

CONCEPT MAP

Harness = LLM को घेरने वाली 4 परतें

— घोड़े के harness की तरह, वह सरंजाम जो शक्तिशाली जानवर को आपके लक्ष्य की ओर मोड़ता है

1
CORE — LLM
reasoning engine स्वयं (Claude / GPT / Gemini)। Prompts इसके व्यवहार को दिशा देते हैं।
2
HARNESS LAYER
Tool definitions, context management, memory, agent loop। मूल डिज़ाइन जो तय करता है कि LLM असल में क्या करेगा।
3
SAFETY LAYER
Hooks, sandbox, permission limits, approval mode। बेलगाम व्यवहार और नुक़सान को भौतिक रूप से रोकता है।
4
UX LAYER
Markdown rendering, citations, streaming, दिखने वाला reasoning। ऐसे outputs जिन पर users भरोसा कर सकें और सत्यापित कर सकें।

एक ही LLM के साथ, अकेले harness design से quality और safety दोनों में बहुत बड़ा फ़र्क़ आ सकता है।
यही है "Harness Engineering" का मैदान — एक बिल्कुल नई design discipline।

1. Harness Engineering क्या है?

"Harness" मूल रूप से घोड़े पर लगने वाले साज़-सामान को कहा जाता है — वह सरंजाम जो जानवर की ताक़त को आपकी मनचाही दिशा में मोड़ता है। AI में यह शब्द ठीक उसी रूपक के तौर पर काम करता है: शक्तिशाली लेकिन बेक़ाबू LLM को उत्पादक काम पर लगाने वाला पूरा साज़-सामान

ठोस रूप से इसमें शामिल है:

  • Tools: file operations, web search, code execution — वे साधन जिनसे LLM कार्रवाई कर सकता है।
  • Context management: prompt में क्या जाएगा और क्या compress या discard होगा, इसकी रणनीति।
  • Memory systems: persistent knowledge और user preferences जो sessions के पार बनी रहती हैं।
  • Agent loop: perceive → reason → act → observe चक्र।
  • Guardrails: permissions, sandbox, Hooks, approval flows।
  • Output format: markdown, JSON, citations, streaming।

इन सबको एक साथ डिज़ाइन करना ही harness engineering कहलाता है। LLM को training देना या ख़ुद उसे सुधारना नहीं, बल्कि LLM के चारों ओर सब कुछ engineer करके वास्तविक दुनिया की उपयोगिता बढ़ाने का शिल्प। Claude Code, Cursor, Devin, Codex CLI — ये सभी मोटे तौर पर एक जैसे models पर चलते हैं, फिर भी इनका व्यवहार और प्रदर्शन तीखे ढंग से अलग होता है क्योंकि इनके harnesses में अंतर है

2. Harness Engineering बनाम Prompt Engineering

Prompt engineering ख़त्म नहीं हुई है — लेकिन इसका दायरा मूलतः अलग है।

आयामPrompt EngineeringHarness Engineering
लक्ष्यSingle-turn input textपूरा system (tools, memory, loop)
मुख्य कामPrompt की शब्दावली optimize करना, few-shot examples चुननाTool design, context strategy, loop design
DeliverableText templatesCode, configuration, system architecture
आवश्यक कौशलभाषा-संवेदनशीलता, LLM व्यवहार की समझसामान्य software engineering
प्रभाव क्षेत्रएक response की qualityलंबे tasks की completion rate, cost और safety
उदाहरण"Think step by step"एक calculator tool define करना और LLM को उसे call करने देना

अगर prompt engineering "LLM से क्या कहें" का शिल्प है, तो harness engineering "LLM को क्या दें और उसे कैसे चलाएँ" का शिल्प है। दोनों प्रतिस्पर्धी नहीं हैं — वे स्तरीय (layered) हैं। Prompt harness के भीतर का सिर्फ़ एक घटक है।

3. Harness के 6 घटक

1. Tool Use

दुनिया पर कार्रवाई करने का LLM का साधन: files पढ़ना और लिखना, code execute करना, web search करना, APIs call करना। Tool interface ग़लत हो — names, arguments, return values — तो LLM उसे ठीक से इस्तेमाल नहीं कर सकता। ठोस तौर पर:

  • Verb-आधारित, स्पष्ट names (जैसे read_file)।
  • आवश्यक बनाम वैकल्पिक arguments स्पष्ट हों, defaults के साथ।
  • विफलता पर structured error messages (model को बताएँ कि आगे क्या करना है)।
  • Side-effecting (विनाशकारी) operations पर स्पष्ट चेतावनियाँ।

2. Context Management

LLM का ध्यान सीमित है — आप जो दिखाते हैं वही तय करता है कि वह क्या कहेगा। ठोस तौर पर:

  • Relevance filtering: पूरी files नहीं, सिर्फ़ task से प्रासंगिक हिस्से लें।
  • Compaction: लंबी बातचीत को बनाए रखने के लिए summarize करें।
  • RAG integration: vector search के ज़रिए जो ज़रूरी है उसे लाएँ।
  • Caching: Anthropic के prompt cache जैसे tools से दोहराए गए system prompts पर cost घटाएँ।

संबंधित: RAG क्या है?

3. Memory System

Sessions के पार ज्ञान बनाए रखना। Claude Code की CLAUDE.md, Cursor की .cursor/rules, और Codex की AGENTS.md — ये सब project memory के उदाहरण हैं। इसके अलावा:

  • Short-term memory: हाल की बातचीत का इतिहास।
  • Long-term memory: user profile, पिछले निर्णय।
  • Factual knowledge: domain-विशिष्ट knowledge bases।

4. Agent Loop

वह केंद्रीय हिस्सा जो "AI agent" को असल में काम करवाता है। मूल रूप perceive → reason → act → observe चक्र है:

  1. User का लक्ष्य प्राप्त करना।
  2. वर्तमान स्थिति का विश्लेषण (ज़रूरत पड़े तो tools से जानकारी जुटाना)।
  3. अगली कार्रवाई की योजना।
  4. Tool के माध्यम से कार्रवाई।
  5. परिणाम observe करना; जाँचना कि लक्ष्य पूरा हुआ या नहीं।
  6. नहीं हुआ तो loop, हुआ तो terminate।

आपका agent कितना smart बनेगा, यह इस बात पर निर्भर है कि आप replanning, self-critique और subgoal decomposition को बेक़ायदा रूप से अंदर रखते हैं या नहीं।

5. Guardrails

बेलगाम व्यवहार रोकने वाले तंत्र। जैसा कि AI आपके .md rules क्यों नज़रअंदाज़ करता है में बताया गया है, environment के ज़रिए व्यवहार लागू करना गद्य में विनम्रता से कहने से कहीं ज़्यादा भरोसेमंद है:

  • Approval mode: ख़तरनाक operations के लिए मानवीय पुष्टि अनिवार्य (जैसे Claude Code का Plan mode)।
  • Sandbox: filesystem और network access को सीमित करें।
  • Hooks: tool calls से पहले और बाद में मनमाफ़िक जाँचें।
  • Rate limiting: कुछ ग़लत हो जाए तो नुक़सान न्यूनतम रखें।

6. Output UX

परिणाम ऐसे रूप में पेश करना जिसे user समझ और सत्यापित कर सके। Markdown rendering, source citations, syntax-highlighted code blocks, streaming output, दिखने वाला reasoning (thinking), structured output (JSON), इत्यादि। "सही उत्तर" तैयार करना ही काफ़ी नहीं है — उसे user के भरोसे और जाँच-योग्य रूप में पहुँचाना harness का काम है

4. Harness Engineering, और अभी क्यों?

Harness काम में बढ़ती दिलचस्पी की तीन वजहें हैं।

1. कच्ची LLM क्षमता की छत दिखने लगी है। GPT-5-class models, Claude Opus 4.7, और Gemini 3.1 Pro बाज़ार में हैं, और benchmark में बढ़त धीमी होने लगी है। एक ही model के लिए वास्तविक दुनिया का प्रदर्शन harness के अनुसार 2x या उससे अधिक झूल सकता है, यानी हम उस युग में आ चुके हैं जहाँ model बदलने से ज़्यादा फ़ायदा harness बदलने से होता है

2. ऐसी समस्याएँ जमा हो रही हैं जिन्हें अकेले prompts हल नहीं कर सकते। "बहुत सारे tools हैं, model ग़लत चुन लेता है।" "Context इतना भरा है कि ज़रूरी संकेत दब जाता है।" "लंबे tasks में agent बीच में ही धागा खो देता है।" ये एक turn में चालाक शब्दों से ठीक होने वाली समस्याएँ नहीं हैं — ये design की समस्याएँ हैं।

3. Production AI agents की रुकावट harness पर शिफ़्ट हो चुकी है। 2024 LLMs को smarter बनाने की दौड़ थी। 2025 से 2026 harnesses को smarter बनाने की दौड़ है। हर बड़ा product — Anthropic का Claude Code, OpenAI का Codex, Cursor, Devin — harness engineering पर ही प्रतिस्पर्धा कर रहा है।

5. व्यावहारिक Harness डिज़ाइन चेकलिस्ट

अच्छे Harness के 7 Checkpoints

1. TOOL DESIGN
Tool names के लिए verbs, स्पष्ट arguments
Errors structured messages के रूप में लौटें जो "अगला यह करो" बताएँ।
2. CONTEXT
सिर्फ़ प्रासंगिक हिस्सा, dynamically inject करें
Prompt cache + RAG: पढ़ने भर इतना, घुटने तक नहीं।
3. MEMORY
Persistent memory के लिए एक स्रोत-of-truth
CLAUDE.md / AGENTS.md छोटी रखें, विवरण SPEC.md में डालें।
4. LOOP
Termination conditions स्पष्ट रखें
हमेशा max iterations, max tokens और timeout निर्धारित करें।
5. SAFETY
विनाशकारी ops के लिए पूर्व-स्वीकृति
Hooks स्वतः ब्लॉक करें; sandbox blast radius सीमित करे।
6. OBSERVABILITY
हर tool call को log करें
Traceability ताकि बाद में पुनर्निर्माण किया जा सके कि क्या हुआ।
7. COST
Token economics को ध्यान में रखकर डिज़ाइन
Caching, batch APIs, sub-agents — सभी मासिक लागत क़ाबू में रखते हैं।

6. प्रमुख Harnesses की तुलना

प्रमुख AI Agent Harnesses की Design प्रवृत्तियाँ

Claude Code
Anthropic
शक्तियाँ
समृद्ध Hooks / sub-agents / Plan mode / slash commands।
Memory
CLAUDE.md user और project दोनों स्तर पर।
सही जगह
जटिल coding, लंबे tasks
Cursor
Anysphere
शक्तियाँ
IDE integration, @-mention के ज़रिए context selection।
Memory
.cursor/rules/*.mdc glob patterns से लागू।
सही जगह
Interactive code edits, तत्काल feedback
Codex CLI
OpenAI
शक्तियाँ
Toggle-योग्य approval mode, सख़्त sandbox।
Memory
AGENTS.md (GPT-5-class models लंबी files सहन करते हैं)।
सही जगह
CLI workflows, code-pipeline integration
Devin
Cognition
शक्तियाँ
पूर्ण-स्वायत्त agent, browser, IDE और shell integration के साथ।
Memory
Proprietary persistent memory और एक Knowledge feature।
सही जगह
"सौंप दो" जैसे tasks, end-to-end डिलीवरी

इन सभी harnesses के नीचे लगभग एक जैसे LLMs (Claude / GPT / Gemini) चलते हैं, फिर भी इनकी शक्तियाँ harness design दर्शन के अंतर के कारण तीखे ढंग से अलग होती हैं। "कौन-सा LLM?" से ज़्यादा "कौन-सा harness?" मायने रखता है — यही agent युग का असली मैदान है।

7. Anti-Patterns

1. बहुत ज़्यादा tools जोड़ना

लगभग 20 tools पार करते ही LLM की ग़लत tool चुनने की संभावना तेज़ी से बढ़ जाती है। सिर्फ़ ज़रूरी tools रखने पर निर्ममता से क़ायम रहें, और मिलते-जुलते को merge करें

2. context में सब कुछ भरना

"सुरक्षा के लिए सब कुछ दिखा दो" उल्टा असर करता है। Relevance filter से गुज़ारें और सिर्फ़ ज़रूरी ही शामिल करें। Context महत्वपूर्ण संकेत को सामने लाने का साधन है — स्टोरेज ख़ज़ाना नहीं।

3. सुरक्षा सिर्फ़ prompts से लागू करना

"कृपया ख़तरनाक operations न करें" परिस्थिति के अनुसार देर-सवेर नज़रअंदाज़ हो जाता है। सही जवाब है इसे environment स्तर पर भौतिक रूप से असंभव बनाना — sandbox, Hooks, permission limits।

सारांश

Harness engineering LLM के "बाहर" वाली परत को डिज़ाइन करने का शिल्प है। Prompt engineering harness के भीतर का सिर्फ़ एक घटक है। छह तत्वों — tool definition, context management, memory, loop, guardrails, output UX — को सोच-समझकर बरतने से एक ही underlying LLM से वास्तविक दुनिया का प्रदर्शन रूपांतरित किया जा सकता है।

2026 के अनुसार, production AI agents का मुख्य मैदान स्पष्ट रूप से harness पर शिफ़्ट हो गया है। "Smart prompts" लिखना नहीं, बल्कि "smart harnesses" बनाना — यही अगली पीढ़ी के engineers का अंतर तय करेगा।

FAQ

Q1. तो अब prompt engineering की ज़रूरत नहीं?

ग़लत। यह अब भी ज़रूरी है — harness के भीतर एक घटक के रूप में। Tool descriptions, system prompts, error messages — ये सब prompt design की सतहें हैं। पुराना तरीक़ा है यह सोच कि "मैं इसे बेहतर prompt से ठीक कर लूँगा"।

Q2. Harness engineering सीखने का पहला क़दम क्या है?

Claude Code या Cursor लें और सिर्फ़ इस्तेमाल मत करें — config tweak करके इसका व्यवहार बदलें। CLAUDE.md / .cursor/rules लिखें। Hooks आज़माएँ। एक slash command बनाएँ। यही harness क्या होता है — का प्रत्यक्ष अनुभव है।

Q3. क्या harnesses LangChain जैसे frameworks के समान हैं?

क़रीब, लेकिन एक नहीं। Framework एक implementation toolkit है; harness एक design discipline और मानसिकता है। LangChain, LlamaIndex, Claude Agent SDK इत्यादि harnesses बनाने के औज़ार हैं।

Q4. ख़ुद का harness बनाएँ या मौजूदा का इस्तेमाल करें?

अधिकांश मामलों में, एक मौजूदा harness (Claude Code, Cursor, इत्यादि) और customization काफ़ी है। शून्य से बनाना सिर्फ़ enterprise आवश्यकताओं, niche domains या अति cost optimization के लिए ही समझदारी है।

Q5. क्या "Harness Engineer" वास्तविक job title बनेगा?

संकेत पहले से हैं। Anthropic, OpenAI, Cursor और अन्य agent-निर्माण कंपनियाँ "Agent Engineer," "Tool Designer," और "Context Engineer" जैसी roles के लिए hiring शुरू कर चुकी हैं। 2027 या 2028 तक यह अपनी एक अलग job category के रूप में स्थापित हो जाएगी।