जब आप local LLM से शुरुआत करना चाहते हैं, तो पहली चिंता आमतौर पर यही होती है: "क्या यह मेरे PC पर चलेगा भी?" छोटा जवाब: ज़रूरी स्पेक का 90% सिर्फ़ VRAM (आपके GPU की मेमोरी) पर निर्भर करता है। इसे ठीक से समझ लें, और आप तुरंत बता सकते हैं कि क्या चलेगा और क्या नहीं।

यह लेख मॉडल आकार के अनुसार एक त्वरित VRAM तालिका, एक आसान फ़ॉर्मूला, कॉन्टेक्स्ट लंबाई के साथ बढ़ने वाला मेमोरी का जाल, हर GPU/Mac पर वास्तविक गति, और अंत में बजट के अनुसार सुझाए गए बिल्ड प्रस्तुत करता है। तकनीकी शब्दजाल को न्यूनतम रखा गया है ताकि एक शुरुआती भी समझ सके कि "मुझे कौन-सा खरीदना चाहिए।"

LOCAL LLM · HARDWARE

लगभग सब कुछ VRAM पर निर्भर है

— बात इस पर आती है कि मॉडल मेमोरी में समाता है या नहीं

ENTRY

VRAM 8–12 GB

7B–14B श्रेणी। रोज़मर्रा की चैट, सारांश, हल्का कोड। सबसे आसान शुरुआती बिंदु।

STANDARD

VRAM 24 GB

32B श्रेणी तक। गुणवत्ता और गति का बेहतरीन संतुलन वाली व्यावहारिक सीमा।

SERIOUS

40–64 GB+

70B श्रेणी। मध्यम-स्तरीय क्लाउड के करीब पहुँचती गुणवत्ता। लागत भी बढ़ती है।

1. निष्कर्ष: लगभग सब कुछ VRAM पर निर्भर है

PC खरीदते समय कई पुर्ज़े शामिल होते हैं—CPU, GPU, मेमोरी—लेकिन local LLM के लिए सबसे महत्वपूर्ण चीज़ VRAM (वीडियो मेमोरी, यानी GPU पर मौजूद मेमोरी) है। कारण सरल है: अगर पूरा मॉडल VRAM में समा जाता है तो यह तेज़ और सहज चलता है; अगर नहीं, तो यह बेहद धीमा हो जाता है या बिल्कुल नहीं चलेगा

💡 संक्षेप में: local LLM के लिए स्पेक चुनना इसी क्रम में होता है: "जिस मॉडल को आप चलाना चाहते हैं उसका आकार" → "उसके लिए ज़रूरी VRAM" → "उसे पूरा करने वाला GPU/Mac।" CPU और RAM की क्षमता गौण हैं।

Apple के M-सीरीज़ चिप्स (Mac) एक विशेष मामला हैं: "यूनिफाइड मेमोरी" की बदौलत इंस्टॉल की गई RAM को सीधे VRAM के रूप में इस्तेमाल किया जा सकता है। इसलिए ज़्यादा मेमोरी वाला Mac बिना समर्पित GPU के भी बड़े मॉडल चला सकता है—इस पर बाद में और बात करेंगे।

2. पहले क्वांटाइज़ेशन समझें—यह सब कुछ बदल देता है

ज़रूरी VRAM की बात करने से पहले, क्वांटाइज़ेशन से बचा नहीं जा सकता। यह एक ऐसी तकनीक है जो मॉडल को संपीड़ित करके हल्का बना देती है, और आप कितना संपीड़ित करते हैं इससे मेमोरी की ज़रूरत कई गुना बदल जाती है।

FP16 (बिना संपीड़न)

प्रति पैरामीटर ~2 बाइट। शीर्ष गुणवत्ता, पर सबसे ज़्यादा मेमोरी खाती है। व्यक्तिगत उपयोगकर्ता इसे शायद ही इस्तेमाल करते हैं।

Q8 (8-bit)

प्रति पैरामीटर ~1 बाइट। FP16 का लगभग आधा। गुणवत्ता में बहुत कम कमी—"गुणवत्ता की ओर झुका" विकल्प।

Q4 (4-bit)

प्रति पैरामीटर ~0.5–0.7 बाइट। FP16 का लगभग 1/4। गुणवत्ता और हल्केपन का बेहतरीन संतुलन—व्यक्तिगत उपयोग के लिए पसंदीदा

🔑 मोटा-मोटी फ़ॉर्मूला: ज़रूरी VRAM ≈ पैरामीटर की संख्या (B) × प्रति पैरामीटर बाइट। उदाहरण: एक 7B मॉडल को Q4 पर चलाने के लिए, 7 × ~0.6 ≈ ~4–5 GB। सुरक्षित रहने के लिए KV cache (कॉन्टेक्स्ट, अगले भाग में) के लिए +10–20% जोड़ें।

3. मॉडल आकार के अनुसार ज़रूरी VRAM (त्वरित तालिका)

सबसे व्यावहारिक Q4 क्वांटाइज़ेशन मानते हुए, यहाँ आकार के अनुसार मोटे VRAM लक्ष्य दिए गए हैं (कॉन्टेक्स्ट के लिए गुंजाइश सहित)। इसकी तुलना "अपने GPU के VRAM" से करें और आप तुरंत अपनी ऊपरी सीमा देख लेंगे।

7B–8B श्रेणी

VRAM ~6–8 GB

शुरुआत के लिए आदर्श। चैट, सारांश, अनुवाद, हल्का कोड। कई लैपटॉप पर संभव।

13B–14B श्रेणी

VRAM ~8–12 GB

थोड़े बेहतर जवाब। RTX 3060 (12 GB) जैसे मध्य-श्रेणी GPU के लिए "स्वीट स्पॉट"।

32B श्रेणी

VRAM ~20–24 GB

व्यावहारिक ऊपरी सीमा। RTX 4090 (24 GB) के लिए क्लासिक सिंगल-कार्ड लक्ष्य।

70B श्रेणी

VRAM ~40–48 GB+

गंभीर टियर। ज़्यादा मेमोरी वाला Mac या कई GPU व्यावहारिक हैं।

और ऊपर 100B+ (बहुत बड़े मॉडल) तक जाने के लिए 128 GB या उससे ज़्यादा चाहिए—यह व्यक्तिगत दायरे से परे है। इसके विपरीत, एक छोटा 1–3B मॉडल लगभग 4 GB में चलता है, इसलिए एक मामूली PC भी शुरुआत कर सकता है।

4. कॉन्टेक्स्ट लंबाई / KV cache का जाल

आसानी से नज़रअंदाज़ हो जाता है: कॉन्टेक्स्ट लंबाई के साथ मेमोरी बढ़ती है। एक LLM बातचीत और इनपुट के इतिहास को VRAM में KV cache के रूप में रखता है। आप जितना लंबा टेक्स्ट संभालते हैं, मॉडल के अलावा उतनी ही ज़्यादा मेमोरी इस्तेमाल होती है

4k

एक 7B पर ~+0.3 GB। छोटे सवालों के लिए नगण्य।

32k

एक 7B पर ~+2.5 GB। लंबे सारांश और चैट के लिए मायने रखने लगता है।

128k

एक 7B पर ~+10 GB। मॉडल से भी ज़्यादा हो सकता है। सावधानी का क्षेत्र।

📌 व्यावहारिक सुझाव: "यह VRAM की सीमा पर ठीक चला, फिर जब मैंने एक लंबा दस्तावेज़ डाला तो क्रैश हो गया"—इसका यही कारण है। जिस कॉन्टेक्स्ट लंबाई का आप वास्तव में उपयोग करते हैं, उस पर अपनी ज़रूरत का अनुमान लगाएँ। अगर आप लंबे दस्तावेज़ नहीं संभालते, तो बस छोटी कॉन्टेक्स्ट लंबाई सेट करने से मेमोरी खाली हो जाती है।

5. व्यवहार में GPU और Mac (गति गाइड)

एक ही मॉडल के लिए भी, हार्डवेयर गति (प्रति सेकंड उत्पन्न टोकन = tok/s) को बहुत बदल देता है। यहाँ मुख्य विकल्प मोटे अंदाज़े के साथ दिए गए हैं (संख्याएँ ऐसे संकेत हैं जो सेटअप और मॉडल के अनुसार बदलते हैं)।

RTX 3060 (12 GB)

सेकंड-हैंड आसानी से मिल जाता है—शुरुआत का क्लासिक। 7B–14B आराम से चलते हैं। अगर लागत प्राथमिकता है, तो यहीं से शुरू करें।

RTX 4090 (24 GB)

एक ही कार्ड पर 32B श्रेणी तक। एक 7B 100 tok/s से ज़्यादा कर सकता है। व्यक्तिगत हाई-एंड के लिए पसंदीदा। 70B के लिए हिस्से को CPU पर ऑफ़लोड करना पड़ता है और यह बहुत धीमा हो जाता है।

RTX 5090 (32 GB)

ज़्यादा VRAM से आप एक ही कार्ड पर 32B को Q8 पर, या 70B को आक्रामक क्वांटाइज़ेशन पर चला सकते हैं। गति भी शीर्ष श्रेणी की है।

Apple Mac (M4/M5 Max)

64 GB यूनिफाइड मेमोरी के साथ, 70B श्रेणी भी संभव है (गति मामूली—70B पर लगभग 20–30 tok/s)। शांत और बिजली-कुशल।

केवल CPU (कोई GPU नहीं)

छोटे मॉडल चलते तो हैं, पर धीमे। "बस आज़माने" के लिए ठीक है। रोज़ के उपयोग के लिए असल में GPU/Mac चाहिए।

6. VRAM के अलावा आपको क्या चाहिए

VRAM मुख्य भूमिका में है, पर सहायक भूमिका भी मायने रखती है। कम से कम तीन चीज़ें संभालें।

🧠

सिस्टम RAM

जो VRAM में नहीं समाता उसका सहारा। 16 GB या ज़्यादा, आदर्श रूप से 32 GB। Mac पर, यूनिफाइड मेमोरी सीधे गिनी जाती है।

💾

स्टोरेज (SSD)

एक मॉडल कई से लेकर दर्जनों GB का होता है। अगर आप कई आज़माएँगे, तो भरपूर खाली SSD जगह रखें। NVMe की सिफ़ारिश है।

बिजली और कूलिंग

हाई-एंड GPU बहुत बिजली खींचते हैं और गर्म चलते हैं। पावर सप्लाई और कूलिंग में गुंजाइश छोड़ें।

7. बजट के अनुसार सुझाए गए बिल्ड (3 टियर)

"तो आख़िर मुझे वास्तव में क्या खरीदना चाहिए?" का जवाब देने वाले तीन पैटर्न। उपयोग और बजट के अनुसार चुनें।

ENTRY

बस आज़माना: VRAM 8–12 GB

RTX 3060 (12 GB) श्रेणी का कार्ड, या 16–24 GB यूनिफाइड मेमोरी वाला Mac। 7B–14B श्रेणी चलती है, रोज़मर्रा के उपयोग के लिए पर्याप्त। सेकंड-हैंड GPU शुरू करने का सबसे सस्ता तरीका है।

STD

गंभीरता से उपयोग: VRAM 24 GB

RTX 4090 (24 GB), या 32–48 GB यूनिफाइड मेमोरी वाला Mac। 32B श्रेणी आराम से, गुणवत्ता और गति का सबसे अच्छा संतुलन। "बिल्कुल सही" विकल्प।

PRO

सबसे बड़े के लिए: 40–64 GB+

एक RTX 5090 या कई GPU, या 64 GB+ यूनिफाइड मेमोरी वाला हाई-एंड Mac। 70B श्रेणी मध्यम-स्तरीय क्लाउड के करीब पहुँचती है। लागत और बिजली खपत के लिए तैयार रहें।

8. कैसे पता करें कि आप कौन-सा मॉडल चला सकते हैं

कौन-सा मॉडल चुनें, तय नहीं? देखें सबसे अच्छे लोकल LLM मॉडल की तुलना — उपयोग, साइज़ और मूल देश के अनुसार चुनाव।

खरीदने या डाउनलोड करने से पहले तीन चरणों में जाँच करें, और आप ग़लती नहीं करेंगे।

  1. अपना VRAM जाँचें (या अपने Mac की यूनिफाइड मेमोरी)। यही आपकी अधिकतम सीमा है।
  2. मॉडल आकार (B) × ~0.6 (Q4) से मोटी ज़रूरत का अनुमान लगाएँ। कॉन्टेक्स्ट के लिए +10–20% जोड़ें।
  3. पुष्टि करें कि कुल आपके VRAM के भीतर समाता है। अगर नहीं, तो "एक आकार छोटा" या "मज़बूत क्वांटाइज़ेशन (Q4 → और भी कम-बिट)" चुनें।

💡 उलझन हो तो छोटे से शुरू करें: Ollama या LM Studio के साथ, आप बस एक मॉडल चुनते हैं और डाउनलोड करते हैं। पहले एक 7B श्रेणी आज़माएँ, और अगर कमी महसूस हो तो ऊपर बढ़ें—यह क्रम सुरक्षित और भरोसेमंद है।

सारांश

local LLM के लिए ज़रूरी स्पेक तीन बिंदुओं में समा जाता है।

  • VRAM मुख्य भूमिका में है: मॉडल मेमोरी में समाता है या नहीं—यही सब कुछ है। Mac यूनिफाइड मेमोरी के ज़रिए बड़ी मेमोरी का लक्ष्य रख सकता है।
  • क्वांटाइज़ेशन और कॉन्टेक्स्ट संख्या को बदलते हैं: Q4 पर, "आकार (B) × ~0.6" प्लस कॉन्टेक्स्ट (+10–20%) गाइड है। 7B ≈ 6–8 GB, 32B ≈ 24 GB, 70B ≈ 40 GB+।
  • बजट के अनुसार तीन टियर: एंट्री (8–12 GB) / स्टैंडर्ड (24 GB) / गंभीर (40–64 GB+)। उलझन हो तो छोटे से शुरू करें और धीरे-धीरे ऊपर बढ़ें।

एक बार स्पेक समझ आ जाए, तो local LLM कहीं ज़्यादा सुलभ हो जाता है। आगे, क्लाउड से अंतर को तौलते हुए, इसे अपनी मशीन पर चलाएँ। सेटअप के चरण local LLM कैसे चलाएँ में शामिल हैं।

FAQ

Q. क्या एक सामान्य लैपटॉप (बिना GPU) local LLM चला सकता है?

A. छोटे मॉडल (1–3B, या एक हल्का 7B) चलेंगे, पर धीमे। "आज़माने" के लिए यह ठीक है, लेकिन रोज़ के आरामदायक उपयोग के लिए, 8 GB+ VRAM वाला GPU या भरपूर यूनिफाइड मेमोरी वाला Mac व्यावहारिक है।

Q. मेरा VRAM थोड़ा कम है। फिर भी मैं इसे कैसे चला सकता हूँ?

A. तीन विकल्प: ① मज़बूत क्वांटाइज़ेशन (कम-बिट बिल्ड) चुनें, ② एक आकार छोटे मॉडल पर जाएँ, ③ छोटी कॉन्टेक्स्ट लंबाई सेट करें। आमतौर पर इतना ही काफ़ी होता है। आप हिस्से को CPU पर भी ऑफ़लोड कर सकते हैं, पर गति घट जाती है।

Q. GeForce या Mac—कौन-सा बेहतर है?

A. गति और विस्तार-क्षमता के लिए, GeForce (NVIDIA GPU)। शांत, बिजली-कुशल संचालन के लिए जो बड़ी मेमोरी का लाभ उठाकर बड़े मॉडल चलाता है, एक Mac (यूनिफाइड मेमोरी)। अगर आप एक ही मशीन पर 70B श्रेणी संभालना चाहते हैं, तो 64 GB+ वाला Mac एक मज़बूत विकल्प है।

Q. मुझे कितनी सिस्टम RAM चाहिए?

A. सिस्टम RAM के लिए 16 GB या ज़्यादा, आदर्श रूप से 32 GB। ध्यान दें कि Mac पर, यूनिफाइड मेमोरी VRAM का दोहरा काम करती है, इसलिए मेमोरी क्षमता सीधे तय करती है कि आप कितने बड़े मॉडल चला सकते हैं।

Q. तो पहली मशीन के लिए क्या अच्छा है?

A. वैल्यू के लिए, 7B–14B हेतु एक सेकंड-हैंड RTX 3060 (12 GB)। अगर बजट इजाज़त दे, तो एक RTX 4090 (24 GB) एक ही कार्ड पर 32B श्रेणी तक संभालता है और लंबे समय तक चलता है। Apple पसंद करने वालों के लिए, भरपूर यूनिफाइड मेमोरी वाला Mac आसान रास्ता है। छोटे से शुरू करें और ज़रूरत के अनुसार ऊपर बढ़ें—यही ग़लतियों से बचने का तरीका है।