विषय-सूची
- 1. निष्कर्ष: लगभग सब कुछ VRAM पर निर्भर है
- 2. पहले क्वांटाइज़ेशन समझें—यह सब कुछ बदल देता है
- 3. मॉडल आकार के अनुसार ज़रूरी VRAM (त्वरित तालिका)
- 4. कॉन्टेक्स्ट लंबाई / KV cache का जाल
- 5. व्यवहार में GPU और Mac (गति गाइड)
- 6. VRAM के अलावा आपको क्या चाहिए
- 7. बजट के अनुसार सुझाए गए बिल्ड (3 टियर)
- 8. कैसे पता करें कि आप कौन-सा मॉडल चला सकते हैं
- सारांश
- FAQ
जब आप local LLM से शुरुआत करना चाहते हैं, तो पहली चिंता आमतौर पर यही होती है: "क्या यह मेरे PC पर चलेगा भी?" छोटा जवाब: ज़रूरी स्पेक का 90% सिर्फ़ VRAM (आपके GPU की मेमोरी) पर निर्भर करता है। इसे ठीक से समझ लें, और आप तुरंत बता सकते हैं कि क्या चलेगा और क्या नहीं।
यह लेख मॉडल आकार के अनुसार एक त्वरित VRAM तालिका, एक आसान फ़ॉर्मूला, कॉन्टेक्स्ट लंबाई के साथ बढ़ने वाला मेमोरी का जाल, हर GPU/Mac पर वास्तविक गति, और अंत में बजट के अनुसार सुझाए गए बिल्ड प्रस्तुत करता है। तकनीकी शब्दजाल को न्यूनतम रखा गया है ताकि एक शुरुआती भी समझ सके कि "मुझे कौन-सा खरीदना चाहिए।"
लगभग सब कुछ VRAM पर निर्भर है
— बात इस पर आती है कि मॉडल मेमोरी में समाता है या नहीं
VRAM 8–12 GB
7B–14B श्रेणी। रोज़मर्रा की चैट, सारांश, हल्का कोड। सबसे आसान शुरुआती बिंदु।
VRAM 24 GB
32B श्रेणी तक। गुणवत्ता और गति का बेहतरीन संतुलन वाली व्यावहारिक सीमा।
40–64 GB+
70B श्रेणी। मध्यम-स्तरीय क्लाउड के करीब पहुँचती गुणवत्ता। लागत भी बढ़ती है।
1. निष्कर्ष: लगभग सब कुछ VRAM पर निर्भर है
PC खरीदते समय कई पुर्ज़े शामिल होते हैं—CPU, GPU, मेमोरी—लेकिन local LLM के लिए सबसे महत्वपूर्ण चीज़ VRAM (वीडियो मेमोरी, यानी GPU पर मौजूद मेमोरी) है। कारण सरल है: अगर पूरा मॉडल VRAM में समा जाता है तो यह तेज़ और सहज चलता है; अगर नहीं, तो यह बेहद धीमा हो जाता है या बिल्कुल नहीं चलेगा।
💡 संक्षेप में: local LLM के लिए स्पेक चुनना इसी क्रम में होता है: "जिस मॉडल को आप चलाना चाहते हैं उसका आकार" → "उसके लिए ज़रूरी VRAM" → "उसे पूरा करने वाला GPU/Mac।" CPU और RAM की क्षमता गौण हैं।
Apple के M-सीरीज़ चिप्स (Mac) एक विशेष मामला हैं: "यूनिफाइड मेमोरी" की बदौलत इंस्टॉल की गई RAM को सीधे VRAM के रूप में इस्तेमाल किया जा सकता है। इसलिए ज़्यादा मेमोरी वाला Mac बिना समर्पित GPU के भी बड़े मॉडल चला सकता है—इस पर बाद में और बात करेंगे।
2. पहले क्वांटाइज़ेशन समझें—यह सब कुछ बदल देता है
ज़रूरी VRAM की बात करने से पहले, क्वांटाइज़ेशन से बचा नहीं जा सकता। यह एक ऐसी तकनीक है जो मॉडल को संपीड़ित करके हल्का बना देती है, और आप कितना संपीड़ित करते हैं इससे मेमोरी की ज़रूरत कई गुना बदल जाती है।
FP16 (बिना संपीड़न)
प्रति पैरामीटर ~2 बाइट। शीर्ष गुणवत्ता, पर सबसे ज़्यादा मेमोरी खाती है। व्यक्तिगत उपयोगकर्ता इसे शायद ही इस्तेमाल करते हैं।
Q8 (8-bit)
प्रति पैरामीटर ~1 बाइट। FP16 का लगभग आधा। गुणवत्ता में बहुत कम कमी—"गुणवत्ता की ओर झुका" विकल्प।
Q4 (4-bit)
प्रति पैरामीटर ~0.5–0.7 बाइट। FP16 का लगभग 1/4। गुणवत्ता और हल्केपन का बेहतरीन संतुलन—व्यक्तिगत उपयोग के लिए पसंदीदा।
🔑 मोटा-मोटी फ़ॉर्मूला: ज़रूरी VRAM ≈ पैरामीटर की संख्या (B) × प्रति पैरामीटर बाइट। उदाहरण: एक 7B मॉडल को Q4 पर चलाने के लिए, 7 × ~0.6 ≈ ~4–5 GB। सुरक्षित रहने के लिए KV cache (कॉन्टेक्स्ट, अगले भाग में) के लिए +10–20% जोड़ें।
3. मॉडल आकार के अनुसार ज़रूरी VRAM (त्वरित तालिका)
सबसे व्यावहारिक Q4 क्वांटाइज़ेशन मानते हुए, यहाँ आकार के अनुसार मोटे VRAM लक्ष्य दिए गए हैं (कॉन्टेक्स्ट के लिए गुंजाइश सहित)। इसकी तुलना "अपने GPU के VRAM" से करें और आप तुरंत अपनी ऊपरी सीमा देख लेंगे।
7B–8B श्रेणी
VRAM ~6–8 GB
शुरुआत के लिए आदर्श। चैट, सारांश, अनुवाद, हल्का कोड। कई लैपटॉप पर संभव।
13B–14B श्रेणी
VRAM ~8–12 GB
थोड़े बेहतर जवाब। RTX 3060 (12 GB) जैसे मध्य-श्रेणी GPU के लिए "स्वीट स्पॉट"।
32B श्रेणी
VRAM ~20–24 GB
व्यावहारिक ऊपरी सीमा। RTX 4090 (24 GB) के लिए क्लासिक सिंगल-कार्ड लक्ष्य।
70B श्रेणी
VRAM ~40–48 GB+
गंभीर टियर। ज़्यादा मेमोरी वाला Mac या कई GPU व्यावहारिक हैं।
और ऊपर 100B+ (बहुत बड़े मॉडल) तक जाने के लिए 128 GB या उससे ज़्यादा चाहिए—यह व्यक्तिगत दायरे से परे है। इसके विपरीत, एक छोटा 1–3B मॉडल लगभग 4 GB में चलता है, इसलिए एक मामूली PC भी शुरुआत कर सकता है।
4. कॉन्टेक्स्ट लंबाई / KV cache का जाल
आसानी से नज़रअंदाज़ हो जाता है: कॉन्टेक्स्ट लंबाई के साथ मेमोरी बढ़ती है। एक LLM बातचीत और इनपुट के इतिहास को VRAM में KV cache के रूप में रखता है। आप जितना लंबा टेक्स्ट संभालते हैं, मॉडल के अलावा उतनी ही ज़्यादा मेमोरी इस्तेमाल होती है।
4k
एक 7B पर ~+0.3 GB। छोटे सवालों के लिए नगण्य।
32k
एक 7B पर ~+2.5 GB। लंबे सारांश और चैट के लिए मायने रखने लगता है।
128k
एक 7B पर ~+10 GB। मॉडल से भी ज़्यादा हो सकता है। सावधानी का क्षेत्र।
📌 व्यावहारिक सुझाव: "यह VRAM की सीमा पर ठीक चला, फिर जब मैंने एक लंबा दस्तावेज़ डाला तो क्रैश हो गया"—इसका यही कारण है। जिस कॉन्टेक्स्ट लंबाई का आप वास्तव में उपयोग करते हैं, उस पर अपनी ज़रूरत का अनुमान लगाएँ। अगर आप लंबे दस्तावेज़ नहीं संभालते, तो बस छोटी कॉन्टेक्स्ट लंबाई सेट करने से मेमोरी खाली हो जाती है।
5. व्यवहार में GPU और Mac (गति गाइड)
एक ही मॉडल के लिए भी, हार्डवेयर गति (प्रति सेकंड उत्पन्न टोकन = tok/s) को बहुत बदल देता है। यहाँ मुख्य विकल्प मोटे अंदाज़े के साथ दिए गए हैं (संख्याएँ ऐसे संकेत हैं जो सेटअप और मॉडल के अनुसार बदलते हैं)।
RTX 3060 (12 GB)
सेकंड-हैंड आसानी से मिल जाता है—शुरुआत का क्लासिक। 7B–14B आराम से चलते हैं। अगर लागत प्राथमिकता है, तो यहीं से शुरू करें।
RTX 4090 (24 GB)
एक ही कार्ड पर 32B श्रेणी तक। एक 7B 100 tok/s से ज़्यादा कर सकता है। व्यक्तिगत हाई-एंड के लिए पसंदीदा। 70B के लिए हिस्से को CPU पर ऑफ़लोड करना पड़ता है और यह बहुत धीमा हो जाता है।
RTX 5090 (32 GB)
ज़्यादा VRAM से आप एक ही कार्ड पर 32B को Q8 पर, या 70B को आक्रामक क्वांटाइज़ेशन पर चला सकते हैं। गति भी शीर्ष श्रेणी की है।
Apple Mac (M4/M5 Max)
64 GB यूनिफाइड मेमोरी के साथ, 70B श्रेणी भी संभव है (गति मामूली—70B पर लगभग 20–30 tok/s)। शांत और बिजली-कुशल।
केवल CPU (कोई GPU नहीं)
छोटे मॉडल चलते तो हैं, पर धीमे। "बस आज़माने" के लिए ठीक है। रोज़ के उपयोग के लिए असल में GPU/Mac चाहिए।
6. VRAM के अलावा आपको क्या चाहिए
VRAM मुख्य भूमिका में है, पर सहायक भूमिका भी मायने रखती है। कम से कम तीन चीज़ें संभालें।
सिस्टम RAM
जो VRAM में नहीं समाता उसका सहारा। 16 GB या ज़्यादा, आदर्श रूप से 32 GB। Mac पर, यूनिफाइड मेमोरी सीधे गिनी जाती है।
स्टोरेज (SSD)
एक मॉडल कई से लेकर दर्जनों GB का होता है। अगर आप कई आज़माएँगे, तो भरपूर खाली SSD जगह रखें। NVMe की सिफ़ारिश है।
बिजली और कूलिंग
हाई-एंड GPU बहुत बिजली खींचते हैं और गर्म चलते हैं। पावर सप्लाई और कूलिंग में गुंजाइश छोड़ें।
7. बजट के अनुसार सुझाए गए बिल्ड (3 टियर)
"तो आख़िर मुझे वास्तव में क्या खरीदना चाहिए?" का जवाब देने वाले तीन पैटर्न। उपयोग और बजट के अनुसार चुनें।
बस आज़माना: VRAM 8–12 GB
RTX 3060 (12 GB) श्रेणी का कार्ड, या 16–24 GB यूनिफाइड मेमोरी वाला Mac। 7B–14B श्रेणी चलती है, रोज़मर्रा के उपयोग के लिए पर्याप्त। सेकंड-हैंड GPU शुरू करने का सबसे सस्ता तरीका है।
गंभीरता से उपयोग: VRAM 24 GB
RTX 4090 (24 GB), या 32–48 GB यूनिफाइड मेमोरी वाला Mac। 32B श्रेणी आराम से, गुणवत्ता और गति का सबसे अच्छा संतुलन। "बिल्कुल सही" विकल्प।
सबसे बड़े के लिए: 40–64 GB+
एक RTX 5090 या कई GPU, या 64 GB+ यूनिफाइड मेमोरी वाला हाई-एंड Mac। 70B श्रेणी मध्यम-स्तरीय क्लाउड के करीब पहुँचती है। लागत और बिजली खपत के लिए तैयार रहें।
8. कैसे पता करें कि आप कौन-सा मॉडल चला सकते हैं
कौन-सा मॉडल चुनें, तय नहीं? देखें सबसे अच्छे लोकल LLM मॉडल की तुलना — उपयोग, साइज़ और मूल देश के अनुसार चुनाव।
खरीदने या डाउनलोड करने से पहले तीन चरणों में जाँच करें, और आप ग़लती नहीं करेंगे।
- अपना VRAM जाँचें (या अपने Mac की यूनिफाइड मेमोरी)। यही आपकी अधिकतम सीमा है।
- मॉडल आकार (B) × ~0.6 (Q4) से मोटी ज़रूरत का अनुमान लगाएँ। कॉन्टेक्स्ट के लिए +10–20% जोड़ें।
- पुष्टि करें कि कुल आपके VRAM के भीतर समाता है। अगर नहीं, तो "एक आकार छोटा" या "मज़बूत क्वांटाइज़ेशन (Q4 → और भी कम-बिट)" चुनें।
💡 उलझन हो तो छोटे से शुरू करें: Ollama या LM Studio के साथ, आप बस एक मॉडल चुनते हैं और डाउनलोड करते हैं। पहले एक 7B श्रेणी आज़माएँ, और अगर कमी महसूस हो तो ऊपर बढ़ें—यह क्रम सुरक्षित और भरोसेमंद है।
सारांश
local LLM के लिए ज़रूरी स्पेक तीन बिंदुओं में समा जाता है।
- VRAM मुख्य भूमिका में है: मॉडल मेमोरी में समाता है या नहीं—यही सब कुछ है। Mac यूनिफाइड मेमोरी के ज़रिए बड़ी मेमोरी का लक्ष्य रख सकता है।
- क्वांटाइज़ेशन और कॉन्टेक्स्ट संख्या को बदलते हैं: Q4 पर, "आकार (B) × ~0.6" प्लस कॉन्टेक्स्ट (+10–20%) गाइड है। 7B ≈ 6–8 GB, 32B ≈ 24 GB, 70B ≈ 40 GB+।
- बजट के अनुसार तीन टियर: एंट्री (8–12 GB) / स्टैंडर्ड (24 GB) / गंभीर (40–64 GB+)। उलझन हो तो छोटे से शुरू करें और धीरे-धीरे ऊपर बढ़ें।
एक बार स्पेक समझ आ जाए, तो local LLM कहीं ज़्यादा सुलभ हो जाता है। आगे, क्लाउड से अंतर को तौलते हुए, इसे अपनी मशीन पर चलाएँ। सेटअप के चरण local LLM कैसे चलाएँ में शामिल हैं।
FAQ
Q. क्या एक सामान्य लैपटॉप (बिना GPU) local LLM चला सकता है?
A. छोटे मॉडल (1–3B, या एक हल्का 7B) चलेंगे, पर धीमे। "आज़माने" के लिए यह ठीक है, लेकिन रोज़ के आरामदायक उपयोग के लिए, 8 GB+ VRAM वाला GPU या भरपूर यूनिफाइड मेमोरी वाला Mac व्यावहारिक है।
Q. मेरा VRAM थोड़ा कम है। फिर भी मैं इसे कैसे चला सकता हूँ?
A. तीन विकल्प: ① मज़बूत क्वांटाइज़ेशन (कम-बिट बिल्ड) चुनें, ② एक आकार छोटे मॉडल पर जाएँ, ③ छोटी कॉन्टेक्स्ट लंबाई सेट करें। आमतौर पर इतना ही काफ़ी होता है। आप हिस्से को CPU पर भी ऑफ़लोड कर सकते हैं, पर गति घट जाती है।
Q. GeForce या Mac—कौन-सा बेहतर है?
A. गति और विस्तार-क्षमता के लिए, GeForce (NVIDIA GPU)। शांत, बिजली-कुशल संचालन के लिए जो बड़ी मेमोरी का लाभ उठाकर बड़े मॉडल चलाता है, एक Mac (यूनिफाइड मेमोरी)। अगर आप एक ही मशीन पर 70B श्रेणी संभालना चाहते हैं, तो 64 GB+ वाला Mac एक मज़बूत विकल्प है।
Q. मुझे कितनी सिस्टम RAM चाहिए?
A. सिस्टम RAM के लिए 16 GB या ज़्यादा, आदर्श रूप से 32 GB। ध्यान दें कि Mac पर, यूनिफाइड मेमोरी VRAM का दोहरा काम करती है, इसलिए मेमोरी क्षमता सीधे तय करती है कि आप कितने बड़े मॉडल चला सकते हैं।
Q. तो पहली मशीन के लिए क्या अच्छा है?
A. वैल्यू के लिए, 7B–14B हेतु एक सेकंड-हैंड RTX 3060 (12 GB)। अगर बजट इजाज़त दे, तो एक RTX 4090 (24 GB) एक ही कार्ड पर 32B श्रेणी तक संभालता है और लंबे समय तक चलता है। Apple पसंद करने वालों के लिए, भरपूर यूनिफाइड मेमोरी वाला Mac आसान रास्ता है। छोटे से शुरू करें और ज़रूरत के अनुसार ऊपर बढ़ें—यही ग़लतियों से बचने का तरीका है।