विषय-सूची
"एक विशाल 70B (70 अरब पैरामीटर वाला) model डेटा-सेंटर के GPU rack पर नहीं, बल्कि घर के एक gaming PC पर चलता है।" इसे संभव बनाता है quantization — एक ऐसी तकनीक जो model के weights की numerical precision घटाकर उसका आकार और memory की ज़रूरत नाटकीय रूप से कम कर देती है।
पिछली बार की model distillation ने "ज्ञान को एक अलग, छोटे model में स्थानांतरित किया," जबकि quantization "उसी model को हल्का बनाता है।" यह लेख इसे फोटो-compression की उपमा से समझाता है, बताता है कि यह कितना हल्का होता है (memory के आँकड़े), accuracy का trade-off, मुख्य तरीके (GPTQ / AWQ / GGUF / QLoRA), और इसे लोकल रूप से कैसे चलाएँ — सब कुछ शुरुआती लोगों के लिए।
bit-width घटाएँ, और VRAM तेज़ी से गिरता है
— उदाहरण: एक 70B model के लिए ज़रूरी memory
* इस लेख में memory के अनुमान और आँकड़े सार्वजनिक सामग्री से उद्धृत हैं (जून 2026 तक)। वास्तविक ज़रूरत model, format और context length के अनुसार बदलती है — इन्हें दिशा-सूचक के रूप में पढ़ें।
1. Quantization क्या है? जैसे फोटो को compress करना
Quantization का अर्थ है किसी model के weights (पैरामीटर) की numerical precision घटाना। AI weights आमतौर पर FP16/FP32 (16/32-bit दशमलव संख्याएँ) के रूप में संग्रहित होते हैं, और quantization उन्हें INT8 (8-bit) या INT4 (4-bit) जैसे integers से बदल देता है। तब हर weight कम जगह लेता है, और पूरा model काफ़ी हल्का हो जाता है।
इसे "एक high-resolution फोटो को compress करना" समझें: मूल RAW फोटो (FP16) सुंदर है लेकिन बहुत बड़ी। इसे JPEG (INT8/INT4) में compress करें और file आकार के एक अंश तक सिमट जाती है जबकि लगभग वैसी ही दिखती है। Quantization भी ऐसा ही है — थोड़ी precision की कुर्बानी देकर weight में बड़ी कमी पाएँ। हैरानी इस बात की नहीं कि यह काम करता है, बल्कि इस बात की है कि आप कितना कम खोते हैं।
weights की संख्या और भूमिका नहीं बदलती — पात्र (model) वही रहता है; केवल प्रतिनिधित्व की बारीकी को मोटा कर दिया जाता है। इसलिए model की संरचना जानना मददगार होता है (देखें LLM weights कैसे काम करते हैं)।
2. कितना हल्का होता है? (memory के आँकड़े)
आँकड़ों में असर साफ़ दिखता है। प्रति weight: FP32 = 4 bytes, INT8 = 1 byte, INT4 = 0.5 bytes। यानी 4-bit पर जाने से FP16 की तुलना में लगभग एक-चौथाई memory लगती है।
| Precision | प्रति weight | 70B model (लगभग) | 8B model (लगभग) |
|---|---|---|---|
| FP16 (कोई quantization नहीं) | 2 bytes | ~140GB | ~16GB |
| INT8 | 1 byte | ~70GB | ~8GB |
| INT4 | 0.5 bytes | ~35GB | ~4.5-5GB |
* अनुमान। वास्तविक मान format, overhead और context length के अनुसार बदलते हैं।
असर बहुत बड़ा है। अगर एक 70B model 140GB से 35GB तक आ जाए, तो यह कई A100 के बजाय एक यथार्थवादी सेटअप पर चलता है। एक 8B model को 4-bit पर quantize करें और यह लगभग 5GB का हो जाता है — एक midrange GPU (8GB VRAM) में आराम से समा जाता है, इसलिए आप इसे अपने PC पर लोकल रूप से चला सकते हैं। यही वजह है कि quantization को "LLMs का लोकतंत्रीकरण" कहा जाता है।
3. accuracy कितनी घटती है?
चिंता यह होती है: "हल्का होने के बाद क्या यह कमज़ोर नहीं हो जाएगा?" जवाब है "आपकी सोच से कम — पर यह bit-width और task पर निर्भर करता है।"
🟢 INT8: लगभग बिना नुकसान
अधिकांश LLMs के लिए performance में गिरावट न्यूनतम होती है। जब आप गुणवत्ता बनाए रखते हुए memory आधी करना चाहें, तो यह एक सुरक्षित विकल्प है।
🟡 INT4: समझदार तरीकों से व्यावहारिक
सामान्य Q&A और सामान्य-ज्ञान वाले tasks के लिए, गिरावट कथित रूप से 4% से कम होती है। लेकिन गणित, code generation और कठिन reasoning के लिए नुकसान ज़्यादा साफ़ दिखता है, इसलिए सावधानी बरतें।
accuracy का नुकसान तकनीकी रूप से "perplexity में थोड़ी वृद्धि" के रूप में दिखता है। मुख्य बात है "task के अनुकूल bit-width चुनना" — chat या summarization के लिए अक्सर INT4 ही काफ़ी होता है, लेकिन code generation या सटीक गणित के लिए INT8 या बिना quantization पर विचार करें। आख़िरकार, इसे सहनीय सीमा में है या नहीं यह पुष्ट करने के लिए अपने task पर मूल्यांकन करें।
4. मुख्य तरीके: GPTQ / AWQ / GGUF / QLoRA
quantization के कई प्रतिनिधि तरीके और formats हैं। नाम जानने से आप model और tools बिना भ्रम के चुन पाते हैं।
| तरीका / format | विशेषताएँ | किसके लिए सर्वोत्तम |
|---|---|---|
| GPTQ | वह अग्रदूत जिसने accuracy बनाए रखते हुए 4-bit compression हासिल किया। | GPU inference |
| AWQ | सबसे महत्वपूर्ण ~1% weights की पहचान कर उन्हें सुरक्षित रखता है। अक्सर GPTQ से 1-2% अधिक सटीक और तेज़। | तेज़, कुशल production inference |
| GGUF | llama.cpp / Ollama का format। Q2_K-Q8_0 स्तर चुनें; CPU+GPU hybrid का समर्थन। | अपने PC पर लोकल रूप से चलाना |
| QLoRA | एक 4-bit base model को LoRA के साथ जोड़ता है, जिससे consumer GPU पर fine-tuning संभव हो जाती है। | कम लागत वाली fine-tuning |
एक शुरुआती जो इसे लोकल रूप से आज़माना चाहता है, उसके लिए Ollama के साथ एक GGUF model इस्तेमाल करना सबसे आसान रास्ता है। production GPU inference को अनुकूलित करने के लिए AWQ एक मज़बूत विकल्प है। किसी बड़े model को सस्ते में fine-tune करने के लिए QLoRA — बस इतना याद रखना काफ़ी है।
5. distillation और fine-tuning से अंतर
Quantization, distillation और fine-tuning के साथ-साथ एक "model दक्षता/अनुकूलन" तकनीक है। इन्हें आसानी से गड़बड़ाया जा सकता है, इसलिए उद्देश्यों के अंतर पर ध्यान दें।
⚖️ Quantization
उसी model के weights को हल्का बनाएँ। अंदर वही model, बस प्रतिनिधित्व मोटा।
🧑🏫 Distillation
ज्ञान को एक अलग, छोटे model में स्थानांतरित करें। पात्र को छोटा बनाकर फिर से रचें।
🎯 Fine-tuning
किसी विशेष उपयोग के लिए और प्रशिक्षित करें। लगभग वही आकार; क्षेत्र-विशेष ज्ञान जोड़ता है।
ये तीनों परस्पर अनन्य नहीं हैं — इन्हें आमतौर पर मिलाकर इस्तेमाल किया जाता है। उदाहरण के लिए, "एक student model को जो distillation से छोटा बनाया गया, उसे फ़ोन में फिट करने के लिए quantize करें," या, QLoRA की तरह, "एक quantized base पर fine-tune करें।" इन्हें परत-दर-परत जोड़ा जा सकता है।
6. कैसे शुरू करें और bit-width कैसे चुनें
किसी पेचीदा implementation की ज़रूरत नहीं। कई पहले से quantized model वितरित किए जाते हैं, इसलिए आप बस उन्हें download करके इस्तेमाल कर सकते हैं। संशय हो तो इस मार्गदर्शिका से चुनें।
पहले लोकल रूप से आज़माने के लिए, GGUF (Ollama) इस्तेमाल करें
एक command में Ollama के साथ एक quantized model चलाएँ। बस छूकर देखना सीखने का सबसे तेज़ तरीका है।
अपने VRAM के अनुसार bit-width चुनें
VRAM तंग है? INT4 (Q4)। जगह है और गुणवत्ता चाहिए? INT8 (Q8)। सामान्य उपयोग अक्सर Q4 पर ठीक रहता है।
उपयोग के अनुसार precision तय करें
code generation या सटीक गणित के लिए INT4 से बचें और INT8+ इस्तेमाल करें। chat और summarization के लिए INT4 आरामदेह है।
सारांश
Quantization वह मुख्य सक्षमकर्ता है जो एक विशाल AI को इतना हल्का बना देता है कि वह आपकी अपनी मशीन पर चल सके। आइए दोहराएँ।
मुख्य बातें
- ⚖️ weight precision घटाकर हल्का करें (FP16→INT8→INT4)। फोटो compression जैसा ही विचार।
- 📉 4-bit पर ~4x कम memory। 70B 140GB→35GB; 8B एक consumer GPU पर ~5GB।
- 🎯 accuracy में थोड़ा नुकसान। INT8 लगभग बिना नुकसान; INT4 सामान्य उपयोग में 4% से कम (गणित/code का ध्यान रखें)।
- 🛠️ तरीके: GPTQ / AWQ / GGUF (Ollama) / QLoRA। लोकल रूप से GGUF सबसे आसान।
- 🔀 distillation/FT से अलग: वही पात्र हल्का करें / एक छोटे पात्र में ले जाएँ / क्षेत्र-विशेष ज्ञान जोड़ें।
"समझदारी बनाए रखें, सिर्फ़ वज़न घटाएँ।" AI को सुलभ बनाने के लिए quantization सबसे व्यावहारिक एकल कदम है। शुरुआत एक local LLM पर Q4 model चलाकर करें। एक संबंधित तकनीक के लिए, model distillation देखें; आधार के लिए, LLM weights।
FAQ
Q. क्या quantization model को कमज़ोर बना देता है?
A. आपकी सोच से कम। INT8 लगभग बिना नुकसान है, और INT4 भी सामान्य Q&A और सामान्य-ज्ञान वाले tasks पर कथित रूप से 4% से कम घटता है। लेकिन गणित, code generation और कठिन reasoning के लिए अंतर ज़्यादा साफ़ दिखता है, इसलिए उपयोग के अनुसार bit-width चुनें।
Q. Q4 / Q8 क्या हैं, और मुझे कौन सा चुनना चाहिए?
A. ये GGUF quantization स्तर हैं — छोटी संख्याएँ हल्की (मोटी) होती हैं। VRAM तंग है तो Q4 चुनें; जगह के साथ गुणवत्ता के लिए Q8। chat या summarization जैसे सामान्य उपयोग के लिए, Q4 अक्सर आरामदेह होता है।
Q. मुझे quantization इस्तेमाल करना चाहिए या distillation?
A. उद्देश्य अलग हैं। जो model आपके पास पहले से है उसे हल्का करने के लिए उसे quantize करें; एक बिल्कुल नया छोटा समर्पित model बनाने के लिए distillation इस्तेमाल करें। इन्हें अक्सर मिलाया जाता है — एक distilled छोटे model को और quantize करना आम है।
Q. क्या मुझे model खुद quantize करने पड़ते हैं?
A. आमतौर पर नहीं। प्रमुख model पहले से ही quantized रूप में वितरित होते हैं और Ollama जैसे tools के ज़रिए तुरंत download करके इस्तेमाल किए जा सकते हैं। खुद quantize करना केवल custom models या विशेष ज़रूरतों के लिए होता है।