"एक विशाल 70B (70 अरब पैरामीटर वाला) model डेटा-सेंटर के GPU rack पर नहीं, बल्कि घर के एक gaming PC पर चलता है।" इसे संभव बनाता है quantization — एक ऐसी तकनीक जो model के weights की numerical precision घटाकर उसका आकार और memory की ज़रूरत नाटकीय रूप से कम कर देती है

पिछली बार की model distillation ने "ज्ञान को एक अलग, छोटे model में स्थानांतरित किया," जबकि quantization "उसी model को हल्का बनाता है।" यह लेख इसे फोटो-compression की उपमा से समझाता है, बताता है कि यह कितना हल्का होता है (memory के आँकड़े), accuracy का trade-off, मुख्य तरीके (GPTQ / AWQ / GGUF / QLoRA), और इसे लोकल रूप से कैसे चलाएँ — सब कुछ शुरुआती लोगों के लिए।

QUANTIZATION · PRECISION घटाकर हल्का करें

bit-width घटाएँ, और VRAM तेज़ी से गिरता है

— उदाहरण: एक 70B model के लिए ज़रूरी memory

FP16
~140GB
INT8
~70GB
INT4
~35GB
4-bit पर ~4x कम memory consumer GPU पर चलता है accuracy में थोड़ी गिरावट

* इस लेख में memory के अनुमान और आँकड़े सार्वजनिक सामग्री से उद्धृत हैं (जून 2026 तक)। वास्तविक ज़रूरत model, format और context length के अनुसार बदलती है — इन्हें दिशा-सूचक के रूप में पढ़ें।

1. Quantization क्या है? जैसे फोटो को compress करना

Quantization का अर्थ है किसी model के weights (पैरामीटर) की numerical precision घटाना। AI weights आमतौर पर FP16/FP32 (16/32-bit दशमलव संख्याएँ) के रूप में संग्रहित होते हैं, और quantization उन्हें INT8 (8-bit) या INT4 (4-bit) जैसे integers से बदल देता है। तब हर weight कम जगह लेता है, और पूरा model काफ़ी हल्का हो जाता है।

इसे "एक high-resolution फोटो को compress करना" समझें: मूल RAW फोटो (FP16) सुंदर है लेकिन बहुत बड़ी। इसे JPEG (INT8/INT4) में compress करें और file आकार के एक अंश तक सिमट जाती है जबकि लगभग वैसी ही दिखती है। Quantization भी ऐसा ही है — थोड़ी precision की कुर्बानी देकर weight में बड़ी कमी पाएँ। हैरानी इस बात की नहीं कि यह काम करता है, बल्कि इस बात की है कि आप कितना कम खोते हैं

weights की संख्या और भूमिका नहीं बदलती — पात्र (model) वही रहता है; केवल प्रतिनिधित्व की बारीकी को मोटा कर दिया जाता है। इसलिए model की संरचना जानना मददगार होता है (देखें LLM weights कैसे काम करते हैं)।

2. कितना हल्का होता है? (memory के आँकड़े)

आँकड़ों में असर साफ़ दिखता है। प्रति weight: FP32 = 4 bytes, INT8 = 1 byte, INT4 = 0.5 bytes। यानी 4-bit पर जाने से FP16 की तुलना में लगभग एक-चौथाई memory लगती है

Precision प्रति weight 70B model (लगभग) 8B model (लगभग)
FP16 (कोई quantization नहीं) 2 bytes ~140GB ~16GB
INT8 1 byte ~70GB ~8GB
INT4 0.5 bytes ~35GB ~4.5-5GB

* अनुमान। वास्तविक मान format, overhead और context length के अनुसार बदलते हैं।

असर बहुत बड़ा है। अगर एक 70B model 140GB से 35GB तक आ जाए, तो यह कई A100 के बजाय एक यथार्थवादी सेटअप पर चलता है। एक 8B model को 4-bit पर quantize करें और यह लगभग 5GB का हो जाता है — एक midrange GPU (8GB VRAM) में आराम से समा जाता है, इसलिए आप इसे अपने PC पर लोकल रूप से चला सकते हैं। यही वजह है कि quantization को "LLMs का लोकतंत्रीकरण" कहा जाता है।

3. accuracy कितनी घटती है?

चिंता यह होती है: "हल्का होने के बाद क्या यह कमज़ोर नहीं हो जाएगा?" जवाब है "आपकी सोच से कम — पर यह bit-width और task पर निर्भर करता है।"

🟢 INT8: लगभग बिना नुकसान

अधिकांश LLMs के लिए performance में गिरावट न्यूनतम होती है। जब आप गुणवत्ता बनाए रखते हुए memory आधी करना चाहें, तो यह एक सुरक्षित विकल्प है।

🟡 INT4: समझदार तरीकों से व्यावहारिक

सामान्य Q&A और सामान्य-ज्ञान वाले tasks के लिए, गिरावट कथित रूप से 4% से कम होती है। लेकिन गणित, code generation और कठिन reasoning के लिए नुकसान ज़्यादा साफ़ दिखता है, इसलिए सावधानी बरतें।

accuracy का नुकसान तकनीकी रूप से "perplexity में थोड़ी वृद्धि" के रूप में दिखता है। मुख्य बात है "task के अनुकूल bit-width चुनना" — chat या summarization के लिए अक्सर INT4 ही काफ़ी होता है, लेकिन code generation या सटीक गणित के लिए INT8 या बिना quantization पर विचार करें। आख़िरकार, इसे सहनीय सीमा में है या नहीं यह पुष्ट करने के लिए अपने task पर मूल्यांकन करें

4. मुख्य तरीके: GPTQ / AWQ / GGUF / QLoRA

quantization के कई प्रतिनिधि तरीके और formats हैं। नाम जानने से आप model और tools बिना भ्रम के चुन पाते हैं।

तरीका / format विशेषताएँ किसके लिए सर्वोत्तम
GPTQ वह अग्रदूत जिसने accuracy बनाए रखते हुए 4-bit compression हासिल किया। GPU inference
AWQ सबसे महत्वपूर्ण ~1% weights की पहचान कर उन्हें सुरक्षित रखता है। अक्सर GPTQ से 1-2% अधिक सटीक और तेज़। तेज़, कुशल production inference
GGUF llama.cpp / Ollama का format। Q2_K-Q8_0 स्तर चुनें; CPU+GPU hybrid का समर्थन। अपने PC पर लोकल रूप से चलाना
QLoRA एक 4-bit base model को LoRA के साथ जोड़ता है, जिससे consumer GPU पर fine-tuning संभव हो जाती है। कम लागत वाली fine-tuning

एक शुरुआती जो इसे लोकल रूप से आज़माना चाहता है, उसके लिए Ollama के साथ एक GGUF model इस्तेमाल करना सबसे आसान रास्ता है। production GPU inference को अनुकूलित करने के लिए AWQ एक मज़बूत विकल्प है। किसी बड़े model को सस्ते में fine-tune करने के लिए QLoRA — बस इतना याद रखना काफ़ी है।

5. distillation और fine-tuning से अंतर

Quantization, distillation और fine-tuning के साथ-साथ एक "model दक्षता/अनुकूलन" तकनीक है। इन्हें आसानी से गड़बड़ाया जा सकता है, इसलिए उद्देश्यों के अंतर पर ध्यान दें।

⚖️ Quantization

उसी model के weights को हल्का बनाएँ। अंदर वही model, बस प्रतिनिधित्व मोटा।

🧑‍🏫 Distillation

ज्ञान को एक अलग, छोटे model में स्थानांतरित करें। पात्र को छोटा बनाकर फिर से रचें।

🎯 Fine-tuning

किसी विशेष उपयोग के लिए और प्रशिक्षित करें। लगभग वही आकार; क्षेत्र-विशेष ज्ञान जोड़ता है।

ये तीनों परस्पर अनन्य नहीं हैं — इन्हें आमतौर पर मिलाकर इस्तेमाल किया जाता है। उदाहरण के लिए, "एक student model को जो distillation से छोटा बनाया गया, उसे फ़ोन में फिट करने के लिए quantize करें," या, QLoRA की तरह, "एक quantized base पर fine-tune करें।" इन्हें परत-दर-परत जोड़ा जा सकता है।

6. कैसे शुरू करें और bit-width कैसे चुनें

किसी पेचीदा implementation की ज़रूरत नहीं। कई पहले से quantized model वितरित किए जाते हैं, इसलिए आप बस उन्हें download करके इस्तेमाल कर सकते हैं। संशय हो तो इस मार्गदर्शिका से चुनें।

1

पहले लोकल रूप से आज़माने के लिए, GGUF (Ollama) इस्तेमाल करें

एक command में Ollama के साथ एक quantized model चलाएँ। बस छूकर देखना सीखने का सबसे तेज़ तरीका है।

2

अपने VRAM के अनुसार bit-width चुनें

VRAM तंग है? INT4 (Q4)। जगह है और गुणवत्ता चाहिए? INT8 (Q8)। सामान्य उपयोग अक्सर Q4 पर ठीक रहता है।

3

उपयोग के अनुसार precision तय करें

code generation या सटीक गणित के लिए INT4 से बचें और INT8+ इस्तेमाल करें। chat और summarization के लिए INT4 आरामदेह है।

सारांश

Quantization वह मुख्य सक्षमकर्ता है जो एक विशाल AI को इतना हल्का बना देता है कि वह आपकी अपनी मशीन पर चल सके। आइए दोहराएँ।

मुख्य बातें

  • ⚖️ weight precision घटाकर हल्का करें (FP16→INT8→INT4)। फोटो compression जैसा ही विचार।
  • 📉 4-bit पर ~4x कम memory। 70B 140GB→35GB; 8B एक consumer GPU पर ~5GB।
  • 🎯 accuracy में थोड़ा नुकसान। INT8 लगभग बिना नुकसान; INT4 सामान्य उपयोग में 4% से कम (गणित/code का ध्यान रखें)।
  • 🛠️ तरीके: GPTQ / AWQ / GGUF (Ollama) / QLoRA। लोकल रूप से GGUF सबसे आसान।
  • 🔀 distillation/FT से अलग: वही पात्र हल्का करें / एक छोटे पात्र में ले जाएँ / क्षेत्र-विशेष ज्ञान जोड़ें।

"समझदारी बनाए रखें, सिर्फ़ वज़न घटाएँ।" AI को सुलभ बनाने के लिए quantization सबसे व्यावहारिक एकल कदम है। शुरुआत एक local LLM पर Q4 model चलाकर करें। एक संबंधित तकनीक के लिए, model distillation देखें; आधार के लिए, LLM weights

FAQ

Q. क्या quantization model को कमज़ोर बना देता है?

A. आपकी सोच से कम। INT8 लगभग बिना नुकसान है, और INT4 भी सामान्य Q&A और सामान्य-ज्ञान वाले tasks पर कथित रूप से 4% से कम घटता है। लेकिन गणित, code generation और कठिन reasoning के लिए अंतर ज़्यादा साफ़ दिखता है, इसलिए उपयोग के अनुसार bit-width चुनें।

Q. Q4 / Q8 क्या हैं, और मुझे कौन सा चुनना चाहिए?

A. ये GGUF quantization स्तर हैं — छोटी संख्याएँ हल्की (मोटी) होती हैं। VRAM तंग है तो Q4 चुनें; जगह के साथ गुणवत्ता के लिए Q8। chat या summarization जैसे सामान्य उपयोग के लिए, Q4 अक्सर आरामदेह होता है।

Q. मुझे quantization इस्तेमाल करना चाहिए या distillation?

A. उद्देश्य अलग हैं। जो model आपके पास पहले से है उसे हल्का करने के लिए उसे quantize करें; एक बिल्कुल नया छोटा समर्पित model बनाने के लिए distillation इस्तेमाल करें। इन्हें अक्सर मिलाया जाता है — एक distilled छोटे model को और quantize करना आम है।

Q. क्या मुझे model खुद quantize करने पड़ते हैं?

A. आमतौर पर नहीं। प्रमुख model पहले से ही quantized रूप में वितरित होते हैं और Ollama जैसे tools के ज़रिए तुरंत download करके इस्तेमाल किए जा सकते हैं। खुद quantize करना केवल custom models या विशेष ज़रूरतों के लिए होता है।