LoRA क्या है? थोड़ी-सी अतिरिक्त ट्रेनिंग से AI को कस्टमाइज़ करना
किसी विशाल AI को शुरू से दोबारा ट्रेन करना बहुत महँगा है, पर आप इसे बस अपने लिए थोड़ा बदलना चाहते हैं; LoRA (Low-Rank Adaptation) मूल मॉडल को फ्रीज़ करके और सिर्फ़ एक छोटे adapter को ट्रेन करके यह इच्छा पूरी करती है, जिससे ट्रेन होने वाले parameters लगभग 90% घट जाते हैं। LoRA fine-tuning को नाटकीय रूप से सस्ता और तेज़ बनाती है, और Stable Diffusion जैसी इमेज जनरेशन में किरदार या स्टाइल जोड़ने वाली छोटी फ़ाइल के रूप में बेहद लोकप्रिय है। यह लेख इसे एक पैच की उपमा से समझाता है। LoRA, parameter-efficient fine-tuning (PEFT) की अग्रणी तकनीक है: विशाल मूल weights को frozen रखें, हर लेयर में एक छोटा matrix डालें, और सिर्फ़ उसी को ट्रेन करें (W = W0 + BA)। फ़ायदे: ~90% कम params (GPT-3 पैमाने पर 10,000x कम), कम GPU मेमोरी (~3x कम), तेज़ व सस्ती ट्रेनिंग, merge के बाद कोई inference latency नहीं, और कम overfitting। इसकी सबसे बड़ी ताक़त बदलने योग्य adapters हैं: एक साझा बेस रखें और हर उपयोग के लिए few-MB LoRA फ़ाइलें तुरंत बदलें। QLoRA, quantization को मिलाकर 4-bit बेस पर LoRA ट्रेन करती है, मानक LoRA से ~4x कम मेमोरी में, जिससे उपभोक्ता GPU पर भी विशाल मॉडल fine-tune होते हैं। बनाम full fine-tuning, LoRA अक्सर काफ़ी होती है। बेस बनाए रखें, उसे छोटे पैमाने पर स्वाद दें।