विषय-सूची
जब आप लोकल LLM शुरू करते हैं, तो सबसे पहले इंस्टॉल करने लायक भरोसेमंद टूल है Ollama. यह लगभग सारी झंझट भरी सेटअप प्रक्रिया खुद संभाल लेता है, ताकि आप सिर्फ़ एक कमांड से मॉडल डाउनलोड करके चैट शुरू कर सकें. यह लेख इंस्टॉलेशन, मुख्य कमांड, मॉडल चुनना, GUI, API का उपयोग, कस्टमाइज़ेशन और समस्या-समाधान तक—शुरुआत से अंत तक, शुरुआती लोगों के लिए—सब कुछ समझाता है.
निष्कर्ष पहले: Ollama "LLM के लिए Docker" जैसा है. बस ollama run टाइप करें और यह एक क्वांटाइज़्ड मॉडल को फ़ेच करता है, लॉन्च करता है और आपको चैट करने देता है. पहले इसे चलाएँ, फिर—जब आप सहज हो जाएँ—API के ज़रिए इसे अपने ऐप्स में एम्बेड करें. हम इसी क्रम में समझाएँगे.
एक कमांड, एक लोकल LLM
— यह लगभग सारी सेटअप की झंझट खुद संभाल लेता है
✅ मुफ़्त / OSS
🖥️ Win/Mac/Linux
🔌 लोकल API
⏱️ कुछ मिनटों में सेटअप
1. Ollama क्या है? लोकल LLM का सबसे लोकप्रिय रनटाइम
Ollama एक मुफ़्त, ओपन-सोर्स टूल है जो आपके अपने PC पर लोकल LLM को आसानी से चलाने के लिए बना है. यह झंझट—मॉडल डाउनलोड करना, क्वांटाइज़ेशन फ़ॉर्मैट संभालना, GPU उपयोग कॉन्फ़िगर करना—सब पर्दे के पीछे संभाल लेता है, इसलिए आपको बस "एक मॉडल का नाम बताकर उसे चलाना" होता है.
💡 संक्षेप में: Ollama "LLM के लिए Docker" है. ollama pull से मॉडल फ़ेच करें, ollama run से चैट करें. यह एक लोकल API सर्वर भी चालू कर देता है, ताकि आपके अपने ऐप्स और चैट UI भी इसे कॉल कर सकें.
एक मिलता-जुलता टूल है LM Studio. मोटे तौर पर: Ollama = CLI-पहले, डेवलपर्स, API और ऑटोमेशन के लिए; LM Studio = GUI-पहले, गैर-इंजीनियरों के शुरू करने के लिए. दोनों मुफ़्त हैं और कुछ ही मिनटों में इंस्टॉल हो जाते हैं. यह लेख Ollama पर केंद्रित है (जो API और एम्बेडिंग को भी कवर करता है); अगर आपको GUI चाहिए, तो सीधे सेक्शन 5 पर जाएँ.
2. इंस्टॉलेशन (Win / Mac / Linux)
बस आधिकारिक साइट ollama.com से इंस्टॉलर लें. हर OS के लिए तरीका यहाँ दिया गया है.
🪟 Windows / 🍎 Mac
बस आधिकारिक साइट से ऐप डाउनलोड करें और चलाएँ. ऐप लॉन्च करते ही पृष्ठभूमि में API सर्वर भी शुरू हो जाता है. इसके बाद आपके टर्मिनल (PowerShell / Terminal) में ollama कमांड उपलब्ध रहता है.
🐧 Linux
आधिकारिक एक-लाइन स्क्रिप्ट से इंस्टॉल करें. यह सर्वर उपयोग और Docker डिप्लॉयमेंट के लिए भी उपयुक्त है (एक आधिकारिक Docker इमेज उपलब्ध है).
🔌 जाँचें कि सब चल रहा है: इंस्टॉल करने के बाद, ollama --version से एक वर्शन दिखना चाहिए. आपका पहला मॉडल बस एक लाइन है: ollama run qwen3 (पहली बार चलाने पर डाउनलोड शुरू होता है).
3. ज़रूरी कमांड एक नज़र में
सीखने के लिए बहुत कम कमांड हैं. यहाँ वे सबसे ज़्यादा इस्तेमाल होने वाले क्रम में दिए गए हैं.
ollama run <model>
एक मॉडल लॉन्च करें और चैट करें. मौजूद न हो तो पहले डाउनलोड करता है. बाहर निकलने के लिए /bye.
ollama pull <model>
सिर्फ़ मॉडल डाउनलोड करें (चैट नहीं). पहले से फ़ेच करने के लिए सुविधाजनक.
ollama list
डाउनलोड किए गए मॉडल और उनके आकार दिखाएँ (ollama ls भी चलता है).
ollama ps
अभी चल रहे (मेमोरी में लोड) मॉडल दिखाएँ.
ollama rm <model>
डिस्क स्थान खाली करने के लिए एक मॉडल हटाएँ.
ollama serve
API सर्वर शुरू करें (डिफ़ॉल्ट localhost:11434). Win/Mac पर ऐप लॉन्च होने पर अपने आप.
4. मॉडल लाना और चुनना
एक मॉडल को नाम + आकार टैग से निर्दिष्ट करें. उदाहरण के लिए, llama3.2 मानक आकार है, और llama3.2:3b 3B वर्शन है. सामान्य नियम: ऐसा आकार चुनें जो आपके VRAM में समा जाए.
💡 कौन-सा मॉडल? उपयोग के अनुसार तय करें (सामान्य / कोडिंग / आपकी भाषा) और आकार के अनुसार. वंश और उपयोग के अनुसार चुनाव के लिए, देखें हमारी सर्वश्रेष्ठ लोकल LLM मॉडल तुलना; हर आकार को कितने VRAM की ज़रूरत है, इसके लिए देखें हार्डवेयर आवश्यकताओं वाला लेख. अनिश्चित हों तो छोटे से शुरू करें (7B श्रेणी).
5. GUI के साथ उपयोग (Open WebUI और अन्य)
टर्मिनल पसंद नहीं? कोई बात नहीं—आप Ollama के ऊपर एक चैट स्क्रीन (GUI) लगा सकते हैं.
एक लोकप्रिय ChatGPT-शैली की स्क्रीन जिसे आप अपने लोकल Ollama से जोड़ते हैं. चैट इतिहास, मॉडल स्विचिंग और कई उपयोगकर्ताओं का समर्थन करती है.
शुरू से ही GUI चाहिए? LM Studio
एक ही ऐप जो मॉडल खोज, डाउनलोड और चैट संभालता है. गैर-इंजीनियरों के शुरू करने के लिए आदर्श. Apple Silicon पर यह MLX फ़ॉर्मैट के ज़रिए तेज़ हो सकता है.
6. API का उपयोग (ऐप्स में एम्बेड करें)
Ollama की असली ताक़त इसका लोकल API है. सर्वर localhost:11434 पर चलता है, और इसे रिक्वेस्ट भेजकर आपके अपने ऐप्स, स्क्रिप्ट और टूल एक लोकल LLM का उपयोग कर सकते हैं.
नेटिव API
POST localhost:11434
/api/chat
/api/generate
Ollama का अपना सरल फ़ॉर्मैट.
OpenAI-संगत API
POST localhost:11434
/v1/chat/completions
मौजूदा OpenAI कोड को सिर्फ़ एंडपॉइंट बदलकर दोबारा इस्तेमाल करें.
🔌 OpenAI संगतता ताक़तवर है: कई लाइब्रेरी और टूल OpenAI API का समर्थन करते हैं. उन्हें Ollama के /v1 एंडपॉइंट पर इंगित करें और आप क्लाउड के बजाय लोकल का उपयोग कर सकते हैं—एक सुविधाजनक फ़ॉलबैक जब क्लाउड बंद हो जाए.
7. कस्टमाइज़ेशन (Modelfile, एनवायरनमेंट वेरिएबल)
यह डिफ़ॉल्ट रूप में ही काफ़ी उपयोगी है, लेकिन आगे बढ़ना चाहें तो दो चीज़ें जानने लायक हैं.
📝 Modelfile
Dockerfile जैसी एक कॉन्फ़िग फ़ाइल. एक बेस मॉडल में सिस्टम प्रॉम्प्ट और पैरामीटर जोड़कर "अपना खुद का मॉडल" बनाएँ (उदाहरण के लिए, ऐसा जो हमेशा विनम्र भाषा में जवाब दे).
⚙️ एनवायरनमेंट वेरिएबल
OLLAMA_HOST (बाइंड पता बदलें ताकि अपने LAN के अन्य उपकरणों से इसका उपयोग कर सकें), OLLAMA_MODELS (मॉडल भंडारण पथ, जैसे किसी अन्य ड्राइव पर ले जाना), और बहुत कुछ के साथ संचालन को ट्यून करें.
8. समस्या-समाधान
यहाँ आम अड़चनें और उनके समाधान पहले ही दे दिए गए हैं.
धीमा या अटक रहा है
संभवतः मॉडल पूरी तरह VRAM में नहीं समाता. एक आकार छोटा चुनें, या ज़्यादा क्वांटाइज़्ड वर्शन इस्तेमाल करें.
कम मेमोरी से क्रैश
7B के लिए कम से कम 8 GB RAM, 13B+ के लिए 16 GB रखें. लंबे इनपुट और भी ज़्यादा उपयोग करते हैं, इसलिए कॉन्टेक्स्ट लंबाई छोटी करें.
API कनेक्ट नहीं होता
जाँचें कि ollama serve चल रहा है और पोर्ट 11434 खाली है. अगर ऐप नहीं चल रहा, तो API भी बंद रहेगा.
मॉडल नहीं मिला
आमतौर पर नाम या आकार टैग में टाइपो होता है. सही नाम आधिकारिक मॉडल सूची में जाँचें.
सारांश
Ollama लोकल LLM में उतरने का सबसे तेज़ रास्ता है. तीन मुख्य बातें:
- कुछ मिनटों में सेटअप: आधिकारिक साइट से इंस्टॉल करें, फिर बस
ollama run <model>. सीखने के लिए बहुत कम कमांड. - मॉडल आकार के अनुसार चुनें: अपने VRAM के भीतर रहें. अनिश्चित हों तो 7B श्रेणी से शुरू करें और उपयोग के अनुसार वंश चुनें.
- API ही असली मूल्य है:
localhost:11434पर OpenAI-संगत API आपको इसे अपने ऐप्स और चैट UI में एम्बेड करने देता है—और क्लाउड फ़ॉलबैक के रूप में भी काम आता है.
शुरुआत ollama run qwen3 टाइप करके करें. सीखने का सबसे अच्छा तरीका है इसे चलाते हुए क्लाउड से अंतर और मॉडल कैसे चुनें को परखना.
FAQ
Q. क्या Ollama मुफ़्त है? क्या मैं इसे व्यावसायिक रूप से इस्तेमाल कर सकता हूँ?
A. Ollama खुद मुफ़्त और ओपन-सोर्स है. हालाँकि, आप जो भी मॉडल चलाते हैं उसका अपना लाइसेंस होता है, और व्यावसायिक उपयोग मॉडल पर निर्भर करता है. उत्पाद में उपयोग से पहले हर मॉडल की शर्तें जाँचें (देखें हमारी मॉडल तुलना का लाइसेंसिंग सेक्शन).
Q. Ollama या LM Studio—कौन बेहतर है?
A. कमांड, API, ऑटोमेशन और अपने ऐप्स में एम्बेड करने के लिए Ollama; अगर आप GUI के साथ आसानी से शुरू करना चाहते हैं तो LM Studio. दोनों मुफ़्त हैं, इसलिए अनिश्चित हों तो दोनों इंस्टॉल करके तुलना करें.
Q. क्या मेरा डेटा बाहर भेजा जाता है?
A. Ollama में इनफ़रेंस पूरी तरह आपके PC पर ही रहता है; आपका इनपुट बाहर नहीं भेजा जाता (शुरुआती मॉडल डाउनलोड को छोड़कर). यह लोकल LLM का एक बड़ा फ़ायदा है.
Q. क्या मैं इसे मौजूदा OpenAI कोड के साथ इस्तेमाल कर सकता हूँ?
A. हाँ. Ollama localhost:11434/v1 पर एक OpenAI-संगत API उपलब्ध कराता है, इसलिए ज़्यादातर मामलों में आप सिर्फ़ एंडपॉइंट URL और मॉडल का नाम बदलते हैं. क्लाउड से लोकल पर स्विच करने, या फ़ॉलबैक के लिए सुविधाजनक.
Q. मुझे किस तरह के PC की ज़रूरत है?
A. एक मार्गदर्शन के तौर पर, 7B मॉडल के लिए कम से कम 8 GB RAM और 13B व उससे ऊपर के लिए 16 GB+. आराम के लिए, एक समर्थित GPU (8 GB+ VRAM) या पर्याप्त यूनिफ़ाइड मेमोरी वाला Mac मददगार होता है. विस्तार के लिए देखें हार्डवेयर आवश्यकताओं वाला लेख.