जब आप लोकल LLM शुरू करते हैं, तो सबसे पहले इंस्टॉल करने लायक भरोसेमंद टूल है Ollama. यह लगभग सारी झंझट भरी सेटअप प्रक्रिया खुद संभाल लेता है, ताकि आप सिर्फ़ एक कमांड से मॉडल डाउनलोड करके चैट शुरू कर सकें. यह लेख इंस्टॉलेशन, मुख्य कमांड, मॉडल चुनना, GUI, API का उपयोग, कस्टमाइज़ेशन और समस्या-समाधान तक—शुरुआत से अंत तक, शुरुआती लोगों के लिए—सब कुछ समझाता है.

निष्कर्ष पहले: Ollama "LLM के लिए Docker" जैसा है. बस ollama run टाइप करें और यह एक क्वांटाइज़्ड मॉडल को फ़ेच करता है, लॉन्च करता है और आपको चैट करने देता है. पहले इसे चलाएँ, फिर—जब आप सहज हो जाएँ—API के ज़रिए इसे अपने ऐप्स में एम्बेड करें. हम इसी क्रम में समझाएँगे.

LOCAL LLM RUNTIME

एक कमांड, एक लोकल LLM

— यह लगभग सारी सेटअप की झंझट खुद संभाल लेता है

$ ollama pull qwen3
$ ollama run qwen3
>>> नमस्ते! आप क्या कर सकते हैं?

✅ मुफ़्त / OSS

🖥️ Win/Mac/Linux

🔌 लोकल API

⏱️ कुछ मिनटों में सेटअप

1. Ollama क्या है? लोकल LLM का सबसे लोकप्रिय रनटाइम

Ollama एक मुफ़्त, ओपन-सोर्स टूल है जो आपके अपने PC पर लोकल LLM को आसानी से चलाने के लिए बना है. यह झंझट—मॉडल डाउनलोड करना, क्वांटाइज़ेशन फ़ॉर्मैट संभालना, GPU उपयोग कॉन्फ़िगर करना—सब पर्दे के पीछे संभाल लेता है, इसलिए आपको बस "एक मॉडल का नाम बताकर उसे चलाना" होता है.

💡 संक्षेप में: Ollama "LLM के लिए Docker" है. ollama pull से मॉडल फ़ेच करें, ollama run से चैट करें. यह एक लोकल API सर्वर भी चालू कर देता है, ताकि आपके अपने ऐप्स और चैट UI भी इसे कॉल कर सकें.

एक मिलता-जुलता टूल है LM Studio. मोटे तौर पर: Ollama = CLI-पहले, डेवलपर्स, API और ऑटोमेशन के लिए; LM Studio = GUI-पहले, गैर-इंजीनियरों के शुरू करने के लिए. दोनों मुफ़्त हैं और कुछ ही मिनटों में इंस्टॉल हो जाते हैं. यह लेख Ollama पर केंद्रित है (जो API और एम्बेडिंग को भी कवर करता है); अगर आपको GUI चाहिए, तो सीधे सेक्शन 5 पर जाएँ.

2. इंस्टॉलेशन (Win / Mac / Linux)

बस आधिकारिक साइट ollama.com से इंस्टॉलर लें. हर OS के लिए तरीका यहाँ दिया गया है.

🪟 Windows / 🍎 Mac

बस आधिकारिक साइट से ऐप डाउनलोड करें और चलाएँ. ऐप लॉन्च करते ही पृष्ठभूमि में API सर्वर भी शुरू हो जाता है. इसके बाद आपके टर्मिनल (PowerShell / Terminal) में ollama कमांड उपलब्ध रहता है.

🐧 Linux

आधिकारिक एक-लाइन स्क्रिप्ट से इंस्टॉल करें. यह सर्वर उपयोग और Docker डिप्लॉयमेंट के लिए भी उपयुक्त है (एक आधिकारिक Docker इमेज उपलब्ध है).

🔌 जाँचें कि सब चल रहा है: इंस्टॉल करने के बाद, ollama --version से एक वर्शन दिखना चाहिए. आपका पहला मॉडल बस एक लाइन है: ollama run qwen3 (पहली बार चलाने पर डाउनलोड शुरू होता है).

3. ज़रूरी कमांड एक नज़र में

सीखने के लिए बहुत कम कमांड हैं. यहाँ वे सबसे ज़्यादा इस्तेमाल होने वाले क्रम में दिए गए हैं.

ollama run <model>

एक मॉडल लॉन्च करें और चैट करें. मौजूद न हो तो पहले डाउनलोड करता है. बाहर निकलने के लिए /bye.

ollama pull <model>

सिर्फ़ मॉडल डाउनलोड करें (चैट नहीं). पहले से फ़ेच करने के लिए सुविधाजनक.

ollama list

डाउनलोड किए गए मॉडल और उनके आकार दिखाएँ (ollama ls भी चलता है).

ollama ps

अभी चल रहे (मेमोरी में लोड) मॉडल दिखाएँ.

ollama rm <model>

डिस्क स्थान खाली करने के लिए एक मॉडल हटाएँ.

ollama serve

API सर्वर शुरू करें (डिफ़ॉल्ट localhost:11434). Win/Mac पर ऐप लॉन्च होने पर अपने आप.

4. मॉडल लाना और चुनना

एक मॉडल को नाम + आकार टैग से निर्दिष्ट करें. उदाहरण के लिए, llama3.2 मानक आकार है, और llama3.2:3b 3B वर्शन है. सामान्य नियम: ऐसा आकार चुनें जो आपके VRAM में समा जाए.

# एक हल्का मॉडल आज़माएँ (शुरुआती)
ollama run gemma3:4b
# एक मज़बूत ऑल-राउंडर, बेहतरीन बहुभाषी
ollama run qwen3
# कोडिंग के लिए
ollama run qwen3-coder

💡 कौन-सा मॉडल? उपयोग के अनुसार तय करें (सामान्य / कोडिंग / आपकी भाषा) और आकार के अनुसार. वंश और उपयोग के अनुसार चुनाव के लिए, देखें हमारी सर्वश्रेष्ठ लोकल LLM मॉडल तुलना; हर आकार को कितने VRAM की ज़रूरत है, इसके लिए देखें हार्डवेयर आवश्यकताओं वाला लेख. अनिश्चित हों तो छोटे से शुरू करें (7B श्रेणी).

5. GUI के साथ उपयोग (Open WebUI और अन्य)

टर्मिनल पसंद नहीं? कोई बात नहीं—आप Ollama के ऊपर एक चैट स्क्रीन (GUI) लगा सकते हैं.

Open WebUI

एक लोकप्रिय ChatGPT-शैली की स्क्रीन जिसे आप अपने लोकल Ollama से जोड़ते हैं. चैट इतिहास, मॉडल स्विचिंग और कई उपयोगकर्ताओं का समर्थन करती है.

शुरू से ही GUI चाहिए? LM Studio

एक ही ऐप जो मॉडल खोज, डाउनलोड और चैट संभालता है. गैर-इंजीनियरों के शुरू करने के लिए आदर्श. Apple Silicon पर यह MLX फ़ॉर्मैट के ज़रिए तेज़ हो सकता है.

6. API का उपयोग (ऐप्स में एम्बेड करें)

Ollama की असली ताक़त इसका लोकल API है. सर्वर localhost:11434 पर चलता है, और इसे रिक्वेस्ट भेजकर आपके अपने ऐप्स, स्क्रिप्ट और टूल एक लोकल LLM का उपयोग कर सकते हैं.

नेटिव API

POST localhost:11434
 /api/chat
 /api/generate

Ollama का अपना सरल फ़ॉर्मैट.

OpenAI-संगत API

POST localhost:11434
 /v1/chat/completions

मौजूदा OpenAI कोड को सिर्फ़ एंडपॉइंट बदलकर दोबारा इस्तेमाल करें.

🔌 OpenAI संगतता ताक़तवर है: कई लाइब्रेरी और टूल OpenAI API का समर्थन करते हैं. उन्हें Ollama के /v1 एंडपॉइंट पर इंगित करें और आप क्लाउड के बजाय लोकल का उपयोग कर सकते हैं—एक सुविधाजनक फ़ॉलबैक जब क्लाउड बंद हो जाए.

7. कस्टमाइज़ेशन (Modelfile, एनवायरनमेंट वेरिएबल)

यह डिफ़ॉल्ट रूप में ही काफ़ी उपयोगी है, लेकिन आगे बढ़ना चाहें तो दो चीज़ें जानने लायक हैं.

📝 Modelfile

Dockerfile जैसी एक कॉन्फ़िग फ़ाइल. एक बेस मॉडल में सिस्टम प्रॉम्प्ट और पैरामीटर जोड़कर "अपना खुद का मॉडल" बनाएँ (उदाहरण के लिए, ऐसा जो हमेशा विनम्र भाषा में जवाब दे).

⚙️ एनवायरनमेंट वेरिएबल

OLLAMA_HOST (बाइंड पता बदलें ताकि अपने LAN के अन्य उपकरणों से इसका उपयोग कर सकें), OLLAMA_MODELS (मॉडल भंडारण पथ, जैसे किसी अन्य ड्राइव पर ले जाना), और बहुत कुछ के साथ संचालन को ट्यून करें.

8. समस्या-समाधान

यहाँ आम अड़चनें और उनके समाधान पहले ही दे दिए गए हैं.

धीमा या अटक रहा है

संभवतः मॉडल पूरी तरह VRAM में नहीं समाता. एक आकार छोटा चुनें, या ज़्यादा क्वांटाइज़्ड वर्शन इस्तेमाल करें.

कम मेमोरी से क्रैश

7B के लिए कम से कम 8 GB RAM, 13B+ के लिए 16 GB रखें. लंबे इनपुट और भी ज़्यादा उपयोग करते हैं, इसलिए कॉन्टेक्स्ट लंबाई छोटी करें.

API कनेक्ट नहीं होता

जाँचें कि ollama serve चल रहा है और पोर्ट 11434 खाली है. अगर ऐप नहीं चल रहा, तो API भी बंद रहेगा.

मॉडल नहीं मिला

आमतौर पर नाम या आकार टैग में टाइपो होता है. सही नाम आधिकारिक मॉडल सूची में जाँचें.

सारांश

Ollama लोकल LLM में उतरने का सबसे तेज़ रास्ता है. तीन मुख्य बातें:

  • कुछ मिनटों में सेटअप: आधिकारिक साइट से इंस्टॉल करें, फिर बस ollama run <model>. सीखने के लिए बहुत कम कमांड.
  • मॉडल आकार के अनुसार चुनें: अपने VRAM के भीतर रहें. अनिश्चित हों तो 7B श्रेणी से शुरू करें और उपयोग के अनुसार वंश चुनें.
  • API ही असली मूल्य है: localhost:11434 पर OpenAI-संगत API आपको इसे अपने ऐप्स और चैट UI में एम्बेड करने देता है—और क्लाउड फ़ॉलबैक के रूप में भी काम आता है.

शुरुआत ollama run qwen3 टाइप करके करें. सीखने का सबसे अच्छा तरीका है इसे चलाते हुए क्लाउड से अंतर और मॉडल कैसे चुनें को परखना.

FAQ

Q. क्या Ollama मुफ़्त है? क्या मैं इसे व्यावसायिक रूप से इस्तेमाल कर सकता हूँ?

A. Ollama खुद मुफ़्त और ओपन-सोर्स है. हालाँकि, आप जो भी मॉडल चलाते हैं उसका अपना लाइसेंस होता है, और व्यावसायिक उपयोग मॉडल पर निर्भर करता है. उत्पाद में उपयोग से पहले हर मॉडल की शर्तें जाँचें (देखें हमारी मॉडल तुलना का लाइसेंसिंग सेक्शन).

Q. Ollama या LM Studio—कौन बेहतर है?

A. कमांड, API, ऑटोमेशन और अपने ऐप्स में एम्बेड करने के लिए Ollama; अगर आप GUI के साथ आसानी से शुरू करना चाहते हैं तो LM Studio. दोनों मुफ़्त हैं, इसलिए अनिश्चित हों तो दोनों इंस्टॉल करके तुलना करें.

Q. क्या मेरा डेटा बाहर भेजा जाता है?

A. Ollama में इनफ़रेंस पूरी तरह आपके PC पर ही रहता है; आपका इनपुट बाहर नहीं भेजा जाता (शुरुआती मॉडल डाउनलोड को छोड़कर). यह लोकल LLM का एक बड़ा फ़ायदा है.

Q. क्या मैं इसे मौजूदा OpenAI कोड के साथ इस्तेमाल कर सकता हूँ?

A. हाँ. Ollama localhost:11434/v1 पर एक OpenAI-संगत API उपलब्ध कराता है, इसलिए ज़्यादातर मामलों में आप सिर्फ़ एंडपॉइंट URL और मॉडल का नाम बदलते हैं. क्लाउड से लोकल पर स्विच करने, या फ़ॉलबैक के लिए सुविधाजनक.

Q. मुझे किस तरह के PC की ज़रूरत है?

A. एक मार्गदर्शन के तौर पर, 7B मॉडल के लिए कम से कम 8 GB RAM और 13B व उससे ऊपर के लिए 16 GB+. आराम के लिए, एक समर्थित GPU (8 GB+ VRAM) या पर्याप्त यूनिफ़ाइड मेमोरी वाला Mac मददगार होता है. विस्तार के लिए देखें हार्डवेयर आवश्यकताओं वाला लेख.