Wenn du mit einem lokalen LLM startest, ist das erste Werkzeug, das du installieren solltest, Ollama. Es nimmt dir nahezu die gesamte mühsame Einrichtung ab, sodass du ein Modell mit einem einzigen Befehl herunterladen und sofort loschatten kannst. Dieser Artikel führt dich durch Installation, Kernbefehle, Modellauswahl, GUIs, API-Nutzung, Anpassung und Fehlerbehebung – von A bis Z, für Einsteiger.

Das Fazit gleich vorweg: Ollama ist so etwas wie „Docker für LLMs". Du tippst einfach ollama run, und es lädt ein quantisiertes Modell herunter, startet es und lässt dich damit chatten. Erst zum Laufen bringen, dann – sobald du sicher bist – über die API in eigene Apps einbinden. In dieser Reihenfolge gehen wir vor.

LOCAL LLM RUNTIME

Ein Befehl, ein lokales LLM

— Es nimmt dir die mühsame Einrichtung fast vollständig ab

$ ollama pull qwen3
$ ollama run qwen3
>>> Hallo! Was kannst du?

✅ Kostenlos / OSS

🖥️ Win/Mac/Linux

🔌 Lokale API

⏱️ In Minuten einsatzbereit

1. Was ist Ollama? Die Standard-Runtime für lokale LLMs

Ollama ist ein kostenloses Open-Source-Tool, mit dem du lokale LLMs ganz einfach auf deinem eigenen PC betreiben kannst. Es erledigt den mühsamen Teil – das Herunterladen von Modellen, den Umgang mit Quantisierungsformaten, die Konfiguration der GPU-Nutzung – im Hintergrund, sodass du nur noch „ein Modell benennen und ausführen" musst.

💡 Kurz gesagt: Ollama ist „Docker für LLMs". Hol dir ein Modell mit ollama pull, chatte mit ollama run. Außerdem startet es einen lokalen API-Server, sodass auch deine eigenen Apps und Chat-Oberflächen es ansprechen können.

Ein ähnliches Werkzeug ist LM Studio. Grob gesagt: Ollama = CLI-orientiert, für Entwickler, APIs und Automatisierung; LM Studio = GUI-orientiert, für Nicht-Techniker zum Einstieg. Beide sind kostenlos und in wenigen Minuten installiert. Dieser Artikel konzentriert sich auf Ollama (das auch APIs und das Einbinden abdeckt); wenn du eine GUI möchtest, springe zu Abschnitt 5.

2. Installation (Win / Mac / Linux)

Lade dir einfach den Installer von der offiziellen Website ollama.com. Hier der Ablauf je nach Betriebssystem.

🪟 Windows / 🍎 Mac

Lade einfach die App von der offiziellen Website herunter und führe sie aus. Beim Start der App läuft auch der API-Server automatisch im Hintergrund. Danach steht der Befehl ollama in deinem Terminal (PowerShell / Terminal) zur Verfügung.

🐧 Linux

Installiere mit dem offiziellen Einzeiler-Skript. Eignet sich auch gut für den Server-Einsatz und Docker-Deployments (ein offizielles Docker-Image ist verfügbar).

🔌 Funktioniert es?: Nach der Installation sollte ollama --version eine Versionsnummer ausgeben. Dein erstes Modell ist nur eine Zeile: ollama run qwen3 (beim ersten Mal wird der Download gestartet).

3. Wichtige Befehle auf einen Blick

Es gibt nur sehr wenige Befehle zu lernen. Hier sind sie, geordnet nach Häufigkeit.

ollama run <model>

Ein Modell starten und chatten. Lädt es zuerst herunter, falls nicht vorhanden. Beenden mit /bye.

ollama pull <model>

Ein Modell nur herunterladen (kein Chat). Praktisch, um es vorab zu beschaffen.

ollama list

Heruntergeladene Modelle und ihre Größen anzeigen (ollama ls funktioniert ebenfalls).

ollama ps

Aktuell laufende (im Speicher geladene) Modelle anzeigen.

ollama rm <model>

Ein Modell löschen, um Speicherplatz freizugeben.

ollama serve

Den API-Server starten (standardmäßig localhost:11434). Auf Win/Mac automatisch beim App-Start.

4. Modelle beschaffen und auswählen

Ein Modell wird über Name + Größen-Tag angegeben. Zum Beispiel ist llama3.2 die Standardgröße und llama3.2:3b die 3B-Version. Faustregel: Wähle eine Größe, die in deinen VRAM passt.

# Ein leichtgewichtiges Modell ausprobieren (Einstieg)
ollama run gemma3:4b
# Ein solider Allrounder, stark bei mehreren Sprachen
ollama run qwen3
# Zum Programmieren
ollama run qwen3-coder

💡 Welches Modell? Entscheide nach Einsatzzweck (allgemein / Programmieren / deine Sprache) und Größe. Empfehlungen nach Modellfamilie und Einsatzzweck findest du in unserem großen Vergleich der besten lokalen LLM-Modelle; wie viel VRAM jede Größe benötigt, steht im Artikel zu den Hardware-Anforderungen. Im Zweifel klein anfangen (7B-Klasse).

5. Mit einer GUI nutzen (Open WebUI und mehr)

Kein Fan des Terminals? Kein Problem – du kannst Ollama eine Chat-Oberfläche (GUI) aufsetzen.

Open WebUI

Eine beliebte Oberfläche im ChatGPT-Stil, die du mit deinem lokalen Ollama verbindest. Unterstützt Chatverlauf, Modellwechsel und mehrere Nutzer.

Von Anfang an eine GUI? LM Studio

Eine einzige App, die Modellsuche, Download und Chat abdeckt. Ideal für Nicht-Techniker zum Einstieg. Auf Apple Silicon kann sie über das MLX-Format schnell sein.

6. Die API nutzen (in Apps einbinden)

Die wahre Stärke von Ollama liegt in seiner lokalen API. Der Server läuft unter localhost:11434, und indem du Anfragen an ihn schickst, können deine eigenen Apps, Skripte und Tools ein lokales LLM nutzen.

Native API

POST localhost:11434
 /api/chat
 /api/generate

Ollamas eigenes, einfaches Format.

OpenAI-kompatible API

POST localhost:11434
 /v1/chat/completions

Bestehenden OpenAI-Code weiterverwenden, indem du nur den Endpunkt änderst.

🔌 OpenAI-Kompatibilität ist mächtig: Viele Bibliotheken und Tools unterstützen die OpenAI-API. Richte sie auf Ollamas /v1-Endpunkt aus, und du kannst lokal statt Cloud nutzen – ein praktischer Rückfall, wenn die Cloud ausfällt.

7. Anpassen (Modelfile, Umgebungsvariablen)

Out of the box ist es schon reichlich nützlich, aber zwei Dinge solltest du kennen, wenn du weitergehen willst.

📝 Modelfile

Eine Konfigurationsdatei wie ein Dockerfile. Füge einem Basismodell einen System-Prompt und Parameter hinzu, um dein „eigenes Modell" zu erstellen (z. B. eines, das immer in höflichem Deutsch antwortet).

⚙️ Umgebungsvariablen

Passe den Betrieb mit OLLAMA_HOST (die Bind-Adresse ändern, um es von anderen Geräten im LAN aus zu nutzen), OLLAMA_MODELS (Speicherpfad der Modelle, z. B. auf ein anderes Laufwerk verschieben) und mehr an.

8. Fehlerbehebung

Hier vorab die häufigsten Stolpersteine und ihre Lösungen.

Langsam oder stockend

Wahrscheinlich passt das Modell nicht vollständig in den VRAM. Geh eine Größe kleiner oder nutze eine stärker quantisierte Version.

Abstürze wegen zu wenig Speicher

Plane mindestens 8 GB RAM für 7B, 16 GB für 13B+. Lange Eingaben verbrauchen noch mehr, also kürze die Kontextlänge.

API verbindet nicht

Prüfe, ob ollama serve läuft und Port 11434 frei ist. Läuft die App nicht, ist auch die API offline.

Modell nicht gefunden

Meist ein Tippfehler im Namen oder Größen-Tag. Prüfe den korrekten Namen in der offiziellen Modellliste.

Fazit

Ollama ist der schnellste Weg in die Welt der lokalen LLMs. Drei Erkenntnisse zum Mitnehmen:

  • In Minuten eingerichtet: von der offiziellen Website installieren, dann einfach ollama run <model>. Sehr wenige Befehle zu lernen.
  • Modelle nach Größe wählen: bleib innerhalb deines VRAM. Im Zweifel mit der 7B-Klasse beginnen und eine Modellfamilie nach Einsatzzweck wählen.
  • Die API ist der eigentliche Wert: die OpenAI-kompatible API unter localhost:11434 lässt dich es in eigene Apps und Chat-Oberflächen einbinden – und als Cloud-Rückfall dienen.

Tippe als Erstes ollama run qwen3. Am besten lernst du es, indem du es laufen lässt und dabei die Unterschiede zur Cloud und die Modellauswahl nachvollziehst.

FAQ

Q. Ist Ollama kostenlos? Darf ich es kommerziell nutzen?

A. Ollama selbst ist kostenlos und Open Source. Allerdings hat jedes Modell, das du ausführst, seine eigene Lizenz, und die kommerzielle Nutzung hängt vom Modell ab. Prüfe vor dem Produkteinsatz die Bedingungen jedes Modells (siehe den Lizenzabschnitt in unserem Modellvergleich).

Q. Ollama oder LM Studio – was ist besser?

A. Für Befehle, APIs, Automatisierung und das Einbinden in eigene Apps Ollama; wenn du unkompliziert mit einer GUI starten möchtest, LM Studio. Beide sind kostenlos – im Zweifel also beide installieren und vergleichen.

Q. Werden meine Daten nach außen gesendet?

A. Die Inferenz in Ollama bleibt vollständig auf deinem PC; deine Eingaben werden nicht nach außen gesendet (abgesehen vom anfänglichen Modell-Download). Das ist ein großer Vorteil lokaler LLMs.

Q. Kann ich es mit bestehendem OpenAI-Code nutzen?

A. Ja. Ollama stellt unter localhost:11434/v1 eine OpenAI-kompatible API bereit, sodass du in den meisten Fällen nur die Endpunkt-URL und den Modellnamen änderst. Praktisch für den Wechsel von Cloud zu lokal oder als Rückfall.

Q. Was für einen PC brauche ich?

A. Als Richtwert mindestens 8 GB RAM für 7B-Modelle und 16 GB+ für 13B und mehr. Für komfortables Arbeiten helfen eine unterstützte GPU (8 GB+ VRAM) oder ein Mac mit reichlich Unified Memory. Details findest du im Artikel zu den Hardware-Anforderungen.