Sobald du eine Umgebung hast, um ein lokales LLM zu betreiben, kommt die nächste Frage: „Welches Modell sollte ich eigentlich installieren?“ Llama, Qwen, Gemma, DeepSeek – es gibt viele Namen, und die Firmen und Länder dahinter unterscheiden sich ebenfalls. Dieser Artikel ordnet die wichtigsten Modelle von 2026 nach Entwickler, Herkunftsland, Einsatzzweck, Größe und Lizenz, damit du das „erste Modell“ findest, das zu deinem PC und deinen Zielen passt.

Zuerst eine wichtige Voraussetzung. Offene Modelle werden sehr schnell aktualisiert (die Versionen steigen unter demselben Namen ständig). Deshalb baut dieser Artikel auf „Familien (Linien) + Auswahl nach Einsatzzweck“ auf. So bleibt der Denkansatz auch dann gültig, wenn eine neue Version erscheint. Bestätige die neueste Version und Lizenz immer beim Anbieter (Ollama / Hugging Face).

LOCAL LLM · MODELS

Nicht „das stärkste“, sondern „das richtige für dich“

— Entwickler, Land, Einsatzzweck und Größe grenzen es ein

🇺🇸

USA

Llama / Gemma / Phi

🇨🇳

China

Qwen / DeepSeek / GLM

🇪🇺

Europa

Mistral / Teuken

🌍

& mehr

VAE / Indien / Japan

1. Das Fazit vorweg: keinen einzelnen Sieger – nach Einsatz × Größe (+ Herkunft) wählen

Das Fazit gleich zu Beginn: Es gibt kein Allzweckmodell, das du „einfach installierst und fertig“ bist. Für den lokalen Betrieb grenzt du es über diese drei Punkte ein.

💡 Drei Achsen für die Auswahl: ① Größe (die Obergrenze, die in deinen VRAM passt) = die Kappung der Kandidaten. ② Einsatzzweck (Allzweck, Coding, deine Sprache, Reasoning) = welche Linie passt. ③ Herkunftsland / Entwickler (Lizenz, Beschaffungsrichtlinien, Sprachstärken) = nicht zu ignorieren, wenn du es bei der Arbeit nutzt.

2. Die wichtigsten Modellfamilien (mit Entwickler & Land)

Die lokale-LLM-Szene 2026 lässt sich auf einige große Familien (Linien) herunterbrechen. Wenn du weißt, wer sie baut und in welchem Land, fällt die Wahl deutlich leichter. Zuvor zwei Begriffe, die in den Karten unten auftauchen.

📖 Kurzes Glossar

B (Parameterzahl) = die Einheit für die Größe eines Modells. „B“ steht für „Milliarde“, also bedeutet 7B = 7 Milliarden, 70B = 70 Milliarden Parameter. Größer ist tendenziell klüger, aber auch schwerer (mehr VRAM-Verbrauch).

MoE (Mixture of Experts) = statt jedes Mal alles laufen zu lassen, werden pro Eingabe nur einige „Experten“ aktiviert. So kann die Gesamtgröße riesig sein, während der tatsächlich laufende Teil leicht und effizient bleibt.

Qwen

🇨🇳 Entwickler: Alibaba (China) / meist Apache 2.0

Hohe Allround-Fähigkeit und stark bei CJK (Chinesisch/Japanisch/Koreanisch). Größen von 3B bis hunderte B (MoE), mit coding-spezialisierten Varianten. Für viele die erste Wahl. Beispiel: Qwen3-Serie.

Llama

🇺🇸 Entwickler: Meta (USA) / eigene Lizenz (prüfen)

Der am weitesten verbreitete, informationsreiche Standard. Reichlich Beispiele und Know-how, sodass sich Dinge leicht nachschlagen lassen. Ein stabiler Allrounder. Beispiel: Llama-3.x-/4-Serie.

Gemma

🇺🇸 Entwickler: Google (USA) / Gemma-Lizenz

Leichtgewichtig und effizient, mit hoher Qualität selbst in kleinen bis mittleren Größen. Es gibt multimodale Varianten. Eine starke Wahl für schwächere PCs. Beispiel: Gemma-3-Serie.

DeepSeek

🇨🇳 Entwickler: DeepSeek (China) / R1 ist MIT usw.

Stark bei Reasoning und Coding. Destillierte kleine Versionen existieren, sodass du „Klugheit“ auch mit begrenztem VRAM verfolgen kannst. Beispiel: DeepSeek-R1-/V3-Serie.

Mistral

🇫🇷 Entwickler: Mistral AI (Frankreich / Europa)

Mittelgroß, flott und ausgewogen. Ein Aushängeschild der europäischen „souveränen KI“. Die kleineren sind oft Apache 2.0. Beispiel: Mistral Small usw.

Phi

🇺🇸 Entwickler: Microsoft (USA) / MIT

Ein Spezialist für kleine Modelle (SLM), dessen Verkaufsargument darin besteht, trotz geringer Größe klug zu sein. Läuft leicht auf schwachen PCs/Laptops der 8-GB-Klasse – ideal für den Einstieg. Beispiel: Phi-4-Serie.

Darüber hinaus gibt es GLM (🇨🇳 Zhipu AI, aus Tsinghua – hoch bewertet für Coding), Falcon (🇦🇪 TII der VAE) und Command (🇨🇦 Cohere – gut für RAG). Beginne mit der großen Linie, die deinem Einsatzzweck am nächsten kommt.

3. Was ändert sich je nach Herkunftsland?

„Aus welchem Land das Modell stammt“ erzeugt praktische Unterschiede, die man an der Leistung allein nicht erkennt. Um ein verbreitetes Missverständnis zu vermeiden, beginnen wir mit der entscheidenden Voraussetzung.

Die entscheidende Voraussetzung: Solange du es lokal betreibst, werden deine Eingabedaten nicht nach außen gesendet (in das Land des Entwicklers). Das ist der größte Vorteil eines lokalen LLM. „Ein chinesisches Modell = deine Eingabe geht nach China“ stimmt also nicht (das ist anders als bei einer Cloud-API). Die Herkunft zählt vor allem in den drei Punkten unten.

⚖️

Lizenz & kommerzielle Bedingungen

Die Bedingungen unterscheiden sich je nach Entwickler. Apache 2.0 / MIT sind freizügig; eigene Lizenzen können Größe oder Nutzung einschränken oder eine Namensnennung verlangen. Vor dem Produkteinsatz prüfen.

🏛️

Organisations- / Behördenrichtlinien

Behörden und große Firmen können Regeln dazu haben, „ob KI aus einem bestimmten Land erlaubt ist“. Behandle es als Beschaffungs- / Compliance-Punkt zum Abklären.

🗣️

Sprach- & Kulturstärken

Tendenzen der Trainingsdaten prägen, welche Sprachen ein Modell gut beherrscht. Chinesische Modelle sind stark bei CJK; lokal entwickelte Modelle punkten oft mit den Nuancen der eigenen Sprache.

Ein grober „Nationalcharakter“: 🇺🇸 USA = das größte Ökosystem, informationsreich, allgemein leicht zu handhaben. 🇨🇳 China = vorn bei Leistung und Effizienz, viele freizügige Lizenzen, aber manche Organisationen müssen die Einsatzrichtlinie prüfen. 🇪🇺 Europa = eine regulierungsbewusste Haltung der „souveränen KI“, ausgewogen. Andere Regionen = auf die eigene Sprache abgestimmte Modelle (nächster Abschnitt).

4. Deutsche und europäische Modelle

Wenn du hauptsächlich auf Deutsch arbeitest, lohnt sich ein Blick auf Modelle, die für die deutsche Sprache und den europäischen Raum entwickelt oder feinabgestimmt wurden. Sie punkten oft mit der Natürlichkeit der Sprache und lassen sich für Organisationen mit einer Präferenz für „souveräne KI“ leichter einführen. Hier ein Überblick über bemerkenswerte offene Projekte aus Deutschland und Europa.

🇩🇪 Deutschland

Teuken-7B (Projekt OpenGPT-X, u. a. von Fraunhofer, auf allen 24 EU-Amtssprachen trainiert) und Aleph Alpha (Pharia-Modelle; 2026 mit Cohere zusammengeführt). Stark mit Fokus auf europäische Sprachen und Souveränität.

🇩🇪 Deutschsprachige Feintunings

LeoLM und DiscoLM sind Llama-Feintunings mit deutschem Schwerpunkt. Sie setzen auf eine ausländische Basis und stärken Deutsch, um die Praxistauglichkeit zu erhöhen.

🇪🇺 Europäische Nachbarn

Mistral (Frankreich) ist eine weitere lokale/regionale Option mit guter Mehrsprachigkeit. Hinzu kommen Salamandra / ALIA (Spanien, Barcelona Supercomputing Center) als „souveräne KI“ aus Europa.

💡 Faustregel: Für reine Allround-Stärke eine globale Familie wie Qwen; wenn dir die Natürlichkeit des Deutschen, Souveränitätsanforderungen oder die Nachvollziehbarkeit für den öffentlichen/geschäftlichen Einsatz wichtiger sind, ein deutsches/europäisches Modell. Probiere beide mit demselben Prompt aus und vergleiche (Version und Lizenz beim Anbieter prüfen).

5. Empfehlungen nach Größe (konkrete Modelle)

Dein VRAM entscheidet über den Bereich, den du betreiben kannst. Hier die „Sweet Spots“ je Größenband, mit konkreten Beispielen (alle unter der Annahme von Q4-Quantisierung).

~4B (sehr klein)

VRAM ~6 GB / Einstieg & Laptops

Phi-4 mini, Gemma 3 4B, Qwen3 4B, Llama 3.2 3B usw. Für Chat, Zusammenfassen, leichte Arbeit. Fang hier an.

7B–14B (Standard)

VRAM 8–12 GB / das tägliche Arbeitspferd

Qwen3 7B/14B, Llama 8B, Gemma 12B usw. Bestes Verhältnis von Qualität und Leichtigkeit. Ein hervorragendes erstes Alltagsmodell.

32B-Klasse (gehoben)

VRAM 24 GB / solider Praxiseinsatz

Qwen Coder 32B, mittelgroßes Mistral, DeepSeek-Destillate usw. Verlässliche Qualität für Coding und anspruchsvolle Arbeit.

70B+ (ernsthaft)

VRAM 40 GB+ / Mac mit viel Speicher · Multi-GPU

Llama 70B, große DeepSeek, Qwen 72B usw. Qualität, die sich der mittleren Cloud-Klasse annähert.

6. Empfehlungen nach Einsatzzweck

Wähle die Linie danach, „wofür du sie brauchst“. Hier die Linien, die zu typischen Einsatzzwecken passen.

🧩 Allzweck / alles Mögliche

Qwen (🇨🇳) oder Llama (🇺🇸). Wenn du unsicher bist, beginne mit einer Größenvariante dieser zwei. Viele Infos, schwer falsch zu machen.

💻 Coding

Qwen Coder, DeepSeek, GLM (alles 🇨🇳-Stärken). Die Qualität springt nach oben, wenn eine 32B-Klasse passt.

🌐 Deine Sprache / mehrsprachig

Qwen (stark bei CJK) oder ein deutsches/regionales Modell, das auf deine Sprache abgestimmt ist (siehe Abschnitt 4). Für Natürlichkeit gewinnt oft die regionale Wahl.

🧠 Reasoning / Denken

DeepSeek-Reasoning-Modelle oder „Thinking“-fähige Varianten der jeweiligen Linie. Stark bei schweren Problemen und Planung.

🪶 Schwache Hardware / leichtgewichtig

Phi (🇺🇸) oder Gemma (🇺🇸) als kleine Modelle oder Qwen/Llama 3–4B. Flott selbst in der 8-GB-Klasse.

📚 Lange Dokumente

Eine Linie mit langer Kontextlänge (z. B. Long-Context-Varianten von Llama). Achte aber auf die Speicherkosten.

💡 Was für die meisten funktioniert: mit „dem größten Qwen, das in deinen VRAM passt“ – oder einem regionalen Modell in deiner Sprache – zu beginnen, enttäuscht selten. Reicht es nicht aus, wechsle zu einer spezialisierten Variante (Coder usw.) oder einer größeren Größe.

7. Hinweise zur Lizenzierung (kommerzielle Nutzung)

Wenn du es bei der Arbeit oder in einem Produkt nutzt, darf die Lizenzierung nicht übersehen werden. Selbst „offen“ kommt mit unterschiedlichen Bedingungen. Bestätige die kommerzielle Nutzung und die Bedingungen immer beim Anbieter.

✅ Freizügig (einfach für kommerzielle Nutzung)

Die Apache-2.0-/MIT-Familie (z. B. Qwen, Gemma※, Phi, ein Großteil von DeepSeek). Einfache kommerzielle Nutzung, hohe Freiheit zur Einbettung in Produkte.

⚠️ Eigene Bedingungen

Manche nutzen eigene Lizenzen (Größenlimits, Nutzungsbeschränkungen, Namensnennung). Die Llama-Lizenz und die Gemma-Lizenz haben Klauseln zum Prüfen. Lies sie vor der kommerziellen Nutzung.

8. Ein Auswahl-Ablauf und der Einstieg

Fasst man alles zusammen, ist die Auswahl ein Dreischritt.

  1. Lege die Größe fest: Wähle ausgehend von deiner VRAM-Obergrenze die größte Größe, die passt (siehe den Artikel zu den Hardware-Anforderungen).
  2. Wähle die Linie nach Einsatzzweck + Herkunft: Allzweck = Qwen/Llama, Coding = Qwen Coder/DeepSeek/GLM, deine Sprache = Qwen/regionale Modelle, leichtgewichtig = Phi/Gemma. Für die kommerzielle Nutzung gleiche zusätzlich Lizenz und Beschaffungsrichtlinie ab.
  3. Lade eines herunter und teste: Reicht es nicht, gehe eine Größe nach oben oder zu einer spezialisierten Variante. Mehrere mit demselben Prompt zu vergleichen ist der schnellste Weg.

💡 Der Einstieg ist einfach: Mit Ollama oder LM Studio wählst du einfach einen Modellnamen und lädst herunter (z. B. ollama pull qwen3 – ein paar Minuten). Installiere mehrere und vergleiche sie an derselben Frage, um schnell deinen Favoriten zu finden.

Zusammenfassung

Die Wahl eines lokalen LLM-Modells läuft auf drei Punkte hinaus.

  • Kein Allrounder; wähle nach drei Achsen: Größe (VRAM-Obergrenze) × Einsatzzweck × Herkunftsland (Lizenz, Beschaffung, Sprache).
  • Merke dir nach Linie + Land: Qwen/DeepSeek/GLM (🇨🇳), Llama/Gemma/Phi (🇺🇸), Mistral (🇫🇷), dazu deutsche/europäische Modelle für deine Sprache (🇩🇪🇪🇺 wie Teuken, Aleph Alpha, LeoLM …). Versionen wechseln schnell, also verfolge sie nach Linie.
  • Lokal bedeutet, die Eingabe verlässt den Rechner nicht: Die Herkunft zählt vor allem für Lizenz, Beschaffungsrichtlinie und Sprachstärken. Für die kommerzielle Nutzung ist das Prüfen der Lizenz ein Muss.

Wenn du unsicher bist, beginne mit „dem größten Qwen, das in deinen VRAM passt“ – oder einem regionalen Modell in deiner Sprache. Lass es dann laufen, spüre den Unterschied zur Cloud und konvergiere auf das Modell, das am besten zu deinem Einsatz passt. Zu den Einrichtungsschritten siehe wie man ein lokales LLM betreibt.

FAQ

F. Welches sollte ich denn zuerst installieren?

A. „Das größte Qwen (China, Alibaba), das in deinen VRAM passt“ oder ein auf deine eigene Sprache abgestimmtes Modell ist ein sicherer Start – gute Balance aus Allround-Fähigkeit, Mehrsprachigkeit und Größenspektrum. Wenn Leichtigkeit Priorität hat, passen auch das kleine Phi (Microsoft, USA) oder Gemma (Google, USA) gut.

F. Wenn ich ein chinesisches Modell nutze, wird meine Eingabe nach China gesendet?

A. Nein. Solange du es lokal betreibst, wird deine Eingabe niemals irgendwohin gesendet (sie bleibt auf deinem PC). Das ist der entscheidende Unterschied zu einer Cloud-API. Die Herkunft betrifft vor allem die Lizenz (kommerzielle Bedingungen), die Beschaffungsrichtlinie der Organisation und die Sprachstärken – nicht, wohin deine Daten gehen.

F. Welches lokale Modell ist gut für meine Sprache?

A. Qwen (stark bei CJK) ist eine sichere Standardwahl. Für natürlichere Ausgaben in deiner eigenen Sprache – Nuancen, Höflichkeitsformen, kultureller Kontext – ist ein dafür gebautes regionales/souveränes Modell (siehe Abschnitt 4) eine starke Option. Probiere für deinen Einsatzzweck beide aus und vergleiche.

F. Sind kleine Modelle wirklich brauchbar?

A. Reichlich, je nach Aufgabe. Für tägliche Arbeit wie Chat, Zusammenfassen, Entwürfe und Klassifizierung läuft eine 3–7B-Klasse bequem. Je komplexer das Reasoning oder je länger der Kontext, desto mehr hilft eine größere Größe.

F. Worauf sollte ich beim Einsatz bei der Arbeit achten?

A. Lizenz und Beschaffungsrichtlinie haben oberste Priorität. Apache 2.0 und MIT sind einfach für die kommerzielle Nutzung, während eigene Lizenzen (Llama-Lizenz, Gemma-Lizenz usw.) Bedingungen zu Größe, Nutzung oder Namensnennung tragen können. Manche Organisationen beschränken KI auch nach Herkunftsland, prüfe daher sowohl die Bedingungen des Anbieters als auch deine internen Regeln, bevor du es in ein Produkt einbettest.