Lokales LLM: Hardware & VRAM-Guide [2026]

Lokales LLM: Hardware-Anforderungen – VRAM-Guide [2026]

Inhaltsverzeichnis

1. Das Fazit: Fast alles hängt am VRAM
2. Erst die Quantisierung verstehen – sie ändert alles
3. Benötigter VRAM nach Modellgröße (Schnelltabelle)
4. Die Falle aus Kontextlänge und KV-Cache
5. GPUs und Macs in der Praxis (Geschwindigkeits-Guide)
6. Was du neben dem VRAM noch brauchst
7. Empfohlene Konfigurationen nach Budget (3 Stufen)
8. So erkennst du, welches Modell du betreiben kannst
Zusammenfassung
FAQ

Wenn du mit einem lokalen LLM einsteigen willst, ist die erste Sorge meist: „Läuft das überhaupt auf meinem PC?“ Die kurze Antwort: 90 % der nötigen Spezifikation kommt auf den VRAM (den Speicher deiner GPU) hinaus. Hast du das im Griff, erkennst du sofort, was läuft und was nicht.

Dieser Artikel liefert eine VRAM-Schnelltabelle nach Modellgröße, eine einfache Formel, die Speicherfalle, die mit der Kontextlänge wächst, realistische Geschwindigkeiten je GPU/Mac und schließlich empfohlene Konfigurationen nach Budget. Fachjargon bleibt auf ein Minimum beschränkt, damit selbst Einsteiger herausfinden, „welche soll ich kaufen“.

LOCAL LLM · HARDWARE

Fast alles hängt am VRAM

— Es kommt darauf an, ob das Modell in den Speicher passt

ENTRY

VRAM 8–12 GB

7B–14B-Klasse. Alltägliches Chatten, Zusammenfassen, leichter Code. Der einfachste Startpunkt.

STANDARD

VRAM 24 GB

Bis zur 32B-Klasse. Die praktische Linie mit einem sehr guten Verhältnis aus Qualität und Geschwindigkeit.

SERIOUS

40–64 GB+

70B-Klasse. Qualität, die an mittlere Cloud-Modelle heranreicht. Auch die Kosten steigen.

1. Das Fazit: Fast alles hängt am VRAM

Beim PC-Kauf gibt es viele Komponenten – CPU, GPU, Arbeitsspeicher – doch bei lokalen LLMs ist das mit Abstand Wichtigste der VRAM (Videospeicher, der Speicher auf der GPU). Der Grund ist einfach: Passt das gesamte Modell in den VRAM, läuft es schnell und flüssig; passt es nicht, wird es quälend langsam oder läuft gar nicht.

💡 Kurz gesagt: Die Spec-Wahl für ein lokales LLM verläuft in dieser Reihenfolge: „die Größe des Modells, das du betreiben willst“ → „der VRAM, den es braucht“ → „eine GPU/ein Mac, der das erfüllt“. CPU und RAM-Kapazität sind zweitrangig.

Apples M-Chips (Mac) sind ein Sonderfall: Dank „Unified Memory“ lässt sich der verbaute RAM direkt wie VRAM nutzen. Ein Mac mit viel Speicher kann daher selbst ohne dedizierte GPU große Modelle ausführen – dazu später mehr.

2. Erst die Quantisierung verstehen – sie ändert alles

Bevor es um den benötigten VRAM geht, kommt man an der Quantisierung nicht vorbei. Das ist eine Technik, die das Modell komprimiert und leichter macht, und wie stark du komprimierst, ändert den Speicherbedarf um ein Mehrfaches.

FP16 (unkomprimiert)

~2 Byte pro Parameter. Höchste Qualität, frisst aber am meisten Speicher. Privat selten genutzt.

Q8 (8-Bit)

~1 Byte pro Parameter. Etwa die Hälfte von FP16. Der Qualitätsverlust ist winzig – die „qualitätsorientierte“ Wahl.

Q4 (4-Bit)

~0,5–0,7 Byte pro Parameter. Etwa 1/4 von FP16. Ein hervorragendes Gleichgewicht aus Qualität und Leichtigkeit – der Standard für den privaten Gebrauch.

🔑 Grobe Formel: benötigter VRAM ≈ Anzahl der Parameter (B) × Byte pro Parameter. Beispiel: Um ein 7B-Modell mit Q4 zu betreiben, 7 × ~0,6 ≈ ~4–5 GB. Rechne sicherheitshalber +10–20 % für den KV-Cache (Kontext, gleich behandelt) dazu.

3. Benötigter VRAM nach Modellgröße (Schnelltabelle)

Ausgehend von der praktischsten Q4-Quantisierung hier grobe VRAM-Richtwerte nach Größe (inklusive Reserve für den Kontext). Vergleiche sie mit „dem VRAM deiner GPU“, und du siehst sofort dein Limit.

7B–8B-Klasse

VRAM ~6–8 GB

Ideal für den Einstieg. Chat, Zusammenfassen, Übersetzen, leichter Code. Auf vielen Laptops erreichbar.

13B–14B-Klasse

VRAM ~8–12 GB

Etwas klügere Antworten. Der „Sweet Spot“ für Mittelklasse-GPUs wie die RTX 3060 (12 GB).

32B-Klasse

VRAM ~20–24 GB

Die obere praktische Linie. Das klassische Single-Card-Ziel für eine RTX 4090 (24 GB).

70B-Klasse

VRAM ~40–48 GB+

Profi-Stufe. Realistisch sind ein Mac mit viel Speicher oder mehrere GPUs.

Geht man höher zu 100B+ (sehr großen Modellen), braucht man 128 GB oder mehr – jenseits des privaten Rahmens. Umgekehrt läuft ein winziges 1–3B-Modell in rund 4 GB, sodass selbst ein bescheidener PC einsteigen kann.

4. Die Falle aus Kontextlänge und KV-Cache

Leicht zu übersehen: Der Speicherbedarf wächst mit der Kontextlänge. Ein LLM hält den Verlauf von Gespräch und Eingabe als KV-Cache im VRAM. Je länger der Text, den du verarbeitest, desto mehr Speicher braucht es zusätzlich zum Modell selbst.

~+0,3 GB bei einem 7B. Bei kurzen Fragen vernachlässigbar.

32k

~+2,5 GB bei einem 7B. Beginnt bei langen Zusammenfassungen und Chats ins Gewicht zu fallen.

128k

~+10 GB bei einem 7B. Kann das Modell selbst übersteigen. Eine Vorsichtszone.

📌 Praxistipp: „Es lief genau am VRAM-Limit, stürzte dann aber ab, als ich ein langes Dokument einspeiste“ – genau das ist der Grund. Schätze deinen Bedarf bei der Kontextlänge, die du tatsächlich nutzt. Wenn du keine langen Dokumente verarbeitest, schafft schon das Einstellen einer kleineren Kontextlänge Speicher frei.

5. GPUs und Macs in der Praxis (Geschwindigkeits-Guide)

Selbst beim selben Modell verändert die Hardware die Geschwindigkeit (erzeugte Tokens pro Sekunde = tok/s) stark. Hier die wichtigsten Optionen mit grobem Gefühl (die Zahlen sind Richtwerte, die je nach Setup und Modell variieren).

RTX 3060 (12 GB)

Gebraucht leicht zu finden – der Einsteiger-Klassiker. 7B–14B laufen komfortabel. Wenn die Kosten Vorrang haben, fang hier an.

RTX 4090 (24 GB)

Bis zur 32B-Klasse auf einer einzigen Karte. Ein 7B kann über 100 Tokens/Sekunde erreichen. Das High-End der Wahl für Privatleute. Ein 70B muss einen Teil an die CPU auslagern und wird stark langsamer.

RTX 5090 (32 GB)

Mehr VRAM erlaubt es, 32B mit Q8 zu betreiben oder ein 70B mit aggressiver Quantisierung auf einer Karte. Auch die Geschwindigkeit ist Spitzenklasse.

Apple Mac (M4/M5 Max)

Mit 64 GB Unified Memory ist sogar die 70B-Klasse möglich (die Geschwindigkeit ist moderat – rund 20–30 Tokens/Sekunde bei einem 70B). Leise und energieeffizient.

Nur CPU (keine GPU)

Kleine Modelle laufen zwar, aber langsam. Okay zum „mal Ausprobieren“. Für den täglichen Einsatz braucht es wirklich eine GPU/einen Mac.

6. Was du neben dem VRAM noch brauchst

Der VRAM spielt die Hauptrolle, aber die Nebendarsteller zählen auch. Drei Dinge, die du mindestens abdecken solltest.

🧠

System-RAM

Der Auffangbehälter für das, was nicht in den VRAM passt. 16 GB oder mehr, idealerweise 32 GB. Beim Mac zählt der Unified Memory direkt.

💾

Speicher (SSD)

Ein einzelnes Modell sind mehrere bis dutzende GB. Wenn du mehrere ausprobieren willst, halte reichlich freien SSD-Platz bereit. NVMe empfohlen.

⚡

Stromversorgung & Kühlung

High-End-GPUs ziehen viel Strom und werden heiß. Lass beim Netzteil und der Kühlung Reserve.

7. Empfohlene Konfigurationen nach Budget (3 Stufen)

Drei Muster, die „Was soll ich also tatsächlich kaufen?“ beantworten. Wähle nach Anwendungsfall und Budget.

ENTRY

Nur ausprobieren: VRAM 8–12 GB

Eine Karte der RTX-3060-Klasse (12 GB) oder ein Mac mit 16–24 GB Unified Memory. Die 7B–14B-Klasse läuft, mehr als genug für den Alltag. Eine gebrauchte GPU ist der günstigste Einstieg.

STD

Ernsthaft nutzen: VRAM 24 GB

Eine RTX 4090 (24 GB) oder ein Mac mit 32–48 GB Unified Memory. Die 32B-Klasse läuft komfortabel, mit dem besten Verhältnis aus Qualität und Geschwindigkeit. Die „genau richtige“ Wahl.

PRO

Das Größte anvisieren: 40–64 GB+

Eine RTX 5090 oder mehrere GPUs oder ein High-End-Mac mit 64 GB+ Unified Memory. Die 70B-Klasse nähert sich mittleren Cloud-Modellen. Sei auf Kosten und Stromverbrauch gefasst.

8. So erkennst du, welches Modell du betreiben kannst

Unsicher, welches Modell? Siehe den Vergleich der besten lokalen LLMs — Wahl nach Einsatz, Größe und Herkunft.

Prüfe vor dem Kauf oder Download in drei Schritten, dann machst du nichts falsch.

Prüfe deinen VRAM (oder den Unified Memory deines Macs). Das ist deine Obergrenze.
Schätze den groben Bedarf mit Modellgröße (B) × ~0,6 (Q4). Rechne +10–20 % für den Kontext dazu.
Stelle sicher, dass die Summe in deinen VRAM passt. Wenn nicht, wähle „eine Stufe kleiner“ oder „stärkere Quantisierung (Q4 → noch niedrigere Bit-Zahl)“.

💡 Im Zweifel klein anfangen: Mit Ollama oder LM Studio wählst du einfach ein Modell aus und lädst es herunter. Probiere zuerst eine 7B-Klasse und steige auf, wenn es sich zu schwach anfühlt – diese Reihenfolge ist sicher und verlässlich.

Zusammenfassung

Die Spezifikation, die du für ein lokales LLM brauchst, lässt sich auf drei Punkte bringen.

Der VRAM spielt die Hauptrolle: Ob das Modell in den Speicher passt, ist alles. Ein Mac kann über Unified Memory auf viel Speicher zielen.
Quantisierung und Kontext verschieben die Zahl: Bei Q4 gilt „Größe (B) × ~0,6“ plus Kontext (+10–20 %) als Richtwert. 7B ≈ 6–8 GB, 32B ≈ 24 GB, 70B ≈ 40 GB+.
Drei Stufen nach Budget: Einstieg (8–12 GB) / Standard (24 GB) / Profi (40–64 GB+). Im Zweifel klein anfangen und schrittweise aufsteigen.

Sobald du die Specs kennst, wird ein lokales LLM viel zugänglicher. Wäge als Nächstes die Unterschiede zur Cloud ab und lass eines auf deiner eigenen Maschine laufen. Die Einrichtungsschritte sind in So betreibst du ein lokales LLM behandelt.

FAQ

F. Kann ein normaler Laptop (ohne GPU) ein lokales LLM ausführen?

A. Kleine Modelle (1–3B oder ein leichtgewichtiges 7B) laufen, aber langsam. Zum „Ausprobieren“ ist das in Ordnung, doch für komfortablen täglichen Gebrauch ist eine GPU mit 8 GB+ VRAM oder ein Mac mit reichlich Unified Memory realistisch.

F. Mein VRAM reicht knapp nicht. Wie bekomme ich es trotzdem zum Laufen?

A. Drei Optionen: ① stärkere Quantisierung wählen (eine Variante mit niedrigerer Bit-Zahl), ② auf ein eine Stufe kleineres Modell wechseln, ③ eine kürzere Kontextlänge einstellen. Meist reicht das, um es passend zu machen. Du kannst auch einen Teil an die CPU auslagern, aber die Geschwindigkeit sinkt.

F. GeForce oder Mac – was ist besser?

A. Für Geschwindigkeit und Erweiterbarkeit GeForce (NVIDIA GPU). Für leisen, energieeffizienten Betrieb, der viel Speicher nutzt, um große Modelle auszuführen, ein Mac (Unified Memory). Wenn du eine 70B-Klasse auf einer Maschine betreiben willst, ist ein Mac mit 64 GB+ eine starke Option.

F. Wie viel System-RAM brauche ich?

A. 16 GB oder mehr für den System-RAM, idealerweise 32 GB. Beachte, dass beim Mac der Unified Memory zugleich als VRAM dient, sodass die Speicherkapazität direkt die Modellgröße bestimmt, die du ausführen kannst.

F. Was ist also eine gute erste Maschine?

A. Preis-Leistungs-mäßig eine gebrauchte RTX 3060 (12 GB) für 7B–14B. Wenn das Budget es zulässt, bewältigt eine RTX 4090 (24 GB) bis zur 32B-Klasse auf einer Karte und hält lange. Für Apple-Fans ist ein Mac mit reichlich Unified Memory der einfache Weg. Klein anfangen und bei Bedarf aufsteigen – so vermeidest du Fehler.

Lokales LLM: Hardware-Anforderungen – VRAM-Guide [2026]

Fast alles hängt am VRAM

1. Das Fazit: Fast alles hängt am VRAM

2. Erst die Quantisierung verstehen – sie ändert alles

3. Benötigter VRAM nach Modellgröße (Schnelltabelle)

4. Die Falle aus Kontextlänge und KV-Cache

5. GPUs und Macs in der Praxis (Geschwindigkeits-Guide)

6. Was du neben dem VRAM noch brauchst

7. Empfohlene Konfigurationen nach Budget (3 Stufen)

8. So erkennst du, welches Modell du betreiben kannst

Zusammenfassung

FAQ

Ähnliche Artikel

Wissensstichtage generativer KI im Vergleich: ChatGPT, Claude, Gemini & mehr

Was ist generative KI? Unterschiede zur traditionellen KI einfach erklärt

Stärken und Schwächen generativer KI — Was sie kann und was nicht, mit Praxisbeispielen

Was ist ein LLM? Wie Large Language Models funktionieren, Top-Modelle & Einsatzgebiete

Kommentare

Kommentar hinterlassen