Inhaltsverzeichnis
- 1. Das Fazit: Fast alles hängt am VRAM
- 2. Erst die Quantisierung verstehen – sie ändert alles
- 3. Benötigter VRAM nach Modellgröße (Schnelltabelle)
- 4. Die Falle aus Kontextlänge und KV-Cache
- 5. GPUs und Macs in der Praxis (Geschwindigkeits-Guide)
- 6. Was du neben dem VRAM noch brauchst
- 7. Empfohlene Konfigurationen nach Budget (3 Stufen)
- 8. So erkennst du, welches Modell du betreiben kannst
- Zusammenfassung
- FAQ
Wenn du mit einem lokalen LLM einsteigen willst, ist die erste Sorge meist: „Läuft das überhaupt auf meinem PC?“ Die kurze Antwort: 90 % der nötigen Spezifikation kommt auf den VRAM (den Speicher deiner GPU) hinaus. Hast du das im Griff, erkennst du sofort, was läuft und was nicht.
Dieser Artikel liefert eine VRAM-Schnelltabelle nach Modellgröße, eine einfache Formel, die Speicherfalle, die mit der Kontextlänge wächst, realistische Geschwindigkeiten je GPU/Mac und schließlich empfohlene Konfigurationen nach Budget. Fachjargon bleibt auf ein Minimum beschränkt, damit selbst Einsteiger herausfinden, „welche soll ich kaufen“.
Fast alles hängt am VRAM
— Es kommt darauf an, ob das Modell in den Speicher passt
VRAM 8–12 GB
7B–14B-Klasse. Alltägliches Chatten, Zusammenfassen, leichter Code. Der einfachste Startpunkt.
VRAM 24 GB
Bis zur 32B-Klasse. Die praktische Linie mit einem sehr guten Verhältnis aus Qualität und Geschwindigkeit.
40–64 GB+
70B-Klasse. Qualität, die an mittlere Cloud-Modelle heranreicht. Auch die Kosten steigen.
1. Das Fazit: Fast alles hängt am VRAM
Beim PC-Kauf gibt es viele Komponenten – CPU, GPU, Arbeitsspeicher – doch bei lokalen LLMs ist das mit Abstand Wichtigste der VRAM (Videospeicher, der Speicher auf der GPU). Der Grund ist einfach: Passt das gesamte Modell in den VRAM, läuft es schnell und flüssig; passt es nicht, wird es quälend langsam oder läuft gar nicht.
💡 Kurz gesagt: Die Spec-Wahl für ein lokales LLM verläuft in dieser Reihenfolge: „die Größe des Modells, das du betreiben willst“ → „der VRAM, den es braucht“ → „eine GPU/ein Mac, der das erfüllt“. CPU und RAM-Kapazität sind zweitrangig.
Apples M-Chips (Mac) sind ein Sonderfall: Dank „Unified Memory“ lässt sich der verbaute RAM direkt wie VRAM nutzen. Ein Mac mit viel Speicher kann daher selbst ohne dedizierte GPU große Modelle ausführen – dazu später mehr.
2. Erst die Quantisierung verstehen – sie ändert alles
Bevor es um den benötigten VRAM geht, kommt man an der Quantisierung nicht vorbei. Das ist eine Technik, die das Modell komprimiert und leichter macht, und wie stark du komprimierst, ändert den Speicherbedarf um ein Mehrfaches.
FP16 (unkomprimiert)
~2 Byte pro Parameter. Höchste Qualität, frisst aber am meisten Speicher. Privat selten genutzt.
Q8 (8-Bit)
~1 Byte pro Parameter. Etwa die Hälfte von FP16. Der Qualitätsverlust ist winzig – die „qualitätsorientierte“ Wahl.
Q4 (4-Bit)
~0,5–0,7 Byte pro Parameter. Etwa 1/4 von FP16. Ein hervorragendes Gleichgewicht aus Qualität und Leichtigkeit – der Standard für den privaten Gebrauch.
🔑 Grobe Formel: benötigter VRAM ≈ Anzahl der Parameter (B) × Byte pro Parameter. Beispiel: Um ein 7B-Modell mit Q4 zu betreiben, 7 × ~0,6 ≈ ~4–5 GB. Rechne sicherheitshalber +10–20 % für den KV-Cache (Kontext, gleich behandelt) dazu.
3. Benötigter VRAM nach Modellgröße (Schnelltabelle)
Ausgehend von der praktischsten Q4-Quantisierung hier grobe VRAM-Richtwerte nach Größe (inklusive Reserve für den Kontext). Vergleiche sie mit „dem VRAM deiner GPU“, und du siehst sofort dein Limit.
7B–8B-Klasse
VRAM ~6–8 GB
Ideal für den Einstieg. Chat, Zusammenfassen, Übersetzen, leichter Code. Auf vielen Laptops erreichbar.
13B–14B-Klasse
VRAM ~8–12 GB
Etwas klügere Antworten. Der „Sweet Spot“ für Mittelklasse-GPUs wie die RTX 3060 (12 GB).
32B-Klasse
VRAM ~20–24 GB
Die obere praktische Linie. Das klassische Single-Card-Ziel für eine RTX 4090 (24 GB).
70B-Klasse
VRAM ~40–48 GB+
Profi-Stufe. Realistisch sind ein Mac mit viel Speicher oder mehrere GPUs.
Geht man höher zu 100B+ (sehr großen Modellen), braucht man 128 GB oder mehr – jenseits des privaten Rahmens. Umgekehrt läuft ein winziges 1–3B-Modell in rund 4 GB, sodass selbst ein bescheidener PC einsteigen kann.
4. Die Falle aus Kontextlänge und KV-Cache
Leicht zu übersehen: Der Speicherbedarf wächst mit der Kontextlänge. Ein LLM hält den Verlauf von Gespräch und Eingabe als KV-Cache im VRAM. Je länger der Text, den du verarbeitest, desto mehr Speicher braucht es zusätzlich zum Modell selbst.
4k
~+0,3 GB bei einem 7B. Bei kurzen Fragen vernachlässigbar.
32k
~+2,5 GB bei einem 7B. Beginnt bei langen Zusammenfassungen und Chats ins Gewicht zu fallen.
128k
~+10 GB bei einem 7B. Kann das Modell selbst übersteigen. Eine Vorsichtszone.
📌 Praxistipp: „Es lief genau am VRAM-Limit, stürzte dann aber ab, als ich ein langes Dokument einspeiste“ – genau das ist der Grund. Schätze deinen Bedarf bei der Kontextlänge, die du tatsächlich nutzt. Wenn du keine langen Dokumente verarbeitest, schafft schon das Einstellen einer kleineren Kontextlänge Speicher frei.
5. GPUs und Macs in der Praxis (Geschwindigkeits-Guide)
Selbst beim selben Modell verändert die Hardware die Geschwindigkeit (erzeugte Tokens pro Sekunde = tok/s) stark. Hier die wichtigsten Optionen mit grobem Gefühl (die Zahlen sind Richtwerte, die je nach Setup und Modell variieren).
RTX 3060 (12 GB)
Gebraucht leicht zu finden – der Einsteiger-Klassiker. 7B–14B laufen komfortabel. Wenn die Kosten Vorrang haben, fang hier an.
RTX 4090 (24 GB)
Bis zur 32B-Klasse auf einer einzigen Karte. Ein 7B kann über 100 Tokens/Sekunde erreichen. Das High-End der Wahl für Privatleute. Ein 70B muss einen Teil an die CPU auslagern und wird stark langsamer.
RTX 5090 (32 GB)
Mehr VRAM erlaubt es, 32B mit Q8 zu betreiben oder ein 70B mit aggressiver Quantisierung auf einer Karte. Auch die Geschwindigkeit ist Spitzenklasse.
Apple Mac (M4/M5 Max)
Mit 64 GB Unified Memory ist sogar die 70B-Klasse möglich (die Geschwindigkeit ist moderat – rund 20–30 Tokens/Sekunde bei einem 70B). Leise und energieeffizient.
Nur CPU (keine GPU)
Kleine Modelle laufen zwar, aber langsam. Okay zum „mal Ausprobieren“. Für den täglichen Einsatz braucht es wirklich eine GPU/einen Mac.
6. Was du neben dem VRAM noch brauchst
Der VRAM spielt die Hauptrolle, aber die Nebendarsteller zählen auch. Drei Dinge, die du mindestens abdecken solltest.
System-RAM
Der Auffangbehälter für das, was nicht in den VRAM passt. 16 GB oder mehr, idealerweise 32 GB. Beim Mac zählt der Unified Memory direkt.
Speicher (SSD)
Ein einzelnes Modell sind mehrere bis dutzende GB. Wenn du mehrere ausprobieren willst, halte reichlich freien SSD-Platz bereit. NVMe empfohlen.
Stromversorgung & Kühlung
High-End-GPUs ziehen viel Strom und werden heiß. Lass beim Netzteil und der Kühlung Reserve.
7. Empfohlene Konfigurationen nach Budget (3 Stufen)
Drei Muster, die „Was soll ich also tatsächlich kaufen?“ beantworten. Wähle nach Anwendungsfall und Budget.
Nur ausprobieren: VRAM 8–12 GB
Eine Karte der RTX-3060-Klasse (12 GB) oder ein Mac mit 16–24 GB Unified Memory. Die 7B–14B-Klasse läuft, mehr als genug für den Alltag. Eine gebrauchte GPU ist der günstigste Einstieg.
Ernsthaft nutzen: VRAM 24 GB
Eine RTX 4090 (24 GB) oder ein Mac mit 32–48 GB Unified Memory. Die 32B-Klasse läuft komfortabel, mit dem besten Verhältnis aus Qualität und Geschwindigkeit. Die „genau richtige“ Wahl.
Das Größte anvisieren: 40–64 GB+
Eine RTX 5090 oder mehrere GPUs oder ein High-End-Mac mit 64 GB+ Unified Memory. Die 70B-Klasse nähert sich mittleren Cloud-Modellen. Sei auf Kosten und Stromverbrauch gefasst.
8. So erkennst du, welches Modell du betreiben kannst
Unsicher, welches Modell? Siehe den Vergleich der besten lokalen LLMs — Wahl nach Einsatz, Größe und Herkunft.
Prüfe vor dem Kauf oder Download in drei Schritten, dann machst du nichts falsch.
- Prüfe deinen VRAM (oder den Unified Memory deines Macs). Das ist deine Obergrenze.
- Schätze den groben Bedarf mit Modellgröße (B) × ~0,6 (Q4). Rechne +10–20 % für den Kontext dazu.
- Stelle sicher, dass die Summe in deinen VRAM passt. Wenn nicht, wähle „eine Stufe kleiner“ oder „stärkere Quantisierung (Q4 → noch niedrigere Bit-Zahl)“.
💡 Im Zweifel klein anfangen: Mit Ollama oder LM Studio wählst du einfach ein Modell aus und lädst es herunter. Probiere zuerst eine 7B-Klasse und steige auf, wenn es sich zu schwach anfühlt – diese Reihenfolge ist sicher und verlässlich.
Zusammenfassung
Die Spezifikation, die du für ein lokales LLM brauchst, lässt sich auf drei Punkte bringen.
- Der VRAM spielt die Hauptrolle: Ob das Modell in den Speicher passt, ist alles. Ein Mac kann über Unified Memory auf viel Speicher zielen.
- Quantisierung und Kontext verschieben die Zahl: Bei Q4 gilt „Größe (B) × ~0,6“ plus Kontext (+10–20 %) als Richtwert. 7B ≈ 6–8 GB, 32B ≈ 24 GB, 70B ≈ 40 GB+.
- Drei Stufen nach Budget: Einstieg (8–12 GB) / Standard (24 GB) / Profi (40–64 GB+). Im Zweifel klein anfangen und schrittweise aufsteigen.
Sobald du die Specs kennst, wird ein lokales LLM viel zugänglicher. Wäge als Nächstes die Unterschiede zur Cloud ab und lass eines auf deiner eigenen Maschine laufen. Die Einrichtungsschritte sind in So betreibst du ein lokales LLM behandelt.
FAQ
F. Kann ein normaler Laptop (ohne GPU) ein lokales LLM ausführen?
A. Kleine Modelle (1–3B oder ein leichtgewichtiges 7B) laufen, aber langsam. Zum „Ausprobieren“ ist das in Ordnung, doch für komfortablen täglichen Gebrauch ist eine GPU mit 8 GB+ VRAM oder ein Mac mit reichlich Unified Memory realistisch.
F. Mein VRAM reicht knapp nicht. Wie bekomme ich es trotzdem zum Laufen?
A. Drei Optionen: ① stärkere Quantisierung wählen (eine Variante mit niedrigerer Bit-Zahl), ② auf ein eine Stufe kleineres Modell wechseln, ③ eine kürzere Kontextlänge einstellen. Meist reicht das, um es passend zu machen. Du kannst auch einen Teil an die CPU auslagern, aber die Geschwindigkeit sinkt.
F. GeForce oder Mac – was ist besser?
A. Für Geschwindigkeit und Erweiterbarkeit GeForce (NVIDIA GPU). Für leisen, energieeffizienten Betrieb, der viel Speicher nutzt, um große Modelle auszuführen, ein Mac (Unified Memory). Wenn du eine 70B-Klasse auf einer Maschine betreiben willst, ist ein Mac mit 64 GB+ eine starke Option.
F. Wie viel System-RAM brauche ich?
A. 16 GB oder mehr für den System-RAM, idealerweise 32 GB. Beachte, dass beim Mac der Unified Memory zugleich als VRAM dient, sodass die Speicherkapazität direkt die Modellgröße bestimmt, die du ausführen kannst.
F. Was ist also eine gute erste Maschine?
A. Preis-Leistungs-mäßig eine gebrauchte RTX 3060 (12 GB) für 7B–14B. Wenn das Budget es zulässt, bewältigt eine RTX 4090 (24 GB) bis zur 32B-Klasse auf einer Karte und hält lange. Für Apple-Fans ist ein Mac mit reichlich Unified Memory der einfache Weg. Klein anfangen und bei Bedarf aufsteigen – so vermeidest du Fehler.