„Ein riesiges 70B-Modell (70 Milliarden Parameter) läuft auf einem einzelnen Gaming-PC zu Hause, nicht auf einem Rack voller Rechenzentrums-GPUs." Möglich macht das die Quantisierung – eine Technik, die die numerische Präzision der Gewichte eines Modells senkt, um dessen Größe und Speicherbedarf drastisch zu verringern.

Während die Modell-Destillation beim letzten Mal „Wissen in ein separates, kleineres Modell verlagerte", macht die Quantisierung „dasselbe Modell leichter". Dieser Artikel erklärt sie mit einer Foto-Kompressions-Analogie, behandelt, wie viel leichter es wird (die Speicher-Zahlen), den Genauigkeits-Kompromiss, die wichtigsten Methoden (GPTQ / AWQ / GGUF / QLoRA) und wie man sie lokal ausführt – alles für Einsteiger.

QUANTISIERUNG · DURCH GERINGERE PRÄZISION SCHRUMPFEN

Senke die Bit-Breite, und der VRAM fällt stark

— Beispiel: Speicherbedarf für ein 70B-Modell

FP16
~140GB
INT8
~70GB
INT4
~35GB
~4x weniger Speicher bei 4-bit Läuft auf einer Consumer-GPU Ein kleiner Genauigkeitsverlust

* Die Speicher-Schätzungen und Zahlen in diesem Artikel sind aus öffentlichen Materialien zitiert (Stand Juni 2026). Der tatsächliche Bedarf variiert je nach Modell, Format und Kontextlänge – als Richtwert zu verstehen.

1. Was ist Quantisierung? Wie das Komprimieren eines Fotos

Quantisierung bedeutet, die numerische Präzision der Gewichte (Parameter) eines Modells zu senken. KI-Gewichte werden üblicherweise als FP16/FP32 (16/32-Bit-Dezimalzahlen) gespeichert, und die Quantisierung ersetzt sie durch Ganzzahlen wie INT8 (8-bit) oder INT4 (4-bit). Jedes Gewicht braucht dann weniger Platz, und das gesamte Modell wird viel leichter.

Stell es dir vor wie das „Komprimieren eines hochauflösenden Fotos": Das originale RAW-Foto (FP16) ist wunderschön, aber riesig. Komprimiere es zu JPEG (INT8/INT4) und die Datei schrumpft auf einen Bruchteil der Größe, während sie fast identisch aussieht. Quantisierung ist dasselbe – opfere ein wenig Präzision für eine große Gewichtsreduktion. Überraschend ist nicht, dass es funktioniert, sondern wie wenig man aufgibt.

Die Anzahl und Rolle der Gewichte ändern sich nicht – das Gefäß (Modell) bleibt gleich; nur die Feinheit der Darstellung wird gröber. Daher hilft es, die Struktur des Modells zu kennen (siehe wie LLM-Gewichte funktionieren).

2. Wie viel leichter? (die Speicher-Zahlen)

Der Effekt wird in Zahlen offensichtlich. Pro Gewicht: FP32 = 4 Bytes, INT8 = 1 Byte, INT4 = 0,5 Bytes. Also verbraucht 4-bit etwa ein Viertel des Speichers von FP16.

Präzision Pro Gewicht 70B-Modell (ca.) 8B-Modell (ca.)
FP16 (keine Quantisierung) 2 Bytes ~140GB ~16GB
INT8 1 Byte ~70GB ~8GB
INT4 0,5 Bytes ~35GB ~4.5-5GB

* Schätzungen. Die tatsächlichen Werte variieren je nach Format, Overhead und Kontextlänge.

Die Auswirkung ist enorm. Wenn ein 70B-Modell von 140GB auf 35GB sinkt, läuft es auf einem realistischen Setup statt auf mehreren A100. Quantisiere ein 8B-Modell auf 4-bit und es sind etwa 5GB – passt bequem in eine Mittelklasse-GPU (8GB VRAM), sodass du es lokal auf deinem eigenen PC ausführen kannst. Deshalb wird Quantisierung als „Demokratisierung der LLMs" bezeichnet.

3. Wie viel Genauigkeit geht verloren?

Die Sorge ist: „Wird es nicht dümmer, sobald es leichter ist?" Die Antwort lautet „weniger als du denkst – aber es hängt von der Bit-Breite und der Aufgabe ab".

🟢 INT8: nahezu verlustfrei

Bei den meisten LLMs ist der Leistungsabfall minimal. Eine sichere Wahl, wenn du den Speicher halbieren und dabei die Qualität erhalten willst.

🟡 INT4: praktikabel mit cleveren Methoden

Bei allgemeinen Q&A- und Alltagsaufgaben liegt die Verschlechterung Berichten zufolge unter 4%. Aber bei Mathematik, Code-Generierung und schwierigem Schlussfolgern ist der Verlust deutlicher spürbar, also Vorsicht.

Der Genauigkeitsverlust zeigt sich technisch als „ein kleiner Anstieg der Perplexität". Entscheidend ist, „die Bit-Breite zu wählen, die zur Aufgabe passt" – INT4 reicht oft völlig für Chat oder Zusammenfassungen, aber für Code-Generierung oder exakte Mathematik solltest du INT8 oder keine Quantisierung in Betracht ziehen. Letztlich solltest du an deiner eigenen Aufgabe evaluieren, um zu bestätigen, dass es im akzeptablen Bereich liegt.

4. Wichtigste Methoden: GPTQ / AWQ / GGUF / QLoRA

Es gibt mehrere repräsentative Quantisierungsmethoden und -formate. Die Namen zu kennen hilft, Modelle und Tools ohne Verwirrung auszuwählen.

Methode / Format Eigenschaften Am besten für
GPTQ Der Vorreiter, der 4-bit-Kompression bei erhaltener Genauigkeit erreichte. GPU-Inferenz
AWQ Identifiziert und schützt die ~1% wichtigsten Gewichte. Oft 1-2% genauer und schneller als GPTQ. Schnelle, effiziente Produktiv-Inferenz
GGUF Das Format von llama.cpp / Ollama. Wähle Stufen Q2_K-Q8_0; unterstützt CPU+GPU-Hybrid. Lokales Ausführen auf deinem PC
QLoRA Kombiniert ein 4-bit-Basismodell mit LoRA und ermöglicht Fine-Tuning auf einer Consumer-GPU. Kostengünstiges Fine-Tuning

Für einen Einsteiger, der es lokal ausprobiert, ist die Nutzung eines GGUF-Modells mit Ollama der einfachste Weg. Um Produktiv-GPU-Inferenz zu optimieren, ist AWQ eine starke Wahl. Um ein großes Modell günstig zu fine-tunen, QLoRA – sich nur das zu merken reicht aus.

5. vs. Destillation und Fine-Tuning

Quantisierung ist eine Technik zur „Modell-Effizienz/-Optimierung" neben Destillation und Fine-Tuning. Sie sind leicht zu verwechseln, also beachte den Unterschied in den Zielen.

⚖️ Quantisierung

Die Gewichte desselben Modells leichter machen. Innen dasselbe Modell, nur eine gröbere Darstellung.

🧑‍🏫 Destillation

Wissen in ein separates, kleineres Modell verlagern. Das Gefäß kleiner neu bauen.

🎯 Fine-Tuning

Für einen bestimmten Zweck weitertrainieren. Etwa gleiche Größe; fügt Fachwissen hinzu.

Die drei schließen sich nicht aus – sie werden meist kombiniert. Zum Beispiel „ein durch Destillation verkleinertes Schülermodell quantisieren, damit es auf ein Smartphone passt", oder, wie bei QLoRA, „auf einer quantisierten Basis fine-tunen". Sie lassen sich stapeln.

6. Wie man startet und die Bit-Breite wählt

Keine knifflige Implementierung nötig. Viele bereits quantisierte Modelle werden verteilt, sodass du sie einfach herunterladen und nutzen kannst. Im Zweifel wähle nach dieser Anleitung.

1

Um es zuerst lokal auszuprobieren, nutze GGUF (Ollama)

Führe ein quantisiertes Modell mit Ollama in einem Befehl aus. Es einfach anzufassen ist der schnellste Weg, es zu lernen.

2

Wähle die Bit-Breite nach deinem VRAM

Knapp beim VRAM? INT4 (Q4). Hast du Spielraum und willst Qualität? INT8 (Q8). Für allgemeine Nutzung ist Q4 oft völlig ausreichend.

3

Beurteile die Präzision nach dem Anwendungsfall

Für Code-Generierung oder exakte Mathematik vermeide INT4 und nutze INT8+. Für Chat und Zusammenfassungen ist INT4 angenehm.

Zusammenfassung

Quantisierung ist der zentrale Wegbereiter, der eine riesige KI in etwas verwandelt, das leicht genug ist, um auf deinem eigenen Rechner zu laufen. Fassen wir zusammen.

Die wichtigsten Erkenntnisse

  • ⚖️ Gewichtspräzision senken zum Schrumpfen (FP16→INT8→INT4). Gleiche Idee wie Foto-Kompression.
  • 📉 ~4x weniger Speicher bei 4-bit. 70B von 140GB→35GB; 8B ~5GB auf einer Consumer-GPU.
  • 🎯 Kleiner Genauigkeitsverlust. INT8 nahezu verlustfrei; INT4 unter 4% bei allgemeiner Nutzung (achte auf Mathematik/Code).
  • 🛠️ Methoden: GPTQ / AWQ / GGUF (Ollama) / QLoRA. GGUF ist lokal am einfachsten.
  • 🔀 Anders als Destillation/FT: dasselbe Gefäß leichter machen / in ein kleineres Gefäß verlagern / Fachwissen hinzufügen.

„Behalte die Klugheit, lass nur das Gewicht fallen." Quantisierung ist der praktischste einzelne Schritt, um KI zugänglich zu machen. Beginne damit, ein Q4-Modell auf einem lokalen LLM laufen zu lassen. Für eine verwandte Technik siehe Modell-Destillation; für die Grundlagen LLM-Gewichte.

FAQ

F. Macht Quantisierung das Modell dümmer?

A. Weniger, als du denkst. INT8 ist nahezu verlustfrei, und selbst INT4 verschlechtert sich Berichten zufolge unter 4% bei allgemeinen Q&A- und Alltagsaufgaben. Aber der Abstand ist bei Mathematik, Code-Generierung und schwierigem Schlussfolgern deutlicher spürbar, also wähle die Bit-Breite passend zum Anwendungsfall.

F. Was sind Q4 / Q8, und welches sollte ich wählen?

A. Es sind GGUF-Quantisierungsstufen – kleinere Zahlen sind leichter (gröber). Knapp beim VRAM, wähle Q4; für Qualität mit Spielraum, Q8. Für allgemeine Nutzung wie Chat oder Zusammenfassungen ist Q4 oft angenehm.

F. Sollte ich Quantisierung oder Destillation verwenden?

A. Unterschiedliche Ziele. Um ein Modell leichter zu machen, das du bereits hast, quantisiere es; um ein völlig neues kleineres, dediziertes Modell zu erstellen, nutze Destillation. Sie werden oft kombiniert – ein destilliertes kleines Modell zusätzlich zu quantisieren ist üblich.

F. Muss ich Modelle selbst quantisieren?

A. Meist nicht. Wichtige Modelle werden bereits in quantisierter Form verteilt und können über Tools wie Ollama sofort heruntergeladen und genutzt werden. Selbst zu quantisieren ist nur bei eigenen Modellen oder besonderen Anforderungen nötig.