„Eine riesige, leistungsstarke KI ist klug – aber schwer und teuer.“ Die Technik, die dieses Problem löst, ist die Modell-Destillation (Knowledge Distillation). Indem man das Wissen eines großen „Lehrer“-Modells auf ein kleines „Schüler“-Modell überträgt, kann man über 95 % der Leistung des Lehrers bei einem Zehntel der Größe und Geschwindigkeit erhalten – das Beste aus beiden Welten.

Dieser Artikel erklärt Einsteigern anhand einer Lehrer-Schüler-Analogie, wie die Destillation funktioniert, und behandelt die Vorteile, die zwei Ansätze sowie den Unterschied zu Fine-Tuning und Quantisierung. Anschließend geht er – ohne Übertreibung – auf die „rechtlichen und vertragsrechtlichen Fragen“ rund um die Destillation ein, die 2026 große Aufmerksamkeit erregten (der Streit OpenAI gegen DeepSeek und Anti-Destillations-Klauseln).

MODELL-DESTILLATION · VOM LEHRER ZUM SCHÜLER

Das Wissen eines großen Lehrers auf einen kleinen Schüler übertragen

— Über 95 % der Leistung bei einem Zehntel der Größe erhalten

🧑‍🏫
Lehrer
groß · leistungsstark · teuer
Wissen übertragen
🎓
Schüler
klein · schnell · günstig
~10x kleiner und schneller Erhält über 95 % der Leistung Nutzungsbedingungen beachten

* Zahlen und Beispiele in diesem Artikel sind aus öffentlichen Materialien und Medienberichten zitiert (Stand: Juni 2026). Die rechtlichen Punkte dienen der allgemeinen Orientierung; ziehen Sie für konkrete Fälle Experten und offizielle Quellen heran.

1. Was ist Modell-Destillation? Eine Lehrer-Schüler-Analogie

Die Modell-Destillation ist eine Technik, bei der ein kleines „Schüler“-Modell darauf trainiert wird, das Verhalten eines großen, leistungsstarken „Lehrer“-Modells nachzubilden. Indem es die Ausgaben des Lehrers imitiert, erlangt der Schüler bei deutlich kleinerer Größe eine nahezu lehrergleiche Fähigkeit. Als reales Beispiel wird GPT-4o mini als aus GPT-4o destilliert beschrieben.

Der Schlüssel sind „soft labels“: Gewöhnliches Training lehrt nur „die Antwort ist Katze“ (ein hard label), doch die Destillation übergibt dem Schüler die vollständige Wahrscheinlichkeitsverteilung des Lehrers wie „90 % Katze, 8 % Hund, 2 % Fuchs“. Dieser „Grad des Zögerns“ enthält reiche Informationen, die die bloße Antwort nicht vermitteln kann. Ein Parameter namens temperature „glättet“ dann die Wahrscheinlichkeiten, sodass selbst feine Beziehungen zwischen ähnlichen Klassen sichtbar werden.

Als menschliche Analogie: Ein Profi (Lehrer) lehrt einen Neuling (Schüler) nicht nur „das ist eine Katze“, sondern die Nuance der Beurteilung – „eine Katze, obwohl es ein Grenzfall mit Hund ist“. So lernt der Schüler tiefer und effizienter als durch reines Auswendiglernen. Wenn man weiß, wie LLMs funktionieren, wird klar, warum eine Wahrscheinlichkeitsverteilung so informationsreich ist.

2. Warum destillieren? Die Vorteile

Das Ziel der Destillation ist einfach – „so viel Klugheit wie möglich erhalten und es zugleich leichter, schneller und günstiger machen“. Die konkreten Vorteile:

⚡ Schnell und günstig

Weniger Rechenaufwand bedeutet geringere Latenz und niedrigere Kosten. Das zahlt sich im Produktivbetrieb mit hohem Volumen aus.

📦 ~10x kompakter

Berichte zeigen ein Zehntel der Größe bei gleichzeitig über 95 % der Leistung.

📱 Läuft am Edge

Lässt sich selbst in ressourcenbeschränkten Umgebungen wie Smartphones und Geräten leicht ausführen.

🎯 Stark bei Spezialisierung

Es ist einfach, kleine, aber präzise aufgabenspezifische Modelle zu erstellen.

Kurz gesagt ist die Destillation eine Brücke, die „Klugheit auf Flaggschiff-Niveau“ auf „Kosten, die man im Produktivbetrieb stemmen kann“ herunterbringt. Für Anwendungen mit hohem Aufrufvolumen wie Agenten summiert sich der Kostenunterschied, sodass der Wert besonders groß ist.

3. Zwei Ansätze: White-Box / Black-Box

Die Destillation teilt sich in zwei Varianten auf, je nachdem, wie viel Zugriff man auf das „Innere“ des Lehrers hat. Dies hängt direkt mit dem späteren rechtlichen Punkt zusammen.

🔓

White-Box-Destillation

Wenn man vollen Zugriff auf die Gewichte und internen Repräsentationen des Lehrers hat. Der Schüler lernt nicht nur die Ausgaben, sondern den internen Entscheidungsprozess, sodass die Übertragung tiefer geht. Nutzbar, wenn das eigene Modell oder ein OSS-Modell der Lehrer ist.

📦

Black-Box-Destillation

Wenn man nur die Ausgaben (API-Antworten) des Lehrers sieht. Man sammelt Eingabe-Ausgabe-Paare und trainiert den Schüler darauf. Die API eines anderen Unternehmens als Lehrer zu nutzen, kann gegen dessen Bedingungen verstoßen (siehe unten).

4. Im Vergleich zu Quantisierung und Fine-Tuning

Die Destillation wird leicht mit ähnlichen Techniken zum „Verkleinern/Verändern eines Modells“ verwechselt – Quantisierung und Fine-Tuning. Da ihre Ziele unterschiedlich sind, ordnen wir sie ein.

Technik Was sie tut Ziel
Destillation Trainiert ein separates kleines Modell mit dem Wissen eines großen Modells Klein und schnell, bei erhaltener Leistung
Quantisierung Komprimiert dasselbe Modell durch geringere Gewichtspräzision Speicher/Geschwindigkeit sparen (dasselbe Modell im Inneren)
Fine-Tuning Trainiert ein bestehendes Modell für eine bestimmte Aufgabe weiter Anpassung an Anwendungsfall/Domäne (Größe weitgehend unverändert)

Grob gesagt: Destillation = „die Weisheit in ein anderes, kleineres Gefäß übertragen“, Quantisierung = „dasselbe Gefäß leichter machen“, Fine-Tuning = „demselben Gefäß Fachwissen hinzufügen“. Die drei schließen sich nicht gegenseitig aus – sie werden oft kombiniert (z. B. ein destilliertes kleines Modell zusätzlich quantisieren).

Dies ist der Teil, der 2026 zu einem großen Thema wurde. Die Technik der Destillation ist vollkommen legitim. Zum Problem wird „wessen Ausgaben man verwendet und wofür“.

Der Kern: Die Nutzungsbedingungen von OpenAI, Anthropic, Mistral, xAI und anderen enthalten eine Klausel zur „wettbewerbswidrigen Destillation“, die es verbietet, die Ausgaben ihres Dienstes zur Entwicklung eines konkurrierenden Modells zu verwenden. Daher kann das Destillieren eines konkurrierenden Modells mithilfe der Ausgaben einer eingeschränkten API gegen die Bedingungen verstoßen – auch wenn es technisch möglich ist.

Dies eskalierte im Fall OpenAI gegen DeepSeek zu einem realen Streit. Berichten zufolge behauptete OpenAI, dass „Konten, die vermutlich mit DeepSeek verbunden sind, Zugangsbeschränkungen umgingen, um Modellausgaben zu erlangen, und diese für die Destillation verwendeten“ (Anfang 2026). Zugleich erlauben die Nutzungsbedingungen von DeepSeek selbst Berichten zufolge die Verwendung der Ausgaben des eigenen Dienstes zum Training anderer Modelle (einschließlich Destillation). Der springende Punkt ist, dass sich die Bewertung danach ändert, „wessen API-Bedingungen gelten“.

Diese Frage wirft auch auf die neuesten Modelle einen Schatten. Bei Claude Fable 5 / Mythos 5 wurde ein Design berichtet, bei dem Sicherheits-Klassifikatoren Antworten zu Arbeiten einschränken, die als „Modell-Destillation“ markiert wurden. Die Spannung rund um die Destillation hält sowohl auf der regulatorischen als auch auf der herstellerpolitischen Seite an. In der Praxis lautet die Regel, stets die Nutzungsbedingungen des verwendeten Lehrer-Modells zu prüfen.

Tipps für sicheres Destillieren

  • Verwenden Sie Ihr eigenes Modell oder ein lizenziertes OSS-Modell als Lehrer (viele erlauben die Destillation)
  • Prüfen Sie die Anti-Destillations-Klausel, bevor Sie die kommerzielle API eines anderen Unternehmens als Lehrer nutzen
  • Beurteilen Sie sorgfältig, ob die Nutzung der „Entwicklung eines konkurrierenden Modells“ gleichkommt

Zusammenfassung

Die Modell-Destillation ist eine leistungsstarke Technik, die die Klugheit einer großen KI in eine kleine KI überträgt und sie auf Kosten herunterbringt, die man im Produktivbetrieb stemmen kann. Fassen wir zusammen.

Die wichtigsten Erkenntnisse

  • 🧑‍🏫 Lehrer → Schüler: das Wissen eines großen Modells auf ein kleines übertragen. Soft labels + temperature sind der Schlüssel.
  • ⚡ ~10x kleiner und schneller, bei über 95 % erhaltener Leistung. Ideal für Edge und kostengünstigen Betrieb.
  • 🔓 Zwei Ansätze: White-Box (sieht das Innere) / Black-Box (nur Ausgaben).
  • 🔀 Anders als Quantisierung und Fine-Tuning: Gefäße wechseln / leichter machen / Fachwissen hinzufügen.
  • ⚖️ Bedingungen beachten: Die Technik ist legitim, aber die Ausgaben einer eingeschränkten API zu nutzen, um einen Konkurrenten zu bauen, kann gegen die ToS verstoßen.

„Klugheit vom großen Modell, Betrieb vom kleinen Modell.“ Die Destillation macht diese Kombination möglich. Doch wen man als Lehrer wählt, ändert das Ergebnis sowohl technisch als auch rechtlich. Für die Grundlagen siehe was ein LLM ist; für eine verwandte Technik Fine-Tuning.

FAQ

F. Wie viel Leistung geht durch die Destillation verloren?

A. Es hängt vom Anwendungsfall ab, aber Berichte besagen, dass eine gut konzipierte Destillation „über 95 % der Leistung bei einem Zehntel der Größe erhalten“ kann. Sie ist nicht identisch, also bestätigen Sie stets per Evaluation, dass es im Toleranzbereich liegt.

F. Wann verwende ich Destillation gegenüber Quantisierung?

A. Die Destillation „überträgt Wissen in ein separates, kleineres Modell“; die Quantisierung „komprimiert die Gewichte desselben Modells“. Ihre Ziele unterscheiden sich, also schließen sie sich nicht aus – sie zu kombinieren (z. B. ein destilliertes kleines Modell quantisieren) ist üblich.

F. Darf ich die Ausgaben einer anderen KI nutzen, um mein eigenes Modell zu bauen?

A. Es hängt von den Bedingungen des jeweiligen Anbieters ab. OpenAI, Anthropic und andere haben Anti-Destillations-Klauseln, die es verbieten, Ausgaben zur Entwicklung konkurrierender Modelle zu nutzen. Es kann gegen die Bedingungen verstoßen, selbst wenn es technisch möglich ist, also prüfen Sie stets die Bedingungen des Dienstes, den Sie als Lehrer verwenden.

F. Können auch Einsteiger destillieren?

A. Das Konzept ist einfach, aber die Umsetzung erfordert Kenntnisse im maschinellen Lernen. Beginnen Sie mit dem Verständnis des Mechanismus. Cloud-Anbieter (z. B. Azure) bieten ebenfalls Dienste an, die die Destillation unterstützen, sodass es einfachere Optionen gibt, als von Grund auf zu bauen.