Inhaltsverzeichnis
„Ich möchte die KI für mein eigenes Unternehmen anpassen" — wenn dieser Wunsch aufkommt, ist Fine-Tuning (Feinabstimmung) eine der Optionen, die auf dem Tisch liegen. Es ist eine Technik, bei der man ein bereits trainiertes LLM nimmt und es weiter trainiert, um es für einen bestimmten Zweck „großzuziehen". Steigt man jedoch unbedacht ein, ist es teuer und leicht falsch zu machen. Dieser Artikel erklärt für Einsteiger, was Fine-Tuning ist, wofür es taugt, wie es sich im Vergleich zu RAG und Prompting schlägt, welche Methoden es gibt, was du brauchst und in welcher Reihenfolge du beginnen solltest.
RAG ist für „Wissen", FT ist für „Verhalten"
— zuerst Prompts und RAG; Fine-Tuning ist das letzte Mittel
Prompting
Zuerst die Anweisung verfeinern. Kostenlos und am schnellsten.
RAG (Retrieval)
Aktuelles oder internes Wissen wird hier ergänzt.
Fine-Tuning
Das letzte Mittel, wenn das immer noch nicht reicht.
1. Was ist Fine-Tuning?
Fine-Tuning bedeutet, ein bereits fertig trainiertes KI-Modell (das Basismodell) zu nehmen, es mit auf den eigenen Zweck zugeschnittenen Daten weiter zu trainieren und es so in ein spezialisiertes Modell umzuformen. Zum Beispiel „im Stil unseres Hauses antworten", „in einem bestimmten Format ausgeben" oder „die Fachsprache eines Bereichs sicher beherrschen" — es brennt diese „Eigenheiten" und „Schablonen" in das Modell selbst ein.
Stell dir eine „Einarbeitung neuer Mitarbeiter" vor. Selbst wenn du eine brillante Person (das Basismodell) einstellst, kennt sie die Abläufe deines Unternehmens nicht. Schulst du sie an euren eigenen Fällen, kann sie „auf eure Art" arbeiten, ohne dass du jedes Mal detaillierte Anweisungen geben musst. Fine-Tuning schreibt die Gewichte (Parameter) des Modells selbst ein wenig um.
💡 In einem Satz: Fine-Tuning = „zusätzliches Training, das eine ‚Schablone' in das Modell selbst einbrennt." Während Prompts und RAG jedes Mal Anweisungen und Material übergeben, verändert FT das Wesen des Modells dauerhaft.
2. Wozu es taugt und wozu nicht
Wer das falsch versteht, scheitert. Fine-Tuning ist gut darin, „Verhalten zu ändern" und schlecht darin, „aktuelles Wissen zu merken".
- In festem Stil und Ton antworten
- In einem bestimmten Format ausgeben
- Sich an die Ausdrucksweise eines Bereichs gewöhnen
- Lange Anweisungen pro Anfrage überflüssig machen
- Sich häufig wechselnde, aktuelle Informationen merken
- Interne Dokumente als „Fakten" präzise vorhalten
- Die Quelle des Gelernten angeben
- Nach dem Training aktualisieren (erfordert jedes Mal Nachtraining)
Wenn du aktuelle Informationen oder interne Daten korrekt handhaben willst, eignet sich RAG (abrufen und dem Kontext hinzufügen) besser als Fine-Tuning. Umgekehrt ist das Festzurren einer Schablone — „immer dieser Ton, dieses Format" — die Paradedisziplin des Fine-Tunings.
3. Fine-Tuning vs. RAG vs. Prompting
Es gibt drei Wege, KI anzupassen, und sie unterscheiden sich in Kosten und Rolle. Verschaff dir zunächst mit einer Tabelle den Überblick.
| Methode | Rolle | Kosten | Am besten für |
|---|---|---|---|
| Prompting | Die Anweisung verfeinern | Fast $0 | Zuerst ausprobieren; oft schon allein ausreichend |
| RAG | Wissen abrufen und ergänzen | Mittel | Wenn du aktuelle oder interne „Fakten" brauchst |
| Fine-Tuning | Verhalten einbrennen | Hoch | Stil/Ton festzurren; Kostenoptimierung bei hohem Volumen |
⚠️ Ein verbreitetes Missverständnis: „Geringe Genauigkeit = wir brauchen Fine-Tuning" ist falsch. Wie es die Fachleute formulieren: „80 % der Fälle, in denen ‚wir brauchen FT', lassen sich durch besseres Retrieval (RAG) oder Prompting lösen." Vor allem: Überspringe die Reihenfolge nicht.
Die Eselsbrücke ist einfach: „Fakten und Wissen → RAG; Persönlichkeit und Schablone → Fine-Tuning; Prompts zuerst." In echten Produktivsystemen lautet der Standard für 2026, alle drei zu kombinieren — RAG für Fakten, FT für Verhalten. Das knüpft nahtlos an die Denkweise des Context Engineering an.
4. Die wichtigsten Methoden (Full, LoRA, QLoRA)
Es gibt mehrere Wege, Fine-Tuning durchzuführen. Die drei, die ein Einsteiger zuerst kennen sollte, sind diese.
Full Fine-Tuning
Aktualisiert alle Parameter des Modells. Am leistungsstärksten, aber am rechenintensivsten und teuersten. Für Einzelpersonen oder kleine Teams schwer zu stemmen.
LoRA
Friert den Hauptteil ein und trainiert nur einen kleinen „Adapter". Da nur ein winziger Teil aktualisiert wird, ist es leicht und günstig (das Aushängeschild von PEFT).
QLoRA (empfohlen)
Kombiniert LoRA mit 4-Bit-Quantisierung, sodass selbst große Modelle auf einer bescheidenen GPU trainiert werden können. Ideal für den ersten Schritt eines Einsteigers.
Der Schlüssel ist, „zuerst QLoRA auszuprobieren". Wie die Fachleute sagen: „Wenn LoRA/QLoRA nicht funktioniert, wird Full Fine-Tuning mit ziemlicher Sicherheit auch nicht klappen." Kombinierst du es mit einem lokalen LLM, kannst du sogar im Kleinen auf deinem eigenen PC experimentieren.
5. Daten, Kosten und Werkzeuge, die du brauchst
Der schwierigste Teil des Fine-Tunings ist eigentlich nicht das Training selbst, sondern der „Aufbau der Daten". Behalte diese groben Richtwerte im Kopf.
- Datenmenge: Du willst 500+ hochwertige Beispiele. Weniger als 50 gilt als zu wenig Signal, um daraus zu lernen. Qualität schlägt Quantität.
- Vorbereitungsaufwand: Sammeln, Bereinigen, Formatieren und Qualitätsprüfung können Wochen bis Monate dauern. Das ist die eigentliche Arbeit.
- Kosten: Ernsthafte Projekte können $5.000 bis über $50.000 kosten. Das Fine-Tuning von OpenAI ist mit rund $25–$100 pro Million Trainings-Tokens angegeben (je nach Modell).
- Werkzeuge: die Fine-Tuning-API von OpenAI, Unsloth, Axolotl, Hugging Face, Together, Databricks und mehr. Der Einfachheit halber beginne mit einer Managed-Option.
※ Zahlen zitiert aus Hersteller-Angaben und diversen Leitfäden (Stand Juni 2026). Die tatsächlichen Kosten variieren stark je nach Modell, Datenmenge und Methode.
6. Wann solltest du es tun? (Die Reihenfolge zählt)
Die eiserne Regel, um Misserfolge zu vermeiden, lautet „halte die Reihenfolge ein". Geh erst zum nächsten Schritt über, wenn der vorige nicht ausreicht.
- ① Verfeinere deine Prompts: Prompt Engineering löst eine Menge. Kostenlos und sofort testbar.
- ② Füge RAG hinzu: Wenn du aktuelle oder interne Fakten brauchst, nutze RAG. Günstiger als FT und leichter zu aktualisieren.
- ③ Wenn die Schablone immer noch nicht hält, dann FT: Ziehe es nur in Betracht, wenn das Ziel „immer dieser Ton/dieses Format" oder „Kostenoptimierung bei hohem Volumen" ist.
💡 Eine Entscheidungshilfe: „nicht genug Wissen" → RAG. „hört nicht / die Schablone bricht" → Fine-Tuning. Triffst du diese Unterscheidung richtig, vermeidest du verschwendete Investitionen.
Zusammenfassung
Drei Kernaussagen zum Fine-Tuning.
- Was es ist: zusätzliches Training eines vortrainierten Modells, das Verhalten und Schablone in das Modell selbst einbrennt. Es schreibt die Gewichte um.
- Wann was nutzen: Wissen → RAG, Verhalten → FT, Prompts zuerst. Vieles von „wir brauchen FT" lässt sich durch besseres Retrieval lösen.
- Wie anfangen: Beginne mit QLoRA. 500+ hochwertige Beispiele sind der Richtwert, und der Aufbau der Daten ist die eigentliche Arbeit. Die Kosten sind hoch.
Das Fazit: Fine-Tuning ist das „letzte Mittel". Probiere zuerst Prompts und RAG aus und ziehe FT in Betracht, wenn die Schablone immer noch nicht hält. Für das vollständige Bild der KI-Anpassung lies RAG und Context Engineering ergänzend dazu.
FAQ
F. Fine-Tuning oder RAG — was sollte ich wählen?
A. Entscheide nach dem Zweck. Brauchst du aktuelles oder internes „Wissen und Fakten"? RAG. Willst du „Verhalten, Schablone und Ton" festzurren? Fine-Tuning. In der Praxis ist eine Kombination beider Verfahren üblich. Beginne zuerst mit RAG und Prompting.
F. Kann eine Einzelperson Fine-Tuning durchführen?
A. Ja. Mit QLoRA kannst du kleine Modelle selbst auf einer bescheidenen GPU trainieren, und kombiniert mit einem lokalen LLM kannst du es auf deinem eigenen PC ausprobieren. Empfohlen wird, zunächst mit einem kleinen Datensatz und einem kleinen Modell ein Gefühl dafür zu bekommen.
F. Wie viele Daten brauche ich?
A. Der Richtwert sind 500+ hochwertige Beispiele. Weniger als 50 liefern nicht genug Signal, um daraus zu lernen. Allerdings zählt Qualität mehr als Quantität — konsistente, sorgfältige Daten sind wirksamer.
F. Bringt Fine-Tuning dem Modell aktuelle Informationen bei?
A. Darin ist es schlecht. Es spiegelt wider, was zum Trainingszeitpunkt vorhanden war, doch spätere Aktualisierungen erfordern Nachtraining, und es kann keine Quellen angeben. Der präzise Verweis auf häufig wechselnde Informationen oder interne Dokumente ist die Aufgabe von RAG.