Sie haben Ihre Prompts verfeinert, mit RAG Wissen ergänzt und vielleicht sogar Fine-Tuning betrieben – aber wie bestätigen Sie, dass es „wirklich besser geworden ist"? Genau hier rücken AI Evals (Evaluierung) in den Mittelpunkt. Bis 2026 ist die Evaluierung so unverzichtbar für den Bau von KI geworden, dass man sie als „Infrastruktur" bezeichnet.

Dieser Artikel erklärt Einsteigern, was AI Evals sind, warum Sie sie brauchen, die zwei Evaluierungsmethoden, wie das vielbesprochene „LLM-as-Judge" funktioniert und seine Fallstricke, sowie wie Sie es in der Praxis einsetzen.

AI EVALS · VERBESSERN KANN MAN NUR, WAS MAN MISST

Mit Code messen; Geschmack mit KI beurteilen

– aus „scheint gut genug" eine Zahl machen

📏

Kriterien definieren

„Eine gute Ausgabe" in einen konkreten Maßstab verwandeln.

⚙️

Automatisch bewerten

Jedes Mal konsistent benoten, mit Code oder KI.

📈

Veränderung verfolgen

Laufend beobachten, was besser oder schlechter wurde.

1. Was sind AI Evals?

AI Evals bedeuten, die Qualität der Ausgaben eines LLM systematisch zu messen. „Ist diese Antwort korrekt?" „Gibt es Halluzinationen (erfundene Fakten)?" „Folgt sie dem geforderten Format?" „Ist der Ton angemessen?" – Sie bewerten dies anhand eines festen Maßstabs statt nach Bauchgefühl im Moment.

Stellen Sie sich vor, „einen Test zu benoten". Sie geben dem Schüler (der KI) eine Frage (die Eingabe) und bewerten sie anhand einer Musterlösung oder eines Rasters. Sobald Sie bewerten können, sehen Sie endlich, „welche Änderung sie besser und welche sie schlechter gemacht hat". Ohne Evals ist Verbesserung nur eine Vermutung.

💡 In einem Satz: Evals = „ein System, das KI-Ausgaben bewertet." Prompt-Anpassungen und Fine-Tuning haben erst dann eine Bedeutung, wenn Sie einen Maßstab haben, um sie zu messen.

2. Warum Sie sie brauchen: Nicht aus dem Bauch heraus liefern

Ein gewöhnliches Programm ist fest – „Eingabe A ergibt immer Ausgabe B" –, aber KI variiert selbst bei gleicher Eingabe (sie ist nicht-deterministisch), und „gut oder schlecht" ist oft subjektiv. Deshalb ist „ich habe ein paar ausprobiert und sie sahen gut aus, also raus damit" riskant. Die wenigen, die Sie zufällig gesehen haben, waren vielleicht nur durch Glück gut.

Die Systematisierung der Evaluierung ermöglicht Folgendes:

  • Änderungen anhand von Zahlen beurteilen: Wenn Sie einen Prompt oder ein Modell ändern, vergleichen Sie nach Punktzahl
  • Regressionen aufspüren: Sehen, ob eine „Verbesserung" etwas anderes kaputt gemacht hat
  • Produktionsqualität überwachen: Bemerken, wenn die Leistung der KI im Betrieb nachlässt

Das passt gut zur spezifikationsgesteuerten Entwicklung. Legen Sie fest, „was gebaut werden soll" (die Spezifikation), und „messen Sie, ob Sie es gebaut haben" (Evals) – mit beidem wird KI-Entwicklung endlich zu etwas, das Sie steuern können.

3. Zwei Methoden: Code vs. LLM-as-Judge

Es gibt grob zwei Wege zu evaluieren. Mechanisch mit Code messen; eine KI das Subjektive benoten lassen – diese Aufteilung ist das Grundprinzip.

CODE-BASIERT (deterministisch)

Mechanisch nach Regeln beurteilen

  • Exakte Übereinstimmung, gefordertes Format (JSON usw.)
  • Enthält ein gefordertes Wort / vermeidet ein verbotenes
  • Schnell, günstig, jedes Mal dasselbe Ergebnis
  • Am besten für Punkte mit einer klaren richtigen Antwort
LLM-AS-JUDGE (modellbewertet)

Eine KI eine KI benoten lassen

  • Halluzination, Relevanz, Nützlichkeit, Ton
  • Subjektive Punkte ohne eine einzige richtige Antwort
  • Schneller und günstiger als Menschen, im großen Maßstab
  • Aber Vorsicht vor ihren Eigenheiten (Verzerrungen)

Die Faustregel: „Lassen Sie eine KI nicht benoten, was Sie mit Code messen können." Code-Evaluierung ist schneller, günstiger und stabiler. Heben Sie LLM-as-Judge für subjektive Punkte auf, die Code schwer beurteilen kann, etwa ob es eine Halluzination gibt.

4. So funktioniert LLM-as-Judge

LLM-as-Judge bedeutet, ein leistungsstarkes LLM als „Schiedsrichter" zu nutzen, um die Ausgabe einer anderen KI zu bewerten. Sie übergeben dem Richter-LLM einen Prompt, der die Kriterien, die Eingabe und die Ausgabe enthält, und es liefert eine Punktzahl, ein pass/fail oder „welche ist besser" zurück. Es gibt zwei Hauptstile.

Pairwise-Vergleich

Stellen Sie zwei Antworten nebeneinander und fragen Sie „welche ist besser?" KI ist gut darin zu beurteilen, welche relativ stärker ist. Ideal für A/B-Vergleiche.

Einzelausgabe-Bewertung

Bewerten Sie eine Antwort anhand eines Rasters, um ihr eine Punktzahl zu geben. Gut, um die absolute Qualität über die Zeit zu verfolgen.

⚠️ Grobe Bewertung ist genauer: KI ist schlecht in feinkörniger 1–10-Bewertung und schwankt. Eine grobe Skala wie „pass/fail" oder „1–3" liefert tatsächlich stabilere Ergebnisse.

5. Die Falle: Verzerrungen des Richters

LLM-as-Judge hat „Schiedsrichter-Eigenheiten". Wenn Sie sie nicht kennen, vertrauen Sie den Bewertungen zu sehr und nehmen die falschen Verbesserungen vor. Behalten Sie diese drei großen im Auge.

① Wortfülle-Verzerrung

Neigt dazu, längere, komplexere Antworten höher zu bewerten – selbst dünner Inhalt profitiert von schierer Länge.

② Positions-Verzerrung

Die Reihenfolge, in der Sie Antworten auflisten (z. B. die zuerst gezeigte), erzeugt einen Vor- oder Nachteil.

③ Selbstbevorzugung

Neigt dazu, von ihr selbst (derselben Modellfamilie) verfasste Antworten höher zu bewerten.

Die Gegenmaßnahmen sind einfach.

  • Ein anderes Modell als Bewerter einsetzen: Benoten Sie GPT-Ausgaben nicht mit GPT. Lassen Sie eine andere Familie – Claude, Gemini usw. – als Schiedsrichter fungieren, um Selbstbevorzugung zu vermeiden.
  • Reihenfolge tauschen und zweimal benoten: Behalten Sie das Ergebnis, wenn beide übereinstimmen, verwerfen Sie es bei Widerspruch (Kontrolle der Positions-Verzerrung).
  • „Prägnanz" ins Raster aufnehmen: „Nicht nach Länge urteilen" allein reicht nicht. Fügen Sie ein Prägnanz-Kriterium hinzu und weisen Sie den Richter an, Wortfülle zu bestrafen.
  • An menschlichem Urteil kalibrieren: Lassen Sie eine Person eine kleine Stichprobe benoten und stimmen Sie die Kriterien so ab, dass sie zu den KI-Bewertungen passen. Das ist der wirksamste Schritt.

6. In der Praxis: Evaluierung als „Infrastruktur"

In der Praxis von 2026 ist Evaluierung keine einmalige Sache – der Standard ist, sie kontinuierlich über drei Stufen hinweg laufen zu lassen („Evaluierung als Infrastruktur").

① Sofortprüfung bei jeder Änderung

Leichte code-basierte Evals bei jeder Code-Änderung automatisch ausführen (CI). Offensichtliche Defekte sofort blockieren.

② Nächtliche Regressionstests

Qualität über Nacht im großen Stil mit LLM-as-Judge benoten. Langsame, schleichende Verschlechterung erkennen.

③ Kontinuierliche Produktionsüberwachung

Live-Ausgaben beobachten und alarmieren, wenn die Qualität sinkt. Die Auswirkung auf echte Nutzer begrenzen.

Auch die Werkzeuge sind gereift. Für leichte CI-Läufe DeepEval (das sich wie pytest anfühlt) oder Promptfoo; speziell für RAG RAGAS (das Faithfulness, Relevanz und mehr misst). Für menschliche Überprüfung, Dashboards und Produktionsüberwachung Plattformen wie Braintrust, LangSmith und Arize. In der Praxis ist die Kombination „ein leichtes CI-Werkzeug" mit „einer Überwachungsplattform" die Norm. Dieselbe Evaluierungsmechanik untermauert die Qualität auch beim Bau von KI-Agenten.

※ Werkzeugnamen und Methoden sind aus verschiedenen Leitfäden und Veröffentlichungen zitiert (Stand Juni 2026). Das beste Setup variiert je nach Teamgröße und Anwendungsfall.

Zusammenfassung

Drei Kernaussagen zu AI Evals.

  • Was sie sind: ein System, das LLM-Ausgaben bewertet und Verbesserung von einer „Vermutung" in „Zahlen" verwandelt. Ein unverzichtbarer Schritt in der KI-Entwicklung.
  • Zwei Methoden: Code-Evals für deterministische Punkte, LLM-as-Judge für subjektive. Messen Sie mit Code alles, was Code messen kann.
  • Vorsicht: LLM-as-Judge hat Wortfülle-, Positions- und Selbstbevorzugungs-Verzerrungen. Begegnen Sie ihnen mit einem anderen Bewerter-Modell, einer groben Skala und menschlicher Kalibrierung.

Beginnen Sie damit, jeweils 10 „gute Ausgaben" und „schlechte Ausgaben" Ihrer eigenen KI zu sammeln und sie anhand einfacher Kriterien zu bewerten. Das wird Ihr erster Maßstab. Lesen Sie Fine-Tuning und Context Engineering ergänzend dazu, um das vollständige Bild der KI-Verbesserung zu erhalten.

FAQ

F. Kann man einer KI, die eine KI benotet, wirklich vertrauen?

A. Nicht blind. Wegen der Wortfülle-, Positions- und Selbstbevorzugungs-Verzerrungen ist es wichtig, mit einer anderen Modellfamilie zu benoten und an einer kleinen, von Menschen bewerteten Stichprobe zu kalibrieren. Einmal kalibriert, läuft es im großen Maßstab mit nahezu menschlicher Genauigkeit.

F. Wie viele Eval-Beispiele brauche ich?

A. Mit nur ein paar Dutzend können Sie problemlos starten. Der Trick besteht darin, echte gute und schlechte Beispiele zu sammeln und zuerst ein kleines Eval-Set aufzubauen. Statt nach Perfektion zu streben, erweitern Sie die Kriterien nach und nach – das ist praxistauglicher.

F. Code-Evals oder LLM-as-Judge – was sollte ich verwenden?

A. Beides. Verwenden Sie Code-Evals für mechanisch Messbares wie Format und geforderte Wörter; verwenden Sie LLM-as-Judge für subjektive Dinge wie Halluzination und Ton. Es ist nicht nötig, eine KI das benoten zu lassen, was Sie deterministisch messen können.

F. Brauchen Einzelentwickler Evals?

A. Sie helfen unabhängig vom Maßstab. Schon ein kleiner „Standard für eine gute Ausgabe" lässt Sie erkennen, ob eine Prompt- oder Modelländerung eine Verbesserung oder eine Regression ist. Schon das Benoten einer Handvoll von Hand ist ein nützlicher Anfang.