Sie haben RAG aufgebaut, aber die Suchqualität ist mittelmäßig – genau dann hilft Reranking. Sie nehmen die grob von der Embedding-Suche (Vektorsuche) gesammelten Kandidaten und ordnen sie nach Relevanz neu, behalten nur die besten. Dieser eine Schritt kann die Antwortqualität eines RAG-Systems dramatisch verändern – der „letzte Schliff" für die Retrieval-Präzision.

Dieser Artikel erklärt Einsteigern, was Reranking ist, warum es nötig ist, wie zweistufiges Retrieval funktioniert, warum es genau ist (Bi-Encoder vs. Cross-Encoder) sowie die Modelle und die Umsetzung.

RERANKING · BREIT SAMMELN → KLUG NEU ORDNEN

Zwei Stufen, um das „wirklich Relevante" nach oben zu bringen

– mit schneller Suche sammeln, mit genauem Scoring eingrenzen

SCHRITT 1 · RETRIEVE

Embedding-Suche

Kandidaten schnell und breit sammeln (z. B. 100). Auf Recall optimiert.

SCHRITT 2 · NEU ORDNEN

Reranker

Nach Relevanz bewerten und die besten behalten (z. B. 5). Auf Precision optimiert.

1. Was ist Reranking?

Reranking bedeutet, bereits gesammelte Suchergebnisse nach ihrer Relevanz zur Anfrage neu zu bewerten und neu zu ordnen. Bei RAG ziehen Sie zunächst mit der Embedding-Suche viele vermutlich relevante Dokumente heran. Doch diese Reihenfolge ist nur „grob nah dran". Anschließend fügen Sie ein dediziertes Modell namens Reranker hinzu, das die wirklich relevanten Dokumente nach oben schiebt.

Stellen Sie sich „eine Vorauswahl und ein finales Vorstellungsgespräch" vor. Die Vorauswahl (Embedding-Suche) sichtet Bewerber schnell und lässt viele durch. Das finale Gespräch (Reranker) prüft jeden sorgfältig und stellt die besten nach oben. Eine schnelle Vorauswahl plus ein genaues Abschlussgespräch – diese zweistufige Struktur ist der Schlüssel.

💡 In einem Satz: Reranking = „eine zweite Stufe, die durch Neuordnung der Suchergebnisse die Präzision erhöht." Nachdem die Embedding-Suche Auslassungen verhindert, übernimmt es das „die besten nach oben bringen".

2. Warum es nötig ist: Grenzen der Embedding-Suche

Die Embedding-Suche ist schnell und praktisch, hat aber eine Schwäche. Da sie Anfrage und Dokumente getrennt vektorisiert und dann vergleicht, erfasst sie die feinkörnige Beziehung zwischen beiden nicht. Sie ist gut im „grob nah dran", aber grob bei der Beurteilung „beantwortet das die Frage wirklich?"

Dadurch mischen sich unter die Top-Ergebnisse Dokumente, die „stichwortnah, aber am Thema vorbei" sind. Da RAG die obersten gefundenen Dokumente direkt an die KI übergibt, senkt eine schlechte Reihenfolge die Antwortqualität unmittelbar. Hier misst ein Reranker die Relevanz richtig neu und korrigiert die Reihenfolge. Studien zeigen, dass das Hinzufügen von Reranking die RAG-Genauigkeit erheblich verbessert (ein Bericht nennt etwa 40 % Zugewinn) – eine berichtete Zahl.

Darüber hinaus ist es 2026 zum Standard für produktives RAG geworden, Reranking auf eine hybride Suche – die Kombination aus Stichwort- und Vektorsuche – aufzusetzen. „Breit und vielfältig sammeln und am Ende den Reranker nach Relevanz ordnen lassen" – dieser Ablauf hebt die Präzision.

3. Wie es funktioniert: zweistufiges Retrieval

Reranking bauen Sie als „zweistufiges Retrieval" ein. Das Prinzip lautet „breit sammeln, klug eingrenzen".

① Breit sammeln mit Embedding-Suche~100
Viele Kandidaten schnell sammeln (Recall = nichts verpassen)
↓ mit dem Reranker bewerten
② Mit dem Reranker auf die besten eingrenzenTop 5
Nach Relevanz neu ordnen (Precision = nur was wirklich hilft)
↓ nur die besten weitergeben
③ An das LLM zur Generierung übergeben
Antwort aus einem kuratierten Kontext

Der Kern ist die Arbeitsteilung. Jedes Dokument mit einem Reranker zu bewerten, ist zu langsam, um praktikabel zu sein. Deshalb grenzt die schnelle Embedding-Suche die Kandidaten zuerst ein (z. B. 100), und nur diese kleine Menge prüft der Reranker. Das balanciert Geschwindigkeit und Präzision. Es passt auch zur Idee des Context Engineering, „die kleinste Menge an Informationen mit dem höchsten Signalwert zu übergeben".

4. Warum ein Reranker genauer ist

Embeddings und Reranker sind innen unterschiedlich gebaut. Das ist der Grund für den Genauigkeitsunterschied.

BI-ENCODER (Embedding)

Getrennt betrachten, später vergleichen

Vektorisiert Anfrage und Dokument einzeln und misst dann den Abstand. Vorberechenbar und schnell, sieht aber nie ihre Wechselwirkung (näherungsweise).

CROSS-ENCODER (Reranker)

Gemeinsam betrachten, direkt bewerten

Gibt Anfrage und Dokument gemeinsam ein und liefert direkt einen Relevanzwert (0–1) aus. Es sieht ihre Wechselwirkung, ist daher genau – aber schwergewichtig.

Im Vergleich „fasst ein Bi-Encoder zwei Aufsätze getrennt zusammen und vergleicht dann die Zusammenfassungen", während ein Cross-Encoder „die beiden nebeneinander liest und die Beziehung beurteilt". Letzterer ist naturgemäß genauer, lässt sich aber nicht auf jedes Dokument anwenden. Deshalb ergibt der zweistufige Aufbau Sinn – mit dem schnellen Bi-Encoder sammeln, mit dem genauen Cross-Encoder eingrenzen.

5. Modelle und Umsetzung

Sie müssen einen Reranker nicht von Grund auf bauen – dedizierte Modelle und APIs sind verfügbar.

API-Typ (einfach)

Cohere Rerank, Voyage, Jina Reranker. Einfach auf Ihre bestehende Suche aufsetzen – nur ein API-Aufruf.

Open-Source-Typ

BGE reranker, mixedbread, FlashRank (leichtgewichtig). Kostenlos selbst hostbar – gut für Kosten und Datenschutz.

Mit einem LLM bewerten (RankLLM usw.)

Das LLM selbst bewerten lassen, „was relevant ist". Flexibel, aber teurer.

Die Umsetzung ist überraschend einfach. Zu Ihrem bestehenden RAG (Vektorsuche) fügen Sie nur diesen einen Schritt hinzu: „eine größere Anzahl abrufen (z. B. 50–100), diese durch einen Reranker laufen lassen und auf die Top 5 eingrenzen". Messen Sie die Wirkung mit KI-Evaluierungen und stimmen Sie ab, wie viele Sie abrufen und wie viele Sie behalten.

※ Modellnamen und Zahlen stammen aus verschiedenen Leitfäden und Studien (Stand Juni 2026). Die Wirkung variiert je nach Daten und Einstellungen, daher sind Messen und Abstimmen der sichere Weg.

Fazit

Drei Kernaussagen zum Reranking.

  • Was es ist: eine zweite Stufe, die Suchergebnisse nach Relevanz neu bewertet und die besten nach oben ordnet. Der „letzte Schliff" für die RAG-Präzision.
  • Wie es funktioniert: zweistufiges Retrieval – breit sammeln mit schneller Embedding-Suche, dann eingrenzen mit einem genauen Reranker. „Breit sammeln, klug eingrenzen."
  • Der Unterschied: Embeddings (Bi-Encoder) betrachten getrennt und sind schnell; Reranker (Cross-Encoder) betrachten gemeinsam und sind genau. Teilen Sie die Rollen auf, um beides zu bekommen.

Wenn Ihrem RAG die Präzision fehlt, beginnen Sie damit, einen Reranker hinzuzufügen. Oft verändert allein das Aufsetzen auf Ihre bestehende Suche das Empfinden sichtbar. Lesen Sie ergänzend dazu Embeddings und RAG umsetzen, um das gesamte Retrieval-Bild zu erfassen.

FAQ

F. Reicht die Embedding-Suche allein nicht aus?

A. Für manche Anwendungen ja – aber Reranking hilft, wenn die Präzision nicht ausreicht. Embeddings sind gut darin, schnell und breit zu sammeln, aber grob bei der Relevanzbeurteilung. Ein Reranker macht es wahrscheinlicher, dass die wirklich relevanten Dokumente oben landen.

F. Wird es nicht langsam?

A. Ein Reranker ist schwergewichtig, aber Sie wenden ihn nur auf die kleine, durch die Embedding-Suche eingegrenzte Menge an (z. B. 50–100), nicht auf jedes Dokument, sodass die Geschwindigkeit praktikabel bleibt. Der Trick ist, nicht zu viele abzurufen.

F. Sind Reranker und Embedding-Modelle verschiedene Dinge?

A. Ja. Ein Embedding-Modell (Bi-Encoder) erzeugt Vektoren für die Suche; ein Reranker (Cross-Encoder) betrachtet die beiden gemeinsam und bewertet die Relevanz. Unterschiedliche Rollen, daher kombinieren Sie beide.

F. Wie viele soll ich abrufen und wie viele behalten?

A. Eine grobe Faustregel ist „50–100 abrufen → die Top 3–10 behalten", aber das Optimum hängt von Ihren Daten ab. Messen Sie die Präzision mit KI-Evaluierungen und passen Sie die Anzahlen an. Zu viele ist langsam; zu wenige verpasst etwas.