Was ist Reranking? Zweistufiges Retrieval, das die RAG-Genauigkeit steigert – ein Einsteigerleitfaden
Sie haben RAG aufgebaut, aber die Suchqualität ist mittelmäßig – genau dann hilft Reranking. Reranking bewertet die grob von der Embedding-Suche (Vektorsuche) gesammelten Kandidaten nach ihrer Relevanz zur Anfrage neu und ordnet sie um, behält nur die besten; dieser eine Schritt kann die Antwortqualität eines RAG-Systems dramatisch verändern. Dieser Einsteigerleitfaden behandelt, was Reranking ist (ein Vergleich von Vorauswahl und finalem Vorstellungsgespräch), warum es nötig ist (die Embedding-Suche vektorisiert Anfrage und Dokumente getrennt und beurteilt die Relevanz daher nur grob, und eine schlechte Reihenfolge senkt die Antwortqualität unmittelbar – Studien berichten von etwa 40 % RAG-Genauigkeitszugewinn durch Reranking, und das Aufsetzen auf eine hybride Suche ist der Standard 2026), wie zweistufiges Retrieval funktioniert („breit sammeln" mit schneller Embedding-Suche für Recall, dann „klug eingrenzen" mit dem Reranker für Precision, dann die besten an das LLM übergeben), warum ein Reranker genauer ist (ein Bi-Encoder vektorisiert Anfrage und Dokument einzeln, ist schnell, aber näherungsweise; ein Cross-Encoder gibt beide gemeinsam ein und liefert einen Relevanzwert von 0–1, genau, aber schwergewichtig – daher sammeln Sie mit dem schnellen Bi-Encoder und grenzen mit dem genauen Cross-Encoder ein) sowie die Modelle und Umsetzung (API-Typ wie Cohere Rerank, Voyage und Jina; Open Source wie BGE reranker, mixedbread und FlashRank; und LLM-basiertes Scoring wie RankLLM – einfach 50–100 abrufen und auf die Top 5 eingrenzen). Das Prinzip: breit sammeln, klug eingrenzen und die Anzahlen mit KI-Evaluierungen abstimmen.