Qu'est-ce que le reranking ? La récupération en deux étapes qui booste la précision du RAG — guide pour débutants
Vous avez construit un RAG, mais la qualité de la recherche est médiocre — c'est exactement là que le reranking aide. Le reranking re-score, selon leur pertinence par rapport à la requête, les candidats grossièrement rassemblés par la recherche par embedding (vectorielle) et les réordonne en ne gardant que les meilleurs ; cette seule étape peut transformer radicalement la qualité des réponses d'un système RAG. Ce guide pour débutants explique ce qu'est le reranking (avec l'analogie de la présélection et de l'entretien final), pourquoi il est nécessaire (la recherche par embedding vectorise la requête et les documents séparément, donc elle ne juge la pertinence que grossièrement, et un mauvais ordre fait directement baisser la qualité des réponses — la recherche rapporte un gain de précision RAG d'environ 40 % grâce au reranking, et le superposer à la recherche hybride est le standard 2026), comment fonctionne la récupération en deux étapes (« rassembler large » avec une recherche par embedding rapide pour le rappel, puis « affiner intelligemment » avec le reranker pour la précision, avant de transmettre le haut du panier au LLM), pourquoi un reranker est plus précis (un bi-encoder vectorise la requête et le document individuellement, rapide mais approximatif ; un cross-encoder les fournit ensemble et produit un score de pertinence 0–1, précis mais lourd — on rassemble donc avec le bi-encoder rapide et on affine avec le cross-encoder précis), ainsi que les modèles et l'implémentation (type API comme Cohere Rerank, Voyage et Jina ; open source comme BGE reranker, mixedbread et FlashRank ; et scoring par LLM comme RankLLM — il suffit de récupérer 50–100 et d'affiner au top 5). Le principe : rassembler large, affiner intelligemment, et ajuster les nombres avec des évaluations d'IA.