¿Qué es el reranking? La recuperación en dos etapas que mejora la precisión de RAG — Guía para principiantes
Construiste un sistema RAG pero la calidad de búsqueda es mediocre: justo ahí es donde ayuda el reranking. El reranking vuelve a puntuar por su relevancia respecto a la consulta los candidatos reunidos de forma aproximada por la búsqueda por embeddings (vectorial) y los reordena, conservando solo los mejores; este único paso puede cambiar drásticamente la calidad de las respuestas de un sistema RAG. Esta guía para principiantes cubre qué es el reranking (con la analogía de una primera criba y una entrevista final), por qué hace falta (la búsqueda por embeddings vectoriza la consulta y los documentos por separado, así que juzga la relevancia solo de forma tosca, y un mal orden reduce directamente la calidad de las respuestas; la investigación reporta en torno a un 40% de mejora de precisión en RAG al añadir reranking, y superponerlo a la hybrid search es el estándar de 2026), cómo funciona la recuperación en dos etapas («reunir amplio» con la rápida búsqueda por embeddings para el recall, luego «acotar con criterio» con el reranker para la precisión, y entregar los mejores al LLM), por qué un reranker es más preciso (un bi-encoder vectoriza la consulta y el documento por separado y es rápido pero aproximado; un cross-encoder los introduce juntos y produce una puntuación de relevancia de 0–1, preciso pero pesado, así que reúnes con el rápido bi-encoder y acotas con el preciso cross-encoder) y los modelos e implementación (tipo API como Cohere Rerank, Voyage y Jina; open-source como BGE reranker, mixedbread y FlashRank; y puntuación con LLM como RankLLM: basta con recuperar 50–100 y acotar a los 5 mejores). El principio: reunir amplio, acotar con criterio y afinar las cantidades con evaluaciones de IA.