O que é reranking? A recuperação em duas etapas que aumenta a precisão do RAG — guia para iniciantes
Você montou um RAG, mas a qualidade da busca está mediana — é exatamente aí que o reranking ajuda. O reranking repontua os candidatos reunidos de forma aproximada pela busca por embedding (vetorial) com base na relevância em relação à consulta e os reordena, mantendo apenas os melhores; essa única etapa pode mudar drasticamente a qualidade das respostas de um sistema RAG. Este guia para iniciantes cobre o que é reranking (com a analogia de uma triagem inicial e uma entrevista final), por que ele é necessário (a busca por embedding vetoriza a consulta e os documentos separadamente, então julga a relevância apenas de forma grosseira, e uma ordenação ruim reduz diretamente a qualidade da resposta — pesquisas reportam um ganho de cerca de 40% na precisão do RAG ao adicionar reranking, e sobrepô-lo à hybrid search é o padrão de 2026), como funciona a recuperação em duas etapas ("reunir amplo" com a busca por embedding rápida para o recall, depois "refinar com inteligência" com o reranker para a precision, e por fim entregar os melhores ao LLM), por que um reranker é mais preciso (um bi-encoder vetoriza a consulta e o documento individualmente e é rápido, mas aproximado; um cross-encoder os alimenta juntos e gera uma pontuação de relevância de 0–1, preciso, mas pesado — então você reúne com o bi-encoder rápido e refina com o cross-encoder preciso) e os modelos e a implementação (tipo API como Cohere Rerank, Voyage e Jina; open-source como BGE reranker, mixedbread e FlashRank; e pontuação baseada em LLM como RankLLM — basta recuperar 50–100 e refinar até os 5 melhores). O princípio: reunir amplo, refinar com inteligência e ajustar as quantidades com avaliações de IA.