Что такое реранкинг? Двухэтапный поиск, повышающий точность RAG — гид для новичков
Вы собрали RAG, но качество поиска посредственное — именно тогда помогает реранкинг. Реранкинг заново оценивает кандидатов, грубо собранных эмбеддинг-поиском (векторным поиском), по их релевантности запросу и переупорядочивает их, оставляя только лучшие; один этот шаг способен резко изменить качество ответов RAG-системы. Этот гид для новичков объясняет, что такое реранкинг (аналогия с первичным отбором и финальным собеседованием), зачем он нужен (эмбеддинг-поиск векторизует запрос и документы по отдельности, поэтому судит о релевантности лишь грубо, а плохой порядок напрямую снижает качество ответа — исследования сообщают о приросте точности RAG около 40% от добавления реранкинга, а его наложение поверх гибридного поиска стало стандартом 2026 года), как устроен двухэтапный поиск («собрать широко» быстрым эмбеддинг-поиском ради recall, затем «отсеять умно» реранкером ради precision и передать лучшее LLM), почему реранкер точнее (bi-encoder векторизует запрос и документ по отдельности — быстро, но приблизительно; cross-encoder подаёт их вместе и выдаёт оценку релевантности 0–1, точно, но тяжело — поэтому собирают быстрым bi-encoder и сужают точным cross-encoder), а также модели и реализацию (тип API вроде Cohere Rerank, Voyage и Jina; open-source вроде BGE reranker, mixedbread и FlashRank; и скоринг через LLM вроде RankLLM — просто извлеките 50–100 и сузьте до топ-5). Принцип: собрать широко, отсеять умно и подстроить числа с помощью оценки ИИ.