Вы собрали RAG, но качество поиска посредственное — именно тогда помогает реранкинг (reranking). Вы берёте кандидатов, грубо собранных эмбеддинг-поиском (векторным поиском), и переупорядочиваете их по релевантности, оставляя только лучшие. Один этот шаг способен резко изменить качество ответов RAG-системы — «финальный рывок» для точности поиска.

Эта статья для новичков объясняет, что такое реранкинг, зачем он нужен, как устроен двухэтапный поиск, почему он точен (bi-encoder против cross-encoder), а также какие есть модели и как их внедрить.

RERANKING · СОБРАТЬ ШИРОКО → ПЕРЕУПОРЯДОЧИТЬ УМНО

Два этапа, чтобы «по-настоящему релевантное» оказалось наверху

— собрать быстрым поиском, отсеять точным скорингом

ЭТАП 1 · ПОИСК

Эмбеддинг-поиск

Быстро и широко собрать кандидатов (например, 100). Оптимизация на recall.

ЭТАП 2 · ПЕРЕУПОРЯДОЧИВАНИЕ

Реранкер

Оценить по релевантности и оставить лучшие (например, 5). Оптимизация на precision.

1. Что такое реранкинг?

Реранкинг — это повторная оценка уже собранных результатов поиска по их релевантности запросу и их переупорядочивание. В RAG вы сначала с помощью эмбеддинг-поиска подтягиваете множество вероятно релевантных документов. Но этот порядок лишь «приблизительно близок». Затем вы добавляете специальную модель — реранкер, чтобы вытолкнуть по-настоящему релевантное наверх.

Представьте «первичный отбор и финальное собеседование». Первичный отбор (эмбеддинг-поиск) быстро просеивает кандидатов и пропускает многих. Финальное собеседование (реранкер) внимательно рассматривает каждого и выстраивает лучших наверху. Быстрый первичный отбор плюс точное финальное собеседование — эта двухступенчатая структура и есть ключ.

💡 В одну строку: реранкинг = «второй этап, который повышает precision, переупорядочивая результаты поиска». После того как эмбеддинг-поиск не даёт ничего упустить, реранкинг берёт на себя «вынос лучшего наверх».

2. Зачем он нужен: пределы эмбеддинг-поиска

Эмбеддинг-поиск быстр и удобен, но у него есть слабое место. Поскольку он векторизует запрос и документы по отдельности, а затем сравнивает, он не видит тонкой связи между ними. Он хорош в «приблизительно близко», но груб в оценке «действительно ли это отвечает на вопрос?».

В результате в топ результатов попадают документы, которые «близки по ключевым словам, но мимо сути». А так как RAG передаёт верхние найденные документы прямо ИИ, плохой порядок напрямую снижает качество ответа. Здесь реранкер заново корректно измеряет релевантность и исправляет порядок. Исследования показывают, что добавление реранкинга существенно повышает точность RAG (в одном отчёте приводится прирост около 40%) — это заявленная цифра.

Более того, добавление реранкинга поверх гибридного поиска (hybrid search) — сочетания поиска по ключевым словам и векторного поиска — стало в 2026 году стандартной продакшен-конфигурацией RAG. «Собрать широко и разнообразно, а затем дать реранкеру в конце упорядочить по релевантности» — этот поток поднимает precision.

3. Как это работает: двухэтапный поиск

Реранкинг встраивается как «двухэтапный поиск» (two-stage retrieval). Принцип — «собрать широко, отсеять умно».

① Собрать широко эмбеддинг-поиском~100
Быстро собрать много кандидатов (recall = ничего не упустить)
↓ оценить реранкером
② Сузить до лучших реранкеромтоп-5
Переупорядочить по релевантности (precision = только то, что реально помогает)
↓ передать только лучшее
③ Передать LLM для генерации
Ответ из выверенного контекста

Ключ — разделение труда. Оценивать реранкером каждый документ слишком медленно, чтобы это было практично. Поэтому сначала быстрый эмбеддинг-поиск сужает кандидатов (например, до 100), и только этот небольшой набор изучает реранкер. Так балансируются скорость и precision. Это также согласуется с идеей инженерии контекста — «передавать минимальный набор информации с максимальным сигналом».

4. Почему реранкер точнее

Эмбеддинги и реранкеры устроены внутри по-разному. В этом и причина разрыва в точности.

BI-ENCODER (эмбеддинг)

Смотрит по отдельности, сравнивает потом

Векторизует запрос и документ по отдельности, затем измеряет расстояние. Можно вычислить заранее, и это быстро, но он никогда не видит их взаимодействия (приблизительно).

CROSS-ENCODER (реранкер)

Смотрит вместе, оценивает напрямую

Подаёт запрос и документ вместе и сразу выдаёт оценку релевантности (0–1). Он видит их взаимодействие, поэтому точен — но тяжёл.

По аналогии, bi-encoder «отдельно конспектирует два сочинения, а затем сравнивает конспекты», тогда как cross-encoder «читает оба бок о бок и судит об их взаимосвязи». Второй естественно точнее, но запускать его на каждом документе нельзя. Именно поэтому двухэтапная схема — собрать быстрым bi-encoder, сузить точным cross-encoder — имеет смысл.

5. Модели и реализация

Реранкер не обязательно строить с нуля — готовые специальные модели и API уже есть.

Тип API (просто)

Cohere Rerank, Voyage, Jina Reranker. Просто поставьте сверху вашего существующего поиска — всего лишь вызов API.

Open-source тип

BGE reranker, mixedbread, FlashRank (лёгкий). Бесплатный self-host — хорош для экономии и приватности.

Скоринг через LLM (RankLLM и др.)

Пусть сама LLM оценивает, «что релевантно». Гибко, но дороже.

Реализация на удивление проста. К вашему существующему RAG (векторному поиску) просто «извлеките больше документов (например, 50–100), прогоните их через реранкер и сузьте до топ-5» — добавьте этот один шаг. Измерьте эффект с помощью оценки ИИ (AI evals) и подстройте, сколько извлекать и сколько оставлять.

※ Названия моделей и цифры приведены из различных руководств и исследований (по состоянию на июнь 2026). Эффект варьируется в зависимости от данных и настроек, поэтому замеры и подстройка — верный путь.

Итоги

Три вывода о реранкинге.

  • Что это: второй этап, который заново оценивает результаты поиска по релевантности и переставляет лучшее наверх. «Финальный рывок» для precision в RAG.
  • Как работает: двухэтапный поиск — собрать широко быстрым эмбеддинг-поиском, затем сузить точным реранкером. «Собрать широко, отсеять умно».
  • В чём разница: эмбеддинги (bi-encoder) смотрят по отдельности и быстры; реранкеры (cross-encoder) смотрят вместе и точны. Разделите роли — и получите и то, и другое.

Если вашему RAG не хватает precision, начните с добавления одного реранкера. Часто простое размещение его поверх существующего поиска заметно меняет ощущение. Прочитайте про эмбеддинги и реализацию RAG вместе с этой статьёй, чтобы охватить всю картину поиска.

FAQ

В. Разве одного эмбеддинг-поиска недостаточно?

О. Для некоторых задач — да, но реранкинг помогает, когда не хватает precision. Эмбеддинги хорошо собирают быстро и широко, но грубо судят о релевантности. Добавление реранкера повышает вероятность того, что по-настоящему релевантные документы окажутся наверху.

В. А не будет ли медленно?

О. Реранкер тяжёл, но вы запускаете его только на небольшом наборе, суженном эмбеддинг-поиском (например, 50–100), а не на каждом документе, поэтому скорость остаётся практичной. Хитрость в том, чтобы не извлекать слишком много.

В. Реранкеры и эмбеддинг-модели — это разные вещи?

О. Да. Эмбеддинг-модель (bi-encoder) создаёт векторы для поиска; реранкер (cross-encoder) смотрит на два вместе и оценивает релевантность. Роли разные, поэтому их используют в связке.

В. Сколько извлекать и сколько оставлять?

О. Примерный ориентир — «извлечь 50–100 → оставить топ-3–10», но оптимум зависит от ваших данных. Измеряйте precision с помощью оценки ИИ (AI evals) и корректируйте числа. Слишком много — медленно; слишком мало — что-то упустите.