什么是重排序(reranking)?提升 RAG 准确率的两阶段检索——初学者指南
你搭好了 RAG,但检索质量却平平——这正是重排序能派上用场的时候。重排序把嵌入(向量)检索粗略收集到的候选,按它们与查询的相关度重新打分并重新排序,只保留最前面的那些;仅这一步就能大幅改变 RAG 系统的回答质量。本初学者指南讲解重排序是什么(以"初筛加终面"作比),为什么需要它(嵌入检索把查询和文档分开向量化,因此只能粗略判断相关度,而糟糕的排序会直接拉低回答质量——研究报告称加入重排序约带来 40% 的 RAG 准确率提升,把它叠加到混合检索上已是 2026 年的标准做法),两阶段检索如何运作(先用快速嵌入检索"广撒网"求召回,再用重排序器"智能筛"求精度,然后把最前面的交给 LLM),为什么重排序器更准确(bi-encoder 把查询和文档各自向量化,快但近似;cross-encoder 把两者一起喂入并输出 0–1 的相关度分数,准确但开销大——所以用快速的 bi-encoder 收集,用准确的 cross-encoder 筛选),以及模型与实现(API 型如 Cohere Rerank、Voyage、Jina;开源型如 BGE reranker、mixedbread、FlashRank;以及基于 LLM 的打分如 RankLLM——只需检索 50–100 个再筛到前 5 个)。原则就是:广撒网、智能筛,并用 AI 评测来调整数量。