RAG、语义搜索、推荐系统——它们背后默默支撑一切的无名功臣,就是嵌入(embedding,即向量)。一句话概括,它是"把词语的意义转换成一串数字的技术"。听起来不起眼,却是 AI 时代检索与知识利用的根基。

本文面向初学者,系统梳理什么是嵌入、为什么它能衡量意义、能用来做什么、如何选择模型,以及向量数据库与上手方法。

EMBEDDING · 把意义变成数字

意义越接近,向量也越接近

—— 检索、RAG、分类与推荐的根基

🔢

把意义数值化

把文本转换成机器能处理的"一串数字"。

📍

近 = 相似

意义接近的词语,在空间中的位置也相互靠近。

🔎

按意义检索

不靠字面完全匹配,而是按"意义的接近度"来查找。

1. 什么是嵌入(向量)

嵌入就是把文本(或图像等)的"意义"转换而成的一串数字,也就是向量。例如,"狗"这个词会被替换成 [0.21, -0.78, 0.34, ...] 这样数百到数千个数字组成的列表。在人看来这是毫无意义的数字,但这串数字其实是一组"意义的坐标"。

可以把它想象成一张"意义的地图"。就像地图上相邻的城市在地理上也彼此靠近一样,在嵌入空间里意义接近的词语会被放在相近的位置。"狗"和"小狗"很近,"狗"和"汽车"很远。能够计算出这种"距离",正是它最关键的价值所在。

💡 一句话:嵌入 = "把词语的意义转换成数值坐标的技术"。计算机无法直接理解文本的意义,但一旦变成数字,就能计算出"意义的接近度"。

2. 为什么用"近不近"就能衡量意义

嵌入是通过从海量文本中学习"哪些词语往往会一起出现"而构建出来的。结果就是,在相似语境中使用的词语会得到相近的数值。两个向量的接近程度可以用余弦相似度等指标来量化,越接近 1 就表示"意义越相似"。

与"狗"在意义上的接近度(示意)

狗 ↔ 小狗非常接近
狗 ↔ 猫接近(动物)
狗 ↔ 汽车很远

※ 这是一张概念示意图。在一个著名的例子中,意义之间的关系可以表现为向量的加减运算——"国王 − 男人 + 女人 ≈ 女王"。

真实的向量由数百到数千个数字(维度)构成,正是这庞大的数量,一点一点地表达出意义的无数侧面——"是不是动物?""是不是交通工具?""大还是小?"。维度越多,越能捕捉细腻的语义差别,但相应地存储与计算成本也会上升。

因此,即便字面并不一致,机器也能判断"意义是否接近"。这正是为什么能把"AI"和"人工智能"当作同一回事,或者从"我想退钱"这样的提问中,找出措辞为"取消并申请退款的步骤"的文档——背后真正的机制就在于此。

3. 它能用来做什么?(RAG、语义搜索)

嵌入很少单独使用——它支撑着各种建立在"意义接近度"之上的功能。下面是主要用途。

RAG(检索增强生成)

找出与问题在意义上接近的文档,作为依据交给 AI。这正是 RAG 的核心。

语义搜索

按意义检索,而非关键词匹配。即使措辞不同也能被找到。

分类与去重

自动归类咨询工单,并找出相似或重复的文档。

推荐

按意义接近度,呈现"与这个相似的商品或文章"。

尤其是,没有嵌入就不会有 RAG。那种检索内部文档、再让 AI 作答的系统,其工作原理就是预先把文档向量化。除了文本之外,把图像和音频置于同一空间的多模态嵌入也在不断普及。

4. 如何选择嵌入模型

嵌入由专门的"嵌入模型"生成。大体上有两种选择。

API 型(简单,无需 GPU)

OpenAI(text-embedding-3)、Cohere、Google Gemini、Voyage 等。只需调用 API,无需自建基础设施。是最轻松的上手方式。

开源型(免费,自行部署)

BGE-M3、Nomic Embed、Qwen3 等。使用免费,但你需要一个能运行它的环境。适合注重隐私与成本的场景。

💡 Matryoshka(套娃式):一些较新的模型允许你事后缩减维度数量。例如,把 3,072 维降到 1,024 维,据称仍能保留约 95% 的质量,同时把存储与检索成本压缩到大约三分之一。这对于在成本与精度之间取得平衡很实用。

※ 模型名称与数据引用自各类指南与公开资料(截至 2026 年 6 月)。最佳模型会随语言、用例和预算而不同,所以最稳妥的办法还是实际试用后再选择。

5. 向量数据库与上手方法

你生成的嵌入会被存入向量数据库(向量 DB)。它是一种专门的数据库,用于在海量向量中快速找出"与问题接近的那些"——例如 Pinecone、Weaviate、Qdrant、Chroma 和 pgvector。它会成为语义搜索和 RAG 的"搜索引擎"。

上手其实很简单。

  • ① 选定一个嵌入模型:API 型(例如 OpenAI 的 text-embedding-3-small)容易起步。
  • ② 把文档向量化并存储:用该模型把你的文档转成向量,放进向量 DB。
  • ③ 把问题向量化并检索:用同一个模型把问题向量化,取出最接近的文档。

这三个步骤,正是实现 RAG 的基础。你搭建好检索后,可以用 AI 评测来衡量并改进其准确度。

总结

关于嵌入的三个要点。

  • 它是什么:一种把词语的"意义"转换成一串数字(向量)的技术。意义越接近,向量也越接近。
  • 它的作用:是 RAG、语义搜索、分类、去重和推荐的根基。它让你能按"意义"而非字面完全匹配来工作。
  • 如何起步:从 API 型模型轻松开始。存入向量 DB 并检索。用 Matryoshka 来调节成本。

嵌入是用 AI 构建检索与知识利用的第一步。不妨先用嵌入模型把两句话向量化,并计算它们的接近度。建议把 RAG大语言模型的工作原理一起读,以掌握全貌。

想进一步提升嵌入检索的精度,下一步就是"重排序"。阅读什么是重排序,学会按相关度重新排序候选,提升 RAG 的准确率。

FAQ

Q. 嵌入和大语言模型(LLM)有什么区别?

A. 职责不同。LLM 是生成文本的模型,而嵌入模型是把意义变成数字的模型。在 RAG 中两者协作:嵌入负责找出相关文档,LLM 把结果整理成文字。

Q. 维度越多就越好吗?

A. 未必。维度越多,表达能力越强,但存储与检索成本也越高。若使用支持 Matryoshka 的模型,可以在几乎不损失质量的前提下削减维度,更容易在成本与精度之间取得平衡。

Q. 使用嵌入是免费的吗?

A. 开源嵌入模型(如 BGE-M3)是免费的。API 型通常会收取少量费用,但嵌入比生成要便宜得多。建议从免费额度或小规模数据集开始。

Q. 一定需要向量数据库吗?

A. 数据量小的时候,用普通的计算也能检索,但随着文档增多,专门的向量 DB 会更实用。选项很多,从 Chroma 这样易上手的,到 pgvector 这种为现有数据库加装的插件式方案,可按规模来选择。