RAG、语义搜索、推荐系统——它们背后默默支撑一切的无名功臣,就是嵌入(embedding,即向量)。一句话概括,它是"把词语的意义转换成一串数字的技术"。听起来不起眼,却是 AI 时代检索与知识利用的根基。
本文面向初学者,系统梳理什么是嵌入、为什么它能衡量意义、能用来做什么、如何选择模型,以及向量数据库与上手方法。
意义越接近,向量也越接近
—— 检索、RAG、分类与推荐的根基
把意义数值化
把文本转换成机器能处理的"一串数字"。
近 = 相似
意义接近的词语,在空间中的位置也相互靠近。
按意义检索
不靠字面完全匹配,而是按"意义的接近度"来查找。
1. 什么是嵌入(向量)
嵌入就是把文本(或图像等)的"意义"转换而成的一串数字,也就是向量。例如,"狗"这个词会被替换成 [0.21, -0.78, 0.34, ...] 这样数百到数千个数字组成的列表。在人看来这是毫无意义的数字,但这串数字其实是一组"意义的坐标"。
可以把它想象成一张"意义的地图"。就像地图上相邻的城市在地理上也彼此靠近一样,在嵌入空间里意义接近的词语会被放在相近的位置。"狗"和"小狗"很近,"狗"和"汽车"很远。能够计算出这种"距离",正是它最关键的价值所在。
💡 一句话:嵌入 = "把词语的意义转换成数值坐标的技术"。计算机无法直接理解文本的意义,但一旦变成数字,就能计算出"意义的接近度"。
2. 为什么用"近不近"就能衡量意义
嵌入是通过从海量文本中学习"哪些词语往往会一起出现"而构建出来的。结果就是,在相似语境中使用的词语会得到相近的数值。两个向量的接近程度可以用余弦相似度等指标来量化,越接近 1 就表示"意义越相似"。
与"狗"在意义上的接近度(示意)
※ 这是一张概念示意图。在一个著名的例子中,意义之间的关系可以表现为向量的加减运算——"国王 − 男人 + 女人 ≈ 女王"。
真实的向量由数百到数千个数字(维度)构成,正是这庞大的数量,一点一点地表达出意义的无数侧面——"是不是动物?""是不是交通工具?""大还是小?"。维度越多,越能捕捉细腻的语义差别,但相应地存储与计算成本也会上升。
因此,即便字面并不一致,机器也能判断"意义是否接近"。这正是为什么能把"AI"和"人工智能"当作同一回事,或者从"我想退钱"这样的提问中,找出措辞为"取消并申请退款的步骤"的文档——背后真正的机制就在于此。
3. 它能用来做什么?(RAG、语义搜索)
嵌入很少单独使用——它支撑着各种建立在"意义接近度"之上的功能。下面是主要用途。
RAG(检索增强生成)
找出与问题在意义上接近的文档,作为依据交给 AI。这正是 RAG 的核心。
语义搜索
按意义检索,而非关键词匹配。即使措辞不同也能被找到。
分类与去重
自动归类咨询工单,并找出相似或重复的文档。
推荐
按意义接近度,呈现"与这个相似的商品或文章"。
尤其是,没有嵌入就不会有 RAG。那种检索内部文档、再让 AI 作答的系统,其工作原理就是预先把文档向量化。除了文本之外,把图像和音频置于同一空间的多模态嵌入也在不断普及。
4. 如何选择嵌入模型
嵌入由专门的"嵌入模型"生成。大体上有两种选择。
💡 Matryoshka(套娃式):一些较新的模型允许你事后缩减维度数量。例如,把 3,072 维降到 1,024 维,据称仍能保留约 95% 的质量,同时把存储与检索成本压缩到大约三分之一。这对于在成本与精度之间取得平衡很实用。
※ 模型名称与数据引用自各类指南与公开资料(截至 2026 年 6 月)。最佳模型会随语言、用例和预算而不同,所以最稳妥的办法还是实际试用后再选择。
5. 向量数据库与上手方法
你生成的嵌入会被存入向量数据库(向量 DB)。它是一种专门的数据库,用于在海量向量中快速找出"与问题接近的那些"——例如 Pinecone、Weaviate、Qdrant、Chroma 和 pgvector。它会成为语义搜索和 RAG 的"搜索引擎"。
上手其实很简单。
- ① 选定一个嵌入模型:API 型(例如 OpenAI 的 text-embedding-3-small)容易起步。
- ② 把文档向量化并存储:用该模型把你的文档转成向量,放进向量 DB。
- ③ 把问题向量化并检索:用同一个模型把问题向量化,取出最接近的文档。
这三个步骤,正是实现 RAG 的基础。你搭建好检索后,可以用 AI 评测来衡量并改进其准确度。
总结
关于嵌入的三个要点。
- 它是什么:一种把词语的"意义"转换成一串数字(向量)的技术。意义越接近,向量也越接近。
- 它的作用:是 RAG、语义搜索、分类、去重和推荐的根基。它让你能按"意义"而非字面完全匹配来工作。
- 如何起步:从 API 型模型轻松开始。存入向量 DB 并检索。用 Matryoshka 来调节成本。
嵌入是用 AI 构建检索与知识利用的第一步。不妨先用嵌入模型把两句话向量化,并计算它们的接近度。建议把 RAG 和 大语言模型的工作原理一起读,以掌握全貌。
想进一步提升嵌入检索的精度,下一步就是"重排序"。阅读什么是重排序,学会按相关度重新排序候选,提升 RAG 的准确率。
FAQ
Q. 嵌入和大语言模型(LLM)有什么区别?
A. 职责不同。LLM 是生成文本的模型,而嵌入模型是把意义变成数字的模型。在 RAG 中两者协作:嵌入负责找出相关文档,LLM 把结果整理成文字。
Q. 维度越多就越好吗?
A. 未必。维度越多,表达能力越强,但存储与检索成本也越高。若使用支持 Matryoshka 的模型,可以在几乎不损失质量的前提下削减维度,更容易在成本与精度之间取得平衡。
Q. 使用嵌入是免费的吗?
A. 开源嵌入模型(如 BGE-M3)是免费的。API 型通常会收取少量费用,但嵌入比生成要便宜得多。建议从免费额度或小规模数据集开始。
Q. 一定需要向量数据库吗?
A. 数据量小的时候,用普通的计算也能检索,但随着文档增多,专门的向量 DB 会更实用。选项很多,从 Chroma 这样易上手的,到 pgvector 这种为现有数据库加装的插件式方案,可按规模来选择。