Что такое embedding (вектор)? Как смысл превращается в числа, применение и выбор модели
RAG, семантический поиск и рекомендации опираются на незаметного труженика — embedding (вектор). Embedding это смысл текста (или изображения), преобразованный в последовательность чисел, то есть в вектор. Слово «собака» превращается в список из сотен или тысяч чисел, которые служат «координатами смысла», поэтому близкие по смыслу слова располагаются рядом («собака» и «щенок» близки; «собака» и «машина» далеки), а близость измеряется такими мерами, как косинусная близость (cosine similarity). Знаменитый пример: «король − мужчина + женщина ≈ королева». Благодаря этому машина может определить, близок ли смысл, даже когда символы не совпадают. Это руководство для новичков охватывает: что такое embedding («карта смыслов»), почему близость измеряет смысл (измерения и косинусная близость), для чего применяется (RAG, семантический поиск, классификация и дедупликация, рекомендации, мультимодальность), как выбрать модель эмбеддингов (через API — OpenAI text-embedding-3, Cohere, Gemini, Voyage; open-source — BGE-M3, Nomic, Qwen3; а также Matryoshka, позволяющая сократить 3 072 измерения до 1 024, сохраняя около 95% качества примерно за треть стоимости), и векторные БД (Pinecone, Weaviate, Qdrant, Chroma, pgvector) со стартом в три шага (выбрать модель, векторизовать и сохранить документы, векторизовать вопрос и выполнить поиск). Эмбеддинги — основа внедрения RAG.