エンベディング(ベクトル)とは?意味の数値化の仕組み・用途・モデルの選び方を初心者向けに解説
RAGも意味検索もレコメンドも、その裏側で必ず使われている縁の下の力持ちがエンベディング(embedding/ベクトル)だ。エンベディングとは、テキスト(や画像など)の意味を数字の並び=ベクトルに変換したもの。「犬」を数百〜数千個の数字の列に置き換え、その並びが「意味の座標」になる。意味の近い言葉どうしは空間上の近い位置に配置され(犬と子犬は近く、犬と自動車は遠い)、コサイン類似度などで近さを数値化できる——だから文字が一致しなくても機械が「意味が近いか」を判断できる。有名な「王様−男性+女性≒女王」のように意味の関係がベクトル演算で表れることも。本記事は、正体(意味の地図のたとえ)、なぜ近さで意味が測れるか、用途(RAG・意味検索・分類/重複検出・推薦、マルチモーダル)、埋め込みモデルの選び方(API型=OpenAI text-embedding-3/Cohere/Gemini/Voyage、OSS型=BGE-M3/Nomic/Qwen3、Matryoshkaで次元を後から圧縮し3072→1024で品質約95%維持・コスト約1/3)、ベクトルDB(Pinecone/Weaviate/Qdrant/Chroma/pgvector)と始め方(モデル選択→文書をベクトル化して保存→質問もベクトル化して検索)までを初心者向けに解説。RAG実装の土台であり、精度はAI評価で測りながら改善するとよい。