Sommaire
RAG, recherche sémantique, recommandations — le travailleur de l'ombre derrière tout cela, c'est l'embedding (vecteur). En une phrase, c'est « une technique pour convertir le sens des mots en une suite de nombres ». Discret, mais c'est le socle de la recherche et de l'exploitation des connaissances à l'ère de l'IA.
Cet article explique aux débutants ce qu'est un embedding, pourquoi il peut mesurer le sens, à quoi il sert, comment choisir un modèle, ainsi que les bases vectorielles et comment démarrer.
Plus le sens est proche, plus le vecteur est proche
— le socle de la recherche, du RAG, de la classification et des recommandations
Transformer le sens en nombres
Convertir le texte en une « suite de nombres » manipulable par une machine.
Proche = similaire
Les mots proches par le sens occupent des positions proches dans l'espace.
Chercher par le sens
Trouver par « proximité de sens », et non par correspondance exacte des mots.
1. Qu'est-ce qu'un embedding (vecteur) ?
Un embedding, c'est le « sens » d'un texte (ou d'une image, etc.) converti en une suite de nombres — un vecteur. Par exemple, le mot « chien » est remplacé par une liste de centaines à milliers de nombres comme [0.21, -0.78, 0.34, ...]. Pour un humain, cela ressemble à des nombres dénués de sens, mais cette suite est un ensemble de « coordonnées du sens ».
Imaginez une « carte du sens ». Tout comme des villes proches sur une carte sont géographiquement voisines, dans l'espace des embeddings les mots proches par le sens sont placés les uns près des autres. « Chien » et « chiot » sont proches ; « chien » et « voiture » sont éloignés. Pouvoir calculer cette « distance », c'est tout l'intérêt.
💡 En une ligne : un embedding = « une technique qui convertit le sens des mots en coordonnées numériques ». Un ordinateur ne peut pas comprendre directement le sens d'un texte, mais une fois en nombres, il peut calculer la « proximité de sens ».
2. Pourquoi la « proximité » mesure le sens
Les embeddings sont construits en apprenant, à partir d'énormes volumes de texte, « quels mots tendent à être employés ensemble ». Résultat : les mots utilisés dans des contextes similaires reçoivent des nombres similaires. La proximité de deux vecteurs peut se quantifier par des mesures comme la similarité cosinus, où plus on est proche de 1, plus le sens est « similaire ».
Proximité de sens avec « chien » (à titre d'illustration)
※ Illustration conceptuelle. Dans un exemple célèbre, les relations sémantiques apparaissent comme une arithmétique de vecteurs — « roi − homme + femme ≈ reine ».
Un vecteur réel est composé de centaines à milliers de nombres (dimensions), et ce nombre élevé exprime d'innombrables facettes du sens — « est-ce un animal ? », « un véhicule ? », « grand ou petit ? » — un peu à la fois. Plus il y a de dimensions, plus les nuances fines sont captées, mais les coûts de stockage et de calcul augmentent d'autant.
Ainsi, même quand les caractères ne correspondent pas, une machine peut juger « si le sens est proche ». C'est le véritable mécanisme qui permet de traiter « IA » et « intelligence artificielle » comme une même chose, ou de retrouver un document formulé comme « étapes pour annuler et obtenir un remboursement » à partir d'une question telle que « je veux récupérer mon argent ».
3. À quoi ça sert ? (RAG, recherche sémantique)
Les embeddings sont rarement utilisés seuls — ils sous-tendent diverses fonctionnalités bâties sur la « proximité de sens ». Voici les principaux usages.
RAG (génération augmentée par récupération)
Trouver les documents proches en sens de la question et les fournir à l'IA comme appui. Le cœur du RAG.
Recherche sémantique
Chercher par le sens, pas par correspondance de mots-clés. On trouve même avec une formulation différente.
Classification et déduplication
Trier automatiquement les demandes et repérer les documents similaires ou en double.
Recommandations
Faire remonter « les produits ou articles similaires à celui-ci » par proximité de sens.
En particulier, le RAG ne peut exister sans embeddings. Un système qui interroge des documents internes pour faire répondre l'IA fonctionne en vectorisant les documents à l'avance. Au-delà du texte, les embeddings multimodaux, qui placent images et audio dans le même espace, se répandent eux aussi.
4. Comment choisir un modèle d'embedding
Les embeddings sont produits par un « modèle d'embedding » dédié. Il existe globalement deux options.
Type API (simple, sans GPU)
OpenAI (text-embedding-3), Cohere, Google Gemini, Voyage, etc. Il suffit d'appeler l'API — aucune infrastructure requise. La voie la plus facile pour démarrer.
Type open source (gratuit, auto-hébergé)
BGE-M3, Nomic Embed, Qwen3, etc. Gratuits à l'usage, mais il faut un environnement pour les exécuter. Bon pour la confidentialité et le coût.
💡 Matryoshka : certains modèles récents permettent de réduire le nombre de dimensions après coup. Par exemple, ramener 3 072 dimensions à 1 024 conserverait environ 95 % de la qualité tout en réduisant le coût de stockage et de recherche à environ un tiers. Pratique pour équilibrer coût et précision.
※ Les noms de modèles et les chiffres proviennent de divers guides et publications (en date de juin 2026). Le meilleur modèle varie selon la langue, l'usage et le budget : le plus sûr est de tester et de choisir.
5. Bases vectorielles et premiers pas
Les embeddings que vous créez sont stockés dans une base de données vectorielle (base vectorielle). C'est une base spécialisée pour trouver rapidement « ceux qui sont proches de la question » parmi d'énormes quantités de vecteurs — par exemple Pinecone, Weaviate, Qdrant, Chroma et pgvector. Elle devient le « moteur de recherche » de la recherche sémantique et du RAG.
Démarrer est simple.
- ① Choisir un modèle d'embedding : un type API (par exemple text-embedding-3-small d'OpenAI) est facile pour débuter.
- ② Vectoriser et stocker les documents : transformer vos documents en vecteurs avec le modèle et les déposer dans la base vectorielle.
- ③ Vectoriser la question et rechercher : vectoriser la question avec le même modèle et en extraire les documents les plus proches.
Ces trois étapes constituent précisément le socle de la mise en œuvre du RAG. Mesurez et améliorez la précision de la recherche que vous construisez avec les évaluations d'IA.
En résumé
Trois points à retenir sur les embeddings.
- Ce que c'est : une technique qui convertit le « sens » des mots en une suite de nombres (un vecteur). Plus le sens est proche, plus le vecteur est proche.
- Son rôle : le socle du RAG, de la recherche sémantique, de la classification, de la déduplication et des recommandations. Il permet de travailler par « sens », et non par correspondance exacte des mots.
- Comment démarrer : commencer facilement avec un modèle de type API. Stocker dans une base vectorielle et rechercher. Ajuster le coût avec Matryoshka.
Les embeddings sont le premier pas pour bâtir de la recherche et de l'exploitation des connaissances avec l'IA. Commencez par vectoriser deux phrases avec un modèle d'embedding et calculer leur proximité. Lisez en parallèle le RAG et comment fonctionnent les LLM pour avoir une vue d'ensemble.
Pour pousser encore la précision de la recherche par embeddings, l'étape suivante, c'est le « reranking ». Lisez qu'est-ce que le reranking pour réordonner les candidats par pertinence et améliorer la précision du RAG.
FAQ
Q. Quelle est la différence entre un embedding et un LLM ?
R. Des rôles différents. Un LLM est un modèle qui génère du texte ; un modèle d'embedding est un modèle qui transforme le sens en nombres. Dans le RAG, ils coopèrent : l'embedding trouve les documents pertinents, et le LLM transforme le résultat en texte rédigé.
Q. Plus il y a de dimensions, mieux c'est ?
R. Pas nécessairement. Plus de dimensions augmente le pouvoir d'expression, mais aussi le coût de stockage et de recherche. Avec un modèle compatible Matryoshka, vous pouvez réduire les dimensions en conservant la qualité quasiment intacte, ce qui facilite l'équilibre entre coût et précision.
Q. Est-ce gratuit à l'usage ?
R. Les modèles d'embedding open source (comme BGE-M3) sont gratuits. Les types API facturent généralement de petits frais, mais les embeddings sont bien moins chers que la génération. Il est recommandé de commencer avec un palier gratuit ou un petit jeu de données.
Q. Ai-je besoin d'une base vectorielle ?
R. Pour de petites quantités, vous pouvez chercher par simple calcul, mais à mesure que les documents s'accumulent, une base vectorielle dédiée devient pratique. Les options vont des plus simples comme Chroma aux extensions comme pgvector pour une base existante : vous choisissez selon l'échelle.