Inhaltsverzeichnis
RAG, semantische Suche, Empfehlungen — das unbesungene Arbeitspferd hinter all dem ist das Embedding (Vektor). Kurz gesagt ist es „eine Technik, die die Bedeutung von Wörtern in eine Zahlenfolge umwandelt." Unscheinbar, aber es ist das Fundament von Suche und Wissensnutzung im KI-Zeitalter.
Dieser Artikel erklärt für Einsteiger, was ein Embedding ist, warum es Bedeutung messen kann, wofür es verwendet wird, wie man ein Modell auswählt sowie Vektordatenbanken und den Einstieg.
Je näher die Bedeutung, desto näher der Vektor
— das Fundament von Suche, RAG, Klassifikation und Empfehlungen
Bedeutung in Zahlen umwandeln
Text in eine „Zahlenfolge" umwandeln, mit der eine Maschine arbeiten kann.
Nah = ähnlich
Wörter mit naher Bedeutung liegen an nahen Positionen im Raum.
Nach Bedeutung suchen
Dinge nach „Bedeutungsnähe" finden, nicht nach exakter Wortübereinstimmung.
1. Was ist ein Embedding (Vektor)?
Ein Embedding ist die in eine Zahlenfolge — einen Vektor — umgewandelte „Bedeutung" eines Textes (oder eines Bildes usw.). Zum Beispiel wird das Wort „Hund" durch eine Liste aus Hunderten bis Tausenden von Zahlen ersetzt, etwa [0.21, -0.78, 0.34, ...]. Für einen Menschen sieht das wie bedeutungslose Zahlen aus, doch diese Folge ist eine Menge von „Koordinaten der Bedeutung."
Stellen Sie sich eine „Landkarte der Bedeutung" vor. So wie Städte, die auf einer Karte nah beieinanderliegen, geografisch nah sind, werden im Embedding-Raum Wörter mit naher Bedeutung nah beieinander platziert. „Hund" und „Welpe" sind nah; „Hund" und „Auto" sind fern. Diese „Distanz" berechnen zu können, ist der entscheidende Punkt.
💡 In einem Satz: ein Embedding = „eine Technik, die die Bedeutung von Wörtern in numerische Koordinaten umwandelt." Ein Computer kann die Bedeutung von Text nicht direkt verstehen, aber als Zahlen kann er die „Nähe der Bedeutung" berechnen.
2. Warum „Nähe" Bedeutung messen kann
Embeddings entstehen, indem aus riesigen Textmengen gelernt wird, „welche Wörter tendenziell zusammen verwendet werden." Dadurch erhalten Wörter, die in ähnlichen Kontexten verwendet werden, ähnliche Zahlen. Die Nähe zweier Vektoren lässt sich mit Maßen wie der Kosinus-Ähnlichkeit quantifizieren, wobei näher an 1 „ähnlicher in der Bedeutung" bedeutet.
Bedeutungsnähe zu „Hund" (zur Veranschaulichung)
※ Eine konzeptionelle Veranschaulichung. In einem berühmten Beispiel zeigen sich semantische Beziehungen als Vektorrechnung — „König − Mann + Frau ≈ Königin."
Ein echter Vektor besteht aus Hunderten bis Tausenden von Zahlen (Dimensionen), und allein diese Menge drückt unzählige Facetten der Bedeutung aus — „ist es ein Tier?", „ein Fahrzeug?", „groß oder klein?" — Stück für Stück. Mehr Dimensionen erfassen feinere Nuancen, aber Speicher- und Rechenkosten steigen entsprechend.
So kann eine Maschine, selbst wenn die Zeichen nicht übereinstimmen, beurteilen, „ob die Bedeutung nah ist." Das ist der eigentliche Mechanismus dahinter, „KI" und „künstliche Intelligenz" als dasselbe zu behandeln oder aus einer Frage wie „Ich will mein Geld zurück" ein Dokument zu finden, das als „Schritte zum Stornieren und Erstatten" formuliert ist.
3. Wofür wird es verwendet? (RAG, semantische Suche)
Embeddings werden selten allein genutzt — sie untermauern verschiedene Funktionen, die auf „Bedeutungsnähe" aufbauen. Hier sind die wichtigsten Einsatzbereiche.
RAG (retrieval-augmented generation)
Dokumente finden, die der Frage in der Bedeutung nah sind, und sie der KI als Grundlage übergeben. Das Herzstück von RAG.
Semantische Suche
Nach Bedeutung suchen, nicht nach Stichwortübereinstimmung. Wird auch bei anderer Formulierung gefunden.
Klassifikation & Deduplizierung
Anfragen automatisch sortieren sowie ähnliche oder doppelte Dokumente finden.
Empfehlungen
„Produkte oder Artikel ähnlich zu diesem" anhand der Bedeutungsnähe anzeigen.
Insbesondere kann RAG ohne Embeddings nicht existieren. Ein System, das interne Dokumente durchsucht und die KI antworten lässt, funktioniert, indem die Dokumente vorab vektorisiert werden. Über Text hinaus verbreiten sich auch multimodale Embeddings, die Bilder und Audio in denselben Raum einbetten.
4. Wie man ein Embedding-Modell auswählt
Embeddings werden mit einem dedizierten „Embedding-Modell" erzeugt. Es gibt grob zwei Optionen.
API-Typ (einfach, keine GPU)
OpenAI (text-embedding-3), Cohere, Google Gemini, Voyage und andere. Einfach die API aufrufen — keine Infrastruktur nötig. Der einfache Einstieg.
Open-Source-Typ (kostenlos, selbst gehostet)
BGE-M3, Nomic Embed, Qwen3 und andere. Kostenlos nutzbar, aber Sie brauchen eine Umgebung zum Betreiben. Gut für Datenschutz und Kosten.
💡 Matryoshka: Einige neuere Modelle erlauben es, die Anzahl der Dimensionen nachträglich zu verkleinern. Zum Beispiel soll das Reduzieren von 3.072 Dimensionen auf 1.024 etwa 95 % der Qualität erhalten und zugleich Speicher- und Suchkosten auf etwa ein Drittel senken. Praktisch, um Kosten und Genauigkeit auszubalancieren.
※ Modellnamen und Zahlen sind verschiedenen Leitfäden und Veröffentlichungen entnommen (Stand: Juni 2026). Das beste Modell variiert je nach Sprache, Anwendungsfall und Budget, daher ist Ausprobieren und Auswählen der sichere Weg.
5. Vektordatenbanken und der Einstieg
Die erstellten Embeddings werden in einer Vektordatenbank (Vektor-DB) gespeichert. Das ist eine spezialisierte DB, um unter riesigen Mengen von Vektoren schnell „die der Frage nahen" zu finden — Beispiele sind Pinecone, Weaviate, Qdrant, Chroma und pgvector. Sie wird zur „Suchmaschine" für semantische Suche und RAG.
Der Einstieg ist einfach.
- ① Ein Embedding-Modell auswählen: Ein API-Typ (z. B. OpenAIs text-embedding-3-small) ist einfach zum Anfangen.
- ② Dokumente vektorisieren und speichern: Verwandeln Sie Ihre Dokumente mit dem Modell in Vektoren und legen Sie sie in der Vektor-DB ab.
- ③ Die Frage vektorisieren und suchen: Vektorisieren Sie die Frage mit demselben Modell und ziehen Sie die nächstgelegenen Dokumente heraus.
Diese drei Schritte sind genau das Fundament der RAG-Implementierung. Messen und verbessern Sie die Genauigkeit der von Ihnen gebauten Suche mit KI-Evals.
Zusammenfassung
Drei Kernpunkte zu Embeddings.
- Was es ist: eine Technik, die die „Bedeutung" von Wörtern in eine Zahlenfolge (einen Vektor) umwandelt. Je näher die Bedeutung, desto näher der Vektor.
- Seine Rolle: das Fundament von RAG, semantischer Suche, Klassifikation, Deduplizierung und Empfehlungen. Es lässt Sie nach „Bedeutung" arbeiten, nicht nach exakter Wortübereinstimmung.
- Wie man startet: einfach mit einem API-Typ-Modell beginnen. In einer Vektor-DB speichern und suchen. Kosten mit Matryoshka feinjustieren.
Embeddings sind der erste Schritt beim Aufbau von Suche und Wissensnutzung mit KI. Beginnen Sie damit, zwei Sätze mit einem Embedding-Modell zu vektorisieren und ihre Nähe zu berechnen. Lesen Sie dazu RAG und wie LLMs funktionieren, um das Gesamtbild zu erfassen.
Um die Präzision der Embedding-Suche weiter zu steigern, folgt als Nächstes das „Reranking". Lesen Sie was ist Reranking, um die abgerufenen Kandidaten nach Relevanz neu zu ordnen und die RAG-Genauigkeit zu erhöhen.
FAQ
F. Was ist der Unterschied zwischen einem Embedding und einem LLM?
A. Unterschiedliche Rollen. Ein LLM ist ein Modell, das Text generiert; ein Embedding-Modell ist ein Modell, das Bedeutung in Zahlen umwandelt. Bei RAG arbeiten sie zusammen: Das Embedding findet relevante Dokumente, und das LLM verwandelt das Ergebnis in Fließtext.
F. Sind mehr Dimensionen immer besser?
A. Nicht unbedingt. Mehr Dimensionen erhöhen die Ausdruckskraft, aber auch Speicher- und Suchkosten. Mit einem Matryoshka-fähigen Modell können Sie Dimensionen reduzieren und die Qualität nahezu unverändert lassen, was es leichter macht, Kosten und Genauigkeit auszubalancieren.
F. Ist die Nutzung kostenlos?
A. Open-Source-Embedding-Modelle (wie BGE-M3) sind kostenlos. API-Typen berechnen meist eine kleine Gebühr, aber Embeddings sind weit günstiger als die Generierung. Empfehlenswert ist, mit einem kostenlosen Kontingent oder einem kleinen Datensatz zu starten.
F. Brauche ich eine Vektor-DB?
A. Bei kleinen Mengen können Sie mit einfacher Berechnung suchen, doch mit wachsender Dokumentzahl wird eine dedizierte Vektor-DB praktisch. Die Optionen reichen von einfachen wie Chroma bis zu Erweiterungen wie pgvector für eine bestehende DB, sodass Sie je nach Größenordnung wählen können.