Inhaltsverzeichnis
- 1. Rückblick: die Grenzen von naivem RAG
- 2. Die moderne RAG-Pipeline im Überblick
- 3. ① Chunking (das Wichtigste)
- 4. ② Auswahl eines Embedding-Modells
- 5. ③ Auswahl einer Vektor-DB (Vergleich)
- 6. ④ Hybride Suche (BM25 + Vektor)
- 7. ⑤ Reranking (retrieve-then-rerank)
- 8. Frameworks (LlamaIndex/LangChain)
- 9. RAG vs. Long Context
- 10. Hinweise für den Produktivbetrieb
- Zusammenfassung
- FAQ
Sie verstehen, was RAG ist. Doch sobald man es tatsächlich baut, stoßen viele an eine Wand: „Es funktioniert irgendwie, aber die entscheidende Antwort stimmt nicht." Die Ursache ist fast immer dieselbe — es handelt sich noch um „naives RAG": das Dokument achtlos zerstückeln und eine einfache Vektorsuche durchführen.
Praxistaugliches RAG ist 2026 klar darüber hinausgewachsen. Der Schlüssel ist eine mehrstufige Pipeline: „intelligentes Chunking → das richtige Embedding → hybride Suche (Keyword + Vektor) → Reranking." Als Implementierungs-Fortsetzung zu Artikel 030 behandelt dieser Beitrag das konkrete Wie jeder Stufe, die Auswahl einer Vektor-DB (Chroma/pgvector/Qdrant/Pinecone/Weaviate/Milvus), Frameworks und sogar die Frage „brauchen wir im Zeitalter von 1M-Token überhaupt noch RAG?" — die Essenz einer fortgeschritteneren Implementierung.
Die 5 Stufen von modernem RAG
— von naivem RAG zu RAG, das im Produktivbetrieb funktioniert
Die zwei größten Genauigkeitsgewinne: hybride Suche (BM25 + Vektor) und Reranking.
Allein das Hinzufügen dieser beiden behebt das „die Antwort stimmt nicht"-Problem von naivem RAG erheblich.
* Tool-Namen, Methoden und Benchmark-Werte basieren auf offiziellen Quellen und mehreren Tech-Medien (Stand 2026). Dieser Bereich entwickelt sich schnell, und die besten Optionen ändern sich. Benchmark-Werte sind den Quellen entnommen und variieren je nach Daten und Bedingungen. Evaluieren Sie auf Ihren eigenen Daten (siehe unten), bevor Sie wählen.
1. Rückblick: die Grenzen von naivem RAG
Das minimale RAG lautet „das Dokument teilen → mit Embeddings vektorisieren → in einer Vektor-DB speichern → die Frage vektorisieren und die nächstgelegenen Chunks abrufen → sie dem LLM zur Beantwortung übergeben." Das sind die Grundlagen von RAG. Doch dieses „naive RAG" hat typische Schwächen.
- Schlampige Chunks: mitten im Satz abgeschnitten, was den Sinn zerreißt.
- Nur Vektorsuche: schwach bei exakten Begriffen wie Produktnamen oder Modellnummern (sie greift/verfehlt Dinge, die semantisch nah, aber lexikalisch verschieden sind).
- Die Top-N unverändert übergeben: die wirklich relevantesten Elemente werden verschüttet.
Praxistaugliches RAG zerschmettert diese drei 2026 mit „intelligentem Teilen", „hybrider Suche" und „Reranking". Gehen wir der Reihe nach vor.
2. Die moderne RAG-Pipeline im Überblick
Ein Produktiv-RAG-Datenfluss hat zwei Spuren: Vorbereitung (Indexierung) und Abfragezeit (Suche und Generierung).
Zwei Phasen
Vorbereitung (offline): das Dokument intelligent chunken → mit Embeddings vektorisieren → in einer Vektor-DB speichern (gleichzeitig einen Keyword-Index aufbauen).
Abfragezeit (online): die Top 50-100 mit hybrider Suche (BM25 + Vektor) abrufen → mit Reranking auf wenige eingrenzen → dem LLM zur Generierung der Antwort übergeben.
Der Unterschied zu naivem RAG besteht darin, ob „④ hybride Suche" und „⑤ Reranking" vorhanden sind. Diese beiden Stufen heben die Suchgenauigkeit auf ein praxistaugliches Niveau.
3. ① Chunking (das Wichtigste)
Man darf durchaus sagen, dass Chunking die halbe RAG-Qualität entscheidet. Hier die wichtigsten Strategien.
| Strategie | Was sie tut | Geeignet für |
|---|---|---|
| recursive 512 Token | Ein pragmatischer Standard. In einem Benchmark vom Februar 2026 als Nr. 1 von 7 Strategien gemeldet | Im Zweifel diese |
| semantic | Dort teilen, wo sich die Bedeutung verschiebt, sodass jeder Chunk thematisch kohärent ist | Dichte technische Dokumente |
| structural | Überschriften, Code-Blöcke und HTML-Abschnitte respektieren | Dokumentation und Code |
| parent-child (hierarchisch) | Präzise auf kleinen Chunks suchen; zur Antwortzeit den umgebenden parent-Chunk zurückgeben | Balance aus Präzision und Kontext |
Wenn Kontextverlust an den Grenzen das Problem ist, helfen Contextual Retrieval (jedem Chunk den Kontext des gesamten Dokuments anheften) oder Late Chunking. Anthropic berichtet, dass Contextual Retrieval + Reranking die Top-20-Retrieval-Fehler um bis zu 67% senkten (ein gemeldeter Wert). Die realistische Reihenfolge: mit „recursive 512" beginnen und semantic / parent-child / Contextual Retrieval ergänzen, falls die Genauigkeit nicht ausreicht.
4. ② Auswahl eines Embedding-Modells
Das Embedding-Modell wandelt Chunks in Vektoren um — die Grundlage der Suchgenauigkeit.
- Sicherer Standard: OpenAI text-embedding-3-large. Eine gute Balance aus Retrieval-Qualität und einfacher Integration.
- Weitere Optionen: Cohere, Voyage, Gemini-Embeddings und diverse OSS-Modelle.
- Wichtig: viele OSS-Embeddings sind in Kombination mit hybrider Suche + Reranking völlig ausreichend für den Produktivbetrieb. Versteifen Sie sich nicht allein auf das Embedding.
Der Punkt ist, „das Embedding als einen Teil der gesamten Such-Pipeline" zu behandeln. Statt ein teures Embedding einzusetzen, ist das Hinzufügen von hybrider Suche und Reranking oft kosteneffizienter.
5. ③ Auswahl einer Vektor-DB (Vergleich)
Die Vektor-DB speichert und durchsucht Vektoren. Hier die führenden Optionen von 2026 nach Charakter.
| DB | Charakter / Stärke | Für wen geeignet |
|---|---|---|
| Chroma | AI-native, local-first, einfache Python-API | Einzelpersonen/PoCs, die RAG am schnellsten prototypisieren |
| pgvector | Eine Postgres-Erweiterung. Keine zweite DB, transaktionale Konsistenz | Teams, die bereits auf Postgres setzen |
| Qdrant | Niedrige Latenz (p50 ~4ms; gemeldet vs. Milvus ~6ms / Pinecone ~8ms) | Geschwindigkeitsfokussiert, Produktivbetrieb |
| Pinecone | Vollständig verwaltet. Keine Infrastruktur, Start mit nur einem API-Key | Wer den Betrieb abgenommen haben will, cloud-first |
| Weaviate | Hybrid-Suche-Champion (BM25 + Vektor + Metadaten in einer Abfrage) | Intensive Nutzer der hybriden Suche |
| Milvus | Enterprise-tauglich, bewältigt Milliarden von Vektoren | Sehr große Skalierung |
Auswahlachsen: „Skalierung, managed vs. self-hosted, bestehender Stack, Budget." Im Zweifel — Chroma fürs Prototyping, pgvector wenn Sie Postgres haben, Qdrant/Pinecone für ausgewogenen Produktivbetrieb, Weaviate für hybrid-lastige Fälle. Für die meisten RAG-Workloads gelten Pinecone / Weaviate / Qdrant als starke Optionen.
6. ④ Hybride Suche (BM25 + Vektor)
Was die größte Schwäche von naivem RAG behebt — die Schwäche bei exakten Begriffen — ist die hybride Suche. Sie verschmilzt BM25 (Keyword-/lexikalische Suche) mit der dichten Vektorsuche.
Lexikalisch + semantisch verschmelzen
Die Verschmelzung der beiden mit Reciprocal Rank Fusion (RRF) übertrifft laut Berichten
durchgängig jeden Ansatz für sich allein (höherer NDCG).
In der Praxis ist es am einfachsten, eine DB zu verwenden, die hybride Ergebnisse in einer einzigen Abfrage zurückgibt, wie Weaviate. Überlassen Sie das kniffelige Score-Tuning der RRF (rang-basierte Fusion), und es bricht nicht zusammen. Das Ergebnis: eine Suche, die sowohl bei exakten Begriffen als auch bei Paraphrasen stark ist.
7. ⑤ Reranking (retrieve-then-rerank)
Der Standard von 2026 ist „zwei Stufen: zuerst breit abrufen → dann eingrenzen (rerank)."
- Stufe 1 (retrieve): die Top 50-100 schnell mit einem bi-encoder (Embeddings) abrufen.
- Stufe 2 (rerank): mit einem cross-encoder (Frage, Chunk) gemeinsam bewerten und auf die wirklich relevantesten wenigen eingrenzen.
Beliebte Reranker sind Cohere Rerank 3.5, Voyage rerank-2.5, BGE reranker-v2, Jina Reranker v2. Reranking fügt etwa 50-200ms Latenz und Kosten hinzu, aber weil die an das LLM übergebenen Chunks zu einigen wenigen ausgewählten werden, reduziert es oft den Token-Verbrauch des LLM und senkt die Gesamtkosten. Sowohl bei Genauigkeit als auch bei Kosten wird Reranking zu einer Stufe, bei der es „keinen Grund gibt, sie nicht hinzuzufügen".
8. Frameworks (LlamaIndex/LangChain)
Ein Framework zu verwenden ist schneller, als alles selbst zu schreiben. Hier die Arbeitsteilung von 2026.
- LlamaIndex: retrieval-fokussiert. Stark bei der Dokumentenindexierung, der Suchqualität und schneller RAG-Iteration.
- LangChain / LangGraph: die Seite der Orchestrierung (Steuerung). Komplexe Workflows und Agenten-Koordination.
- Kombiniertes Muster: in der Praxis nutzen viele LlamaIndex als Retrieval-Schicht und LangGraph als Steuerungsschicht.
Beachten Sie, dass es in letzter Zeit mit der Tool-Standardisierung via MCP und dem Aufstieg von Agent SDKs einen Trend gibt, dass Agenten Pipelines spontan ohne schwergewichtige LLM-Frameworks aufbauen. Dennoch bleibt die LlamaIndex-Familie stark, wenn Sie an der Suchqualität feilen. Zum Agentenbau im Allgemeinen siehe wie man einen KI-Agenten baut.
9. RAG vs. Long Context
„Mit einem 1M-Token-Kontextfenster kann ich doch einfach alles hineinstopfen und RAG weglassen?" — eine häufige Frage. Die Antwort lautet „nein, RAG wird nicht ersetzt."
Die „alles hineinstopfen"-Falle
- Token-ineffizient: jedes Mal einen riesigen, redundanten Kontext zu senden, ist teuer.
- Lost in the middle: Informationen in der Mitte langer Texte werden tendenziell ignoriert.
- Ablenkung: je mehr irrelevante Informationen, desto geringer die Antwortqualität.
Die Richtlinie: Long Context für kleine Korpora und schnelle Iteration verwenden, früh prompt caching für stabilen, wiederholten Kontext hinzufügen und RAG in dem Moment ergänzen, in dem „Aktualität, Skalierung, Herkunft" zu Anforderungen werden. „Einfach ins Kontextfenster stopfen" ist das neue „einfach eine Vektor-DB hinzufügen" — kein Allheilmittel. Kombinieren Sie dies mit einem Verständnis des Kontextfensters.
10. Hinweise für den Produktivbetrieb
- Zuerst eine Evaluation aufbauen: „Es ist irgendwie besser geworden" lässt sich nicht verbessern. Quantifizieren Sie die Retrieval-Genauigkeit mit einer Menge repräsentativer Fragen × erwarteter Quellen und vergleichen Sie pro Änderung.
- Monitoring: beobachten Sie kontinuierlich die Retrieval-Trefferquote, die Relevanz nach dem Rerank und die Verankerung (grounding) der Antworten.
- Kostendesign: die Abrechnung kommt von Embeddings, Reranking und dem LLM. LLM-Token via Reranking zu reduzieren ist der Standard-Kostensparer. Siehe Token-Einsparung.
- Aktualität und Herkunft: planen Sie für die Berücksichtigung von Datenaktualisierungen (Re-Indexierung) und fügen Sie Antworten stets die Quelle (welches Dokument) bei — zentral im Kampf gegen Halluzinationen.
- Vertrauliche Daten: Vorsicht beim Vektorisieren interner Dokumente und deren externer Ablage. Siehe Richtlinien zur KI-Nutzung im Unternehmen.
Zusammenfassung
Praxistaugliches RAG hat sich vom naiven „zerstückeln und Vektorsuche" zu einer mehrstufigen Pipeline entwickelt: „intelligentes Chunking → Embedding → Vektor-DB → hybride Suche → Reranking." Die zwei größten Genauigkeitsgewinne sind hybride Suche (BM25 + Vektor mit RRF verschmelzen) und Reranking (retrieve-then-rerank) — allein das Hinzufügen dieser beiden behebt „die Antwort stimmt nicht" erheblich.
Für Vektor-DBs: Chroma fürs Prototyping, pgvector wenn Sie Postgres haben, Qdrant/Pinecone für den Produktivbetrieb, Weaviate für hybrid-lastige Fälle. Für Frameworks: LlamaIndex fürs Retrieval, LangChain/LangGraph für die Steuerung. Und selbst bei 1M-Token wird RAG nicht ersetzt — wenn Sie Aktualität, Skalierung und Herkunft brauchen, ist es RAG. Ein letztes Muss: „zuerst die Evaluations-Menge aufbauen." Man kann nicht verbessern, was man nicht messen kann. Behalten Sie das bei, und Ihr RAG wird sich zuverlässig von „funktioniert irgendwie" zu „funktioniert im Produktivbetrieb" weiterentwickeln.
Weiterführende Lektüre: was ist RAG (Grundlagen), was ist ein Kontextfenster, wie man einen KI-Agenten baut, Claude Agent SDK und was ist MCP.
FAQ
Q. Die Genauigkeit meines RAG ist niedrig. Was sollte ich zuerst beheben?
A. Das Hinzufügen der zwei Dinge — „hybride Suche" und „Reranking" — ist am wirkungsvollsten. Die reine Vektorsuche allein ist schwach bei exakten Begriffen wie Modellnummern und Eigennamen, und die relevantesten Chunks werden verschüttet. Die Verschmelzung mit BM25 (via RRF) + ein cross-encoder-Rerank hebt die Suchqualität auf ein praxistaugliches Niveau. Wenn das immer noch nicht reicht, überdenken Sie Ihr Chunking.
Q. Welche Vektor-DB sollte ich wählen?
A. Chroma fürs Prototyping, pgvector wenn Sie bereits Postgres haben sind die einfachen Einstiege. Für ausgewogenen Produktivbetrieb Qdrant (niedrige Latenz) oder Pinecone (vollständig verwaltet); für intensive hybride Suche Weaviate; für sehr große Skalierung Milvus. Wählen Sie nach Skalierung, Betriebspräferenz, bestehendem Stack und Budget.
Q. Welche Chunk-Größe ist gut?
A. Etwa 512 Token mit recursive-Splitting ist ein pragmatischer Standard (in den Benchmarks 2026 nahe der Spitze gemeldet). Für technische Dokumente semantic (nach Bedeutung teilen); für Dokumentation/Code structural (Überschriften/Code respektieren); für Präzision plus Kontext parent-child. Starten Sie bei 512 und justieren Sie, während Sie evaluieren.
Q. Ist RAG bei einem 1M-Token-Fenster nicht überflüssig?
A. Es wird nicht überflüssig. Alles in den Kontext zu stopfen senkt die Qualität durch Token-Ineffizienz, „lost in the middle" und Ablenkung. Verwenden Sie Long Context für kleine Korpora und Prototypen und RAG, sobald Aktualität, Skalierung und Herkunft Anforderungen sind — das ist die realistische Aufteilung.
Q. LangChain oder LlamaIndex — welches sollte ich verwenden?
A. LlamaIndex, wenn Sie an der Suchqualität feilen; LangChain/LangGraph für komplexe Steuerung und Agenten-Koordination. In der Praxis kombinieren viele beides — „LlamaIndex als Retrieval-Schicht, LangGraph als Steuerungsschicht". In letzter Zeit gibt es auch einen Trend, leichtgewichtig mit Agent SDKs zusammenzubauen, also wählen Sie nach Ihren Anforderungen.