KI-Entwicklung & Programmierung: Apps bauen mit KI [2026]

Claude KI-Entwicklung & Programmierung Einsteiger

Claude Code „usage limit reached" — Abo-Limits verstehen und weiterarbeiten

Die Meldung „Claude usage limit reached" ist kein Fehler, sondern das Nutzungslimit des Pro-/Max-Abos. Das Limit ist zweistufig: ein rollierendes 5-Stunden-Fenster plus ein Wochenfenster (Max zusätzlich ein Opus-Limit). Dieser Artikel erklärt, was den Verbrauch treibt, was du im Moment des Limits tun kannst, wie du den Rest prüfst und welcher nutzungsbasierte API-Notausgang bleibt.

2026/06/20

Claude KI-Entwicklung & Programmierung Einsteiger

Claude Code „Prompt is too long" — Kontextfenster verstehen und beheben

„Prompt is too long" bedeutet, dass eine einzelne Eingabe (Gesprächsverlauf + Dateien + Tool-Definitionen) das Kontextfenster des Modells überschreitet — kein usage limit und keine max_tokens-Ausgabegrenze. Dieser Artikel erklärt, was das Fenster füllt, die Größen 200K und 1M, die schnellsten Lösungen (/compact, /clear, Subagents) und wie du es von verwechselbaren Fehlern abgrenzt.

2026/06/20

Claude KI-Entwicklung & Programmierung Einsteiger

Claude Code: MCP-Server verbindet nicht — Ursachen und Lösungen

Wenn ein MCP-Server in Claude Code „failed", „needs authentication" oder „pending approval" anzeigt, brauchst du je nach Status eine andere Lösung. Dieser Artikel zeigt, wie du den /mcp-Status liest, die Hauptursachen ursachenbezogen behebst, die häufigste Windows-npx-Falle umgehst und systematisch von oben nach unten diagnostizierst.

2026/06/20

Claude KI-Entwicklung & Programmierung Einsteiger

Claude Code: „court" und durchgesickerte invoke-Tags — wenn der Tool-Aufruf nicht läuft

Plötzlich strömt in Claude Code das Wort „court" zusammen mit rohen <invoke>/<parameter>-Tags auf den Bildschirm, und der Befehl wird nie ausgeführt. Das ist kein Fehler Ihrer Umgebung, sondern eine modellseitige Störung, bei der Claude das Steuer-Token eines Tool-Aufrufs kaputt generiert. Die Harness lehnt es fail-closed ab, also läuft kein falscher Befehl — heikel wird es erst durch die „Kettenreaktion" im Verlauf. Dieser Artikel erklärt Mechanismus, Ursachen, Irrtümer und die Lösungen für Nutzer und Entwickler.

2026/06/20

Andere KI KI-Entwicklung & Programmierung Einsteiger

Was ist LoRA? KI mit ein bisschen Extra-Training anpassen

Ein riesiges KI-Modell von Grund auf neu zu trainieren ist viel zu teuer, aber man möchte es nur für sich anpassen; LoRA (Low-Rank Adaptation) erfüllt diesen Wunsch, indem es das ursprüngliche Modell einfriert und nur ein winziges Zusatzteil (einen Adapter) trainiert, was die trainierbaren Parameter um rund 90% senkt. LoRA macht Fine-Tuning dramatisch günstiger und schneller und ist in der Bildgenerierung wie Stable Diffusion als kleine Datei, die eine Figur oder einen Stil hinzufügt, enorm beliebt. Dieser Artikel erklärt es mit einer Flicken-Analogie. LoRA ist das Aushängeschild des parametereffizienten Fine-Tunings (PEFT): die riesigen ursprünglichen Gewichte bleiben eingefroren, in jede Schicht wird eine kleine Zusatzmatrix eingefügt und nur diese trainiert (W = W0 + BA, wobei W0 eingefroren ist und BA der kleine hinzugefügte Teil). Es baut auf der Erkenntnis auf, dass die Anpassung einer KI keine großen Änderungen erfordert (ein niedriger Rang genügt). Vorteile: rund 90% weniger trainierbare Params (Berichten zufolge 10.000x weniger in GPT-3-Größenordnung), weniger GPU-Speicher (etwa 3x weniger), schnelleres und günstigeres Training, keine Inferenz-Latenz nach dem Verschmelzen des Adapters und geringeres Overfitting-Risiko. Die größte Stärke sind austauschbare Adapter: eine gemeinsame Basis behalten und je nach Anwendungsfall kleine (wenige-MB) LoRA-Dateien sofort tauschen (Support, Unternehmens-Tonfall, eine bestimmte Figur). Viele begegnen LoRA zuerst in der Bildgenerierung, wo Stable-Diffusion-LoRAs, die eine Figur, einen Stil oder ein Motiv gelernt haben, breit geteilt werden (Stil hinzufügen, Figur beibringen, leicht und teilbar). QLoRA kombiniert Quantisierung und trainiert LoRA auf einer 4-bit-Basis für ~4x weniger Speicher als Standard-LoRA, was das Fine-Tuning riesiger Modelle auf einer Consumer-GPU (manchmal CPU) mit minimalem Genauigkeitsverlust ermöglicht. Gegenüber dem vollständigen Fine-Tuning (alle Gewichte trainieren) unterscheidet sich LoRA bei den trainierten Gewichten, den Kosten, dem Ergebnis und dem besten Einsatz; für die meisten Arbeiten genügt LoRA. Die Basis behalten, klein würzen. Die Zahlen sind aus öffentlichen Materialien zitiert, als Richtwert.

2026/06/19

Andere KI KI-Entwicklung & Programmierung Einsteiger

Was ist Quantisierung? KI-Modelle schrumpfen, um sie auf dem eigenen Rechner laufen zu lassen

Dass ein riesiges 70B-Modell auf einem einzelnen heimischen Gaming-PC statt auf einem Rack voller Rechenzentrums-GPUs läuft, ermöglicht die Quantisierung, die die numerische Präzision der Gewichte eines Modells senkt, um Größe und Speicher drastisch zu verringern. Während die Modell-Destillation Wissen in ein separates kleineres Modell verlagert, macht die Quantisierung dasselbe Modell leichter. Dieser Artikel erklärt sie mit einer Foto-Kompressions-Analogie. Die Quantisierung ersetzt als FP16/FP32-Dezimalzahlen gespeicherte Gewichte durch INT8 (8-bit) oder INT4 (4-bit) Ganzzahlen und reduziert die Bytes pro Gewicht (FP32=4, INT8=1, INT4=0,5); wie beim Komprimieren eines RAW-Fotos zu JPEG opferst du ein wenig Präzision für eine große Reduktion, und überraschend ist, wie wenig man aufgibt. Beim Speicher nutzt 4-bit etwa ein Viertel von FP16: ein 70B-Modell sinkt von ~140GB auf ~35GB, und ein 8B-Modell bei 4-bit liegt bei ~4.5-5GB und passt in eine Mittelklasse-GPU mit 8GB VRAM für lokale Nutzung (die Demokratisierung der LLMs). Bei der Genauigkeit ist INT8 nahezu verlustfrei und INT4 verschlechtert sich unter 4% bei allgemeinen Q&A-/Alltagsaufgaben, doch der Verlust ist bei Mathematik, Code-Generierung und schwierigem Schlussfolgern deutlicher (er zeigt sich als kleiner Anstieg der Perplexität), also wähle die Bit-Breite passend zur Aufgabe. Wichtigste Methoden: GPTQ (Vorreiter für genaues 4-bit), AWQ (schützt die ~1% wichtigsten Gewichte, oft 1-2% genauer und schneller), GGUF (llama.cpp/Ollama-Format, Q2_K-Q8_0, CPU+GPU-Hybrid, für lokal) und QLoRA (4-bit-Basis plus LoRA für Consumer-GPU-Fine-Tuning). Sie unterscheidet sich von Destillation (in ein separates kleines Modell verlagern) und Fine-Tuning (Aufgabenwissen hinzufügen), und die drei werden meist kombiniert (ein destilliertes Modell quantisieren; eine quantisierte Basis fine-tunen). Zum Start ein GGUF-Modell mit Ollama in einem Befehl ausführen, Q4/Q8 nach VRAM wählen und INT4 für Code oder exakte Mathematik vermeiden. Die meisten großen Modelle werden bereits quantisiert ausgeliefert, du lädst sie also einfach herunter und nutzt sie. Behalte die Klugheit, lass nur das Gewicht fallen. Die Zahlen sind aus öffentlichen Materialien zitiert, als Richtwert.

2026/06/19

Andere KI KI-Entwicklung & Programmierung Einsteiger

Was ist Modell-Destillation? Wissen von einer großen KI auf eine kleine übertragen

Eine riesige, leistungsstarke KI ist klug, aber schwer und teuer; die Modell-Destillation (Knowledge Distillation) löst dies, indem sie das Wissen eines großen Lehrer-Modells auf ein kleines Schüler-Modell überträgt und so über 95 % der Leistung des Lehrers bei einem Zehntel der Größe und Geschwindigkeit erhält. Dieser Artikel erklärt es anhand einer Lehrer-Schüler-Analogie. Der Schlüssel sind soft labels: Gewöhnliches Training lehrt nur „die Antwort ist Katze“ (hard label), während die Destillation die vollständige Wahrscheinlichkeitsverteilung des Lehrers wie „90 % Katze, 8 % Hund, 2 % Fuchs“ übergibt, deren Grad des Zögerns reiche Informationen enthält; ein temperature-Parameter glättet die Wahrscheinlichkeiten, um feine Beziehungen sichtbar zu machen (reales Beispiel: GPT-4o mini aus GPT-4o destilliert). Vorteile: schnell und günstig, ~10x kompakter bei über 95 % erhaltener Leistung, läuft am Edge, stark bei Spezialisierung. Zwei Ansätze: White-Box (voller Zugriff auf Gewichte und interne Repräsentationen, tiefere Übertragung; für eigene oder OSS-Modelle) und Black-Box (nur Ausgaben/API-Antworten sichtbar; die API eines anderen Unternehmens als Lehrer zu nutzen, kann gegen Bedingungen verstoßen). Sie unterscheidet sich von Quantisierung (Kompression der Gewichtspräzision desselben Modells) und Fine-Tuning (Weitertraining eines bestehenden Modells für eine Aufgabe) – die Destillation überträgt Wissen in ein separates kleines Modell, und die drei sind kombinierbar. Die rechtliche/ToS-Realität war 2026 ein großes Thema: Die Technik ist legitim, aber OpenAI, Anthropic, Mistral und xAI enthalten Klauseln zur wettbewerbswidrigen Destillation, die es verbieten, Ausgaben zum Bau konkurrierender Modelle zu nutzen, sodass das Destillieren eines Konkurrenten aus einer eingeschränkten API gegen die Bedingungen verstoßen kann. Der Streit OpenAI gegen DeepSeek (OpenAI behauptete, mit DeepSeek verbundene Konten umgingen Beschränkungen, um Ausgaben für die Destillation zu erlangen, während DeepSeeks Bedingungen die Destillation seiner Ausgaben Berichten zufolge erlauben) zeigt, dass die Bewertung davon abhängt, wessen API-Bedingungen gelten, und Claude Fable 5/Mythos 5 schränken Antworten zu als Destillation markierten Arbeiten Berichten zufolge ein. Tipps: Verwenden Sie eigene oder lizenzierte OSS-Modelle als Lehrer, prüfen Sie Anti-Destillations-Klauseln vor der Nutzung einer kommerziellen API und beurteilen Sie, ob die Nutzung die „Entwicklung eines konkurrierenden Modells“ darstellt. Klugheit vom großen Modell, Betrieb vom kleinen – aber wen man als Lehrer wählt, ändert das Ergebnis technisch und rechtlich. Zahlen sind aus öffentlichen Materialien zitiert, richtungsweisend.

2026/06/19

KI-Entwicklung & Programmierung KI-Agenten & Automatisierung Einsteiger

Was ist AI Observability? LLMs und Agenten überwachen und tracen, für Einsteiger

In „So baust du ein Multi-Agenten-System" hieß es, jede Übergabe zu instrumentieren, bevor man Agenten hinzufügt; die Technologie, die diese Instrumentierung in der Produktion trägt, ist AI observability. Sie macht sichtbar, was LLMs und Agenten in der Produktion tatsächlich tun (welches Modell mit welchem Prompt, welche Tools und Suchen, was zurückkam und wie lange und wie viel es kostete), damit du bis zur Ursache zurückverfolgen kannst. Der entscheidende Unterschied zum gewöhnlichen App-Monitoring: KI kann 200 OK in 50ms zurückgeben und trotzdem selbstbewusst halluzinieren, sodass die meisten KI-Ausfälle Qualitäts-Ausfälle sind (Halluzination, schwaches Retrieval, unsichere Antworten, unvollständige Aufgaben, schlechte Tool-Nutzung, Regressionen nach Prompt-Änderung) und keine Infrastruktur-Ausfälle. Observability ruht auf drei Säulen: traces (eine Anfrage als Baum aus spans, der LLM-Aufrufe, Tools, Retrieval und Argumentationsketten zeigt; der Star der KI-Beobachtung), metrics (Latenz, Kosten, Tokens, Fehlerrate, Durchsatz) und logs (Detail pro Ereignis). Der Industriestandard OpenTelemetry GenAI-Konventionen erfasst Prompts, Antworten, Token-Verbrauch und Tool-/Agenten-Aufrufe in einem herstellerneutralen Schema, einspeisbar in Datadog/Grafana. Die am häufigsten verwechselte Unterscheidung ist Observability vs. Evaluation (evals): Observability zeigt, was passiert ist (leicht zu messen, kann aber nicht sagen, ob die Antwort korrekt ist), während evals messen, ob die Antwort gut ist (Genauigkeit, groundedness, Sicherheit) und explizite Bewertung erfordern. Da Kosten und Latenz leicht zu messen sind, die Antwortqualität aber nicht, kombinieren Tools von 2026 die trace-Anzeige mit Output-Bewertung und Verschlechterungs-Alarmen. Kennzahlen teilen sich in betriebliche (Kosten, Latenz, Tokens, Fehlerrate) und qualitative (Halluzination, groundedness/faithfulness, am wichtigsten für RAG, Sicherheit, Aufgabenerfüllung), mit Halluzinationserkennung via LLM-as-a-judge, semantischer Ähnlichkeit und groundedness-Scores. Wichtige Tools: LangSmith (LangChain), Langfuse (Open-Source-Self-Host), Arize Phoenix (RAG-Debugging), MLflow (Lebenszyklus), AgentOps (Agenten) und OpenTelemetry (der Standard). Beginne mit dem Erfassen von traces (OpenTelemetry-konform), visualisiere betriebliche Kennzahlen und binde dann evals an, bevor du ausrollst. Für Multi-Agenten-Systeme ist Beobachtung unverzichtbar, da sich Fehler in mehrstufigen Ketten verbergen, die nur in einem vollständigen Session-Trace sichtbar sind. Beobachten plus bewerten macht KI produktionsreif. Abbildungen und Merkmale sind aus öffentlichen Materialien zitiert, als Richtwert.

2026/06/19

KI-Entwicklung & Programmierung KI-Agenten & Automatisierung Einsteiger

Wie man ein Multi-Agent-System baut: Praxisleitfaden zum supervisor-Muster

Nachdem das Konzept in „Was ist ein Multi-Agent-System?“ geklärt wurde, ist dies die praktische Fortsetzung. Anhand des De-facto-Standards von 2026, des supervisor-Musters, führt der Artikel Anfänger durch einen Bau in 5 Schritten. Das Kernprinzip: zuerst Single bauen und Agenten nur minimal hinzufügen, sobald man an eine Grenze stößt (rund 80% der Anwendungsfälle reichen mit einem; Multi für einfache lineare Arbeit treibt die Kosten um das 3-10-Fache hoch und senkt laut Google-Forschung die Genauigkeit bei sequenziellen Aufgaben um -39-70%). Drei Anzeichen für Multi: Aufteilung nach Fachgebieten, Parallelität, Entscheidungstrennung. Das supervisor-Muster (der supervisor empfängt die Gesamtaufgabe, zerlegt sie, delegiert an spezialisierte Worker und fasst die Ergebnisse zusammen) ist die Form, auf die Claude Code subagents, LangGraph Supervisor und OpenAI Agents SDK handoffs konvergiert sind – wegen breitester Framework-Unterstützung, eines bekannten Fehlermodus (Über-Delegation, begrenzt durch eine Iterations-Obergrenze) und leichter Auditierbarkeit. Die 5 Schritte: 1) die Aufgabe vorab klar zerlegen; 2) Worker mit einer Rolle + Tools + Ausgabeformat definieren (höchstens 3-5); 3) den supervisor entwerfen, aufrufbare Worker-Namen explizit auflisten (harte Obergrenze) und hier die meiste Zeit verwenden; 4) Handoff und Kontextteilung festlegen, nur Nötiges weitergeben (Standard ist A2A); 5) jeden Handoff vor dem Hinzufügen von Agenten instrumentieren, Iterationen/Tokens/Kosten begrenzen und evals und Guardrails einrichten. Framework-unabhängiger Pseudocode zeigt Worker-Definitionen, einen hart begrenzten supervisor und eine iterationsbegrenzte Ausführungsschleife. Häufige Fallstricke und Lösungen: Über-Delegation (Obergrenze + aufrufbare Worker begrenzen), Token-Aufblähung (nur Nötiges teilen + Cache), Instabilität (bei 3-5 halten + fixe Ausgabe), Genauigkeitsverlust bei sequenziellen Aufgaben (zurück zu Single) und unklarer Fehlerort (Beobachtbarkeit). Die gemeinsame Lektion: Prompts, Tool-Design und das eval-Harness entscheiden mehr über den Erfolg als das Framework. Klein bauen, messen, nur erweitern, wenn es sich lohnt. Zahlen stammen aus öffentlichen Materialien und Forschung, kontextabhängig.

2026/06/19

KI-Entwicklung & Programmierung KI-Agenten & Automatisierung Einsteiger

Was ist ein Multi-Agent-System? Mehrere KI-Agenten koordinieren, für Einsteiger erklärt

„Eine komplexe Aufgabe, die ein einzelner KI-Agent nicht bewältigen kann, auf mehrere Agenten aufteilen" – das ist die Idee hinter Multi-Agent-Systemen. Dieser Einsteiger-Guide erklärt die Funktionsweise, die wichtigsten Muster und die führenden Frameworks und vor allem die echte Entscheidungsregel, wann sich mehrere Agenten lohnen und wann einer genügt, ganz ohne Hype. Ein Multi-Agent-System lässt mehrere rollenspezialisierte KIs an einer großen Aufgabe zusammenarbeiten; anders als ein einzelner Agent, der alles erledigt (genügt für ~80 % der Anwendungsfälle, günstig und leicht zu debuggen), teilt es die Arbeit nach Fachgebiet auf, für parallele Ausführung und gegenseitige Kontrolle, zum Preis höherer Koordinationskosten und Tokenmenge. Die vier dominierenden Orchestrierungsmuster sind: Orchestrator-Worker (ein Leiter zerlegt, verteilt Worker parallel und führt zusammen; am weitesten verbreitet, mit Prüfspur), sequenzielle Übergabe (Kontext an den nächsten Agenten weiterreichen), Gruppengespräch (Agenten debattieren in einem Thread, ein Auswähler entscheidet, wer spricht; gut für gegenseitige Überprüfung) und Graph-Zustandsmaschine (Agenten als Knoten, Übergänge als Kanten, expliziter Zustand; stark bei Verzweigungen und Checkpoints). Die Frameworks konsolidierten sich 2026 zu LangGraph (größte Verbreitung im Produktivbetrieb), CrewAI (geringste Lernkurve, Prototyping), AutoGen/AG2 (Debatte und Überprüfung, Forschung) und OpenAI Swarm (leichtgewichtige Übergaben). Doch es ist kein Allheilmittel: komplexe fachübergreifende Aufgaben erreichen bis zu +23 % bei Reasoning-Benchmarks, doch bei linearen sequenziellen Aufgaben fand Google-Forschung −39–70 % gegenüber einem einzelnen Agenten, dieselbe Rechenleistung einem Agenten gegeben gleicht oft auf oder gewinnt, und 7 von 10 Einführungen verursachten Berichten zufolge Kosten ohne ROI bei ~15-fachem Tokenverbrauch (durchschn. ROI 2.5-3.5x, oberes Quartil 4-6x bei gutem Einsatz). Der empfohlene Weg: erst einzeln bauen, eine konkrete Decke identifizieren (verschwommene Rollen, parallelisierbare Arbeit), dann ein minimales Team von 2-3 Agenten im Leiter-Muster mit Kostengrenze und Logging hinzufügen und messen, ob der Genauigkeitsgewinn den Anstieg rechtfertigt. A2A (Kommunikationsprotokoll) und MCP (Werkzeuganbindung) sind Basistechnologien, die Multi-Agent tragen. Einzeln für 80 %, Multi nur für die schwierigen Teile. Die Zahlen stammen aus Umfragen und Forschung und sind bedingungsabhängige Richtwerte.

2026/06/19

KI-Entwicklung & Programmierung KI-Agenten & Automatisierung Einsteiger

Was ist A2A (Agent2Agent)? Unterschied zu MCP, Agent Cards und so funktioniert es

Jetzt, da KI-Agenten alltäglich sind, lautet die nächste Herausforderung, wie man Agenten miteinander kooperieren lässt. Wenn MCP einen Agenten mit seinen Werkzeugen verbindet, verbindet A2A (Agent2Agent) einen Agenten mit einem anderen Agenten — ein offener Standard, mit dem sich KIs auf unterschiedlichen Anbietern und Frameworks finden, kommunizieren und über eine gemeinsame Konvention kooperieren. Google veröffentlichte ihn im April 2025, übergab ihn im Juni an die Linux Foundation, und 2026 erreichte er v1.0. Dieser Einsteiger-Leitfaden erklärt, was A2A ist (mit der Analogie der Umgangsformen einer Geschäftspartnerschaft), warum es nötig ist (spezialisierte Agenten reichen Arbeit weiter — ein Planungs-Agent zu einem Hotelbuchungs-Agent zu einem Bezahl-Agent), wie es sich von MCP unterscheidet (MCP ist vertikal, Agent ↔ Werkzeuge; A2A ist horizontal, Agent ↔ Agent; beide übereinanderzulegen ist das zweischichtige Standard-Setup), wie es funktioniert (eine Agent Card — ein JSON als „Visitenkarte" unter /.well-known/agent-card.json — dient zum Entdecken der Fähigkeiten, dann trägt ein Task die Anfrage durch Zustände wie working, input-required und completed, und ein Artifact liefert das Ergebnis, alles über HTTP, Server-Sent Events und JSON-RPC 2.0, wobei die Agenten ihre Interna verborgen halten) sowie aktueller Stand und Umsetzung (Stand April 2026: 150+ Organisationen im Produktivbetrieb, 22.000+ GitHub-Sterne, SDKs in fünf Sprachen — Python, JavaScript, Java, Go, .NET — mit Microsoft, Salesforce, SAP und ServiceNow beteiligt). Die Eselsbrücke: mit Werkzeugen verbinden = MCP, mit Partnern verbinden = A2A.

2026/06/13

KI-Entwicklung & Programmierung KI-Agenten & Automatisierung Einsteiger

Was ist Reranking? Zweistufiges Retrieval, das die RAG-Genauigkeit steigert – ein Einsteigerleitfaden

Sie haben RAG aufgebaut, aber die Suchqualität ist mittelmäßig – genau dann hilft Reranking. Reranking bewertet die grob von der Embedding-Suche (Vektorsuche) gesammelten Kandidaten nach ihrer Relevanz zur Anfrage neu und ordnet sie um, behält nur die besten; dieser eine Schritt kann die Antwortqualität eines RAG-Systems dramatisch verändern. Dieser Einsteigerleitfaden behandelt, was Reranking ist (ein Vergleich von Vorauswahl und finalem Vorstellungsgespräch), warum es nötig ist (die Embedding-Suche vektorisiert Anfrage und Dokumente getrennt und beurteilt die Relevanz daher nur grob, und eine schlechte Reihenfolge senkt die Antwortqualität unmittelbar – Studien berichten von etwa 40 % RAG-Genauigkeitszugewinn durch Reranking, und das Aufsetzen auf eine hybride Suche ist der Standard 2026), wie zweistufiges Retrieval funktioniert („breit sammeln" mit schneller Embedding-Suche für Recall, dann „klug eingrenzen" mit dem Reranker für Precision, dann die besten an das LLM übergeben), warum ein Reranker genauer ist (ein Bi-Encoder vektorisiert Anfrage und Dokument einzeln, ist schnell, aber näherungsweise; ein Cross-Encoder gibt beide gemeinsam ein und liefert einen Relevanzwert von 0–1, genau, aber schwergewichtig – daher sammeln Sie mit dem schnellen Bi-Encoder und grenzen mit dem genauen Cross-Encoder ein) sowie die Modelle und Umsetzung (API-Typ wie Cohere Rerank, Voyage und Jina; Open Source wie BGE reranker, mixedbread und FlashRank; und LLM-basiertes Scoring wie RankLLM – einfach 50–100 abrufen und auf die Top 5 eingrenzen). Das Prinzip: breit sammeln, klug eingrenzen und die Anzahlen mit KI-Evaluierungen abstimmen.

2026/06/13