Inhalt
- Die Antwort in 30 Sekunden
- 1. Warum Sie ein LLM-Gateway brauchen
- 2. Was ein LLM-Gateway ist
- 3. Was es für Sie übernimmt
- 4. Drei Typen: self-hosted, hosted, SDK
- 5. Die wichtigsten Tools im Vergleich
- 6. Minimales Setup (Code)
- 7. Wie Sie auswählen
- 8. Vorbehalte und Grenzen — nicht kostenlos
- Zusammenfassung
- FAQ
Sie haben es auf der API von OpenAI aufgebaut. Dann wollen Sie auch Claude ausprobieren und Gemini vergleichen. Aber jeder Anbieter hat ein anderes SDK, eine andere Request-Struktur und ein anderes Fehlerverhalten. Jeder Wechsel bedeutet, Code umzuschreiben, Antworten zu transformieren und pro Anbieter eine eigene Retry-Logik zu pflegen — schon bald hat sich „anbieterspezifische Klempnerei" in jede Ecke Ihrer App gefressen. Und solange Sie an einen Anbieter gebunden sind, gilt: Sobald dieses Unternehmen einen Ausfall hat, die Preise erhöht oder ein Modell abschaltet, geht Ihre App mit unter.
Was Ihnen all diese Klempnerei abnimmt, ist ein LLM-Gateway (AI-Gateway), auch LLM-Proxy genannt. Es ist ein Relais, das zwischen Ihrer App und den Anbietern sitzt, eine einzige API (meist OpenAI-kompatibel) bereitstellt, um jedes Modell zu erreichen, und die querschnittlichen Aufgaben übernimmt — Fallback, Kostenverfolgung, Caching, Rate-Limiting. Dieser Leitfaden behandelt, was ein Gateway für Sie tut, den Unterschied zwischen den Typen self-hosted, hosted und SDK, wie Sie zwischen LiteLLM, OpenRouter und dem Vercel AI SDK wählen, und die Grenzen, die Sie kennen müssen, um sich nicht die Finger zu verbrennen.
Die Antwort in 30 Sekunden
Wenn Sie nur eine Box lesen
Hinweis: Ein Gateway gibt es nicht umsonst. Es kostet Sie einen Latenz-Hop, Gebühren und etwas Feature-Verlust (§8).
1. Warum Sie ein LLM-Gateway brauchen
Wenn Sie nur einen einzigen Anbieter über ein einziges SDK ansprechen, brauchen Sie kein Gateway. Sie brauchen eines in dem Moment, in dem Sie mehr als ein Modell nutzen wollen. Schauen Sie sich die drei klassischen Schmerzpunkte an.
Jeder Anbieter hat andere SDKs, Parameternamen, Antwortstrukturen und Fehlercodes. Jeder Wechsel bedeutet, Ihre App umzuschreiben.
Hängen Sie vollständig von einem Unternehmen ab, wird dessen Ausfall oder Preisänderung zu Ihrer Ausfallzeit. Sie wollen einen Notausgang (Fallback).
Das beste Modell unterscheidet sich je nach Aufgabe. Sie wollen ein günstiges Modell zum Entwerfen und ein schlaues zum Feinschliff nutzen — aber die Klempnerei steht im Weg.
Gemeinsam ist ihnen eine Struktur, in der die Einschränkungen des SDK eine im Grunde strategische Entscheidung diktieren — welches Modell zu verwenden ist. Ein Gateway schneidet diese Klempnerei aus Ihrer App heraus. Ihre App muss nur einen Endpunkt kennen; wen sie dahinter aufruft, auf wen umgeschaltet wird und wie viel Sie ausgegeben haben, ist Sache des Gateways. Weil der Bau eines KI-Agenten oder eines Agenten-Frameworks fast immer mehrere Modelle voraussetzt, wächst der Bedarf nur weiter.
2. Was ein LLM-Gateway ist
Ein LLM-Gateway ist ein Proxy, der zwischen Ihrer App und einem oder mehreren LLM-Anbietern sitzt. Die meisten stellen eine einzige API bereit, geformt wie der Chat-Completions-Endpunkt von OpenAI, und bündeln an einer Stelle die querschnittliche Arbeit, die sonst über Ihren Code verstreut wäre — Routing, Retries und Fallback, Caching, Rate-Limiting, Kostenverfolgung und Zugriffskontrolle.
(OpenAI-kompatibel)
Kosten / Cache / Kontrolle
Google / lokal…
Der Kern ist, das Fenster zu einem einzigen zu machen. Ihr App-Code übergibt einfach einen String an model. Schreiben Sie anthropic/claude-opus-4.8 und Sie bekommen Claude; schreiben Sie openai/gpt-5.5 und Sie bekommen GPT — sonst ändert sich nichts in der App. Entscheidungen wie „auf ein anderes Modell umschalten, wenn dieses ausfällt" oder „diese identische Frage aus dem Cache zurückgeben" werden alle auf der Gateway-Seite geregelt. Ein lokales LLM so einzumischen, dass „sensible Daten lokal bleiben, alles andere in die Cloud geht", wird auf dieselbe Weise geschrieben.
3. Was es für Sie übernimmt
Die querschnittliche Arbeit, die ein Gateway übernimmt, fällt grob in diese sechs Bereiche. Die Tools unterscheiden sich darin, was sie gut können, aber die Richtung ist gemeinsam.
Sprechen Sie jeden Anbieter in einem Format an (meist OpenAI-kompatibel). Anbieterunterschiede aus der App zu löschen, ist das zentrale Feature.
Wenn das primäre Modell einen Fehler wirft, überlastet ist oder abläuft, automatisch auf ein anderes umschalten. Das Herzstück der Geschäftskontinuität.
Ausgaben sehen pro Nutzer, Team oder Projekt. Geben Sie eingeschränkte virtuelle Keys aus, die die echten verbergen.
Identische oder ähnliche Requests merken und sofort zurückgeben. Senkt sowohl API-Rechnungen als auch Latenz.
Token- und Request-Limits pro Key, plus Load-Balancing über mehrere Keys und Instanzen.
Messen Sie Logs, Latenz und Erfolgsrate über alle Requests. Manche Tools lassen Sie zudem Input-/Output-Guardrails einfügen.
💡 „Fallback" heißt nicht „sicher". Das Modell, auf das Sie umschalten, hat andere Output-Eigenheiten, Token-Zahlen und unterstützte Features. Fallback wird nicht in dem Moment sicher, in dem Sie es konfigurieren — es funktioniert erst, wenn Sie es tatsächlich ausgelöst und getestet haben. Prüfen Sie stets vorab, dass Ihr Prompt nach dem Wechsel nicht bricht.
4. Drei Typen: self-hosted, hosted, SDK
„LLM-Gateway" wird als ein einziger Begriff verwendet, aber wo es läuft teilt es in drei recht unterschiedliche Charaktere auf. Verwechseln Sie das, treffen Sie die falsche Wahl.
| Typ | Wo es läuft | Beispiele | Für wen |
|---|---|---|---|
| ① Self-hosted Proxy | Ihre Server (separater Prozess) | LiteLLM / Portkey (OSS) | Daten im Haus und kontrolliert halten |
| ② Hosted (SaaS) | Die Cloud des Anbieters | OpenRouter / Cloudflare | Sofort nutzen, null Betrieb |
| ③ SDK / Bibliothek | In Ihrem App-Code | Vercel AI SDK | Schnell in TS/JS abstrahieren |
① Self-hosted ist ein eigenständiger Prozess (ein Proxy-Server), den Sie auf Ihrer eigenen Infrastruktur betreiben. Weil Prompts nicht durch ein externes SaaS laufen, ist es stark bei Governance und Audit — aber Sie betreiben es selbst. ② Hosted lässt den Anbieter den Proxy betreiben, ist also am schnellsten einzuführen, aber Requests laufen durch einen Dritten. ③ SDK stellt keinen separaten Prozess auf; es absorbiert Anbieterunterschiede innerhalb Ihres App-Codes — kein Netzwerk-Relais, sondern eine „Abstraktionsschicht", und es lässt sich mit ① oder ② kombinieren.
5. Die wichtigsten Tools im Vergleich
Hier sind die drei Spitzenreiter in empfohlener Reihenfolge, plus zwei weitere, die man kennen sollte. Die Angaben basieren auf den offiziellen Seiten der jeweiligen Anbieter, Stand Juli 2026 (die Angebote ändern sich, prüfen Sie also immer den aktuellen Stand an der Primärquelle).
LiteLLM — der Standard-Self-hosted-Proxy
LiteLLM (von BerriAI) ist eine Open-Source-Python-Bibliothek und ein Self-hosted-Gateway. Es lässt Sie 100+ Anbieter und 2.500+ Modelle über eine einzige OpenAI-kompatible API ansprechen (laut offiziellem Repo). Stellen Sie es als Proxy auf, bekommen Sie Kostenverfolgung, virtuelle Keys, Rate-Limiting, Fallback, Load-Balancing, Redis-Caching und Observability (Integrationen mit Langfuse/Prometheus/Datadog). Es ist die erste Wahl für Organisationen, die Prompts im Haus halten wollen.
OpenRouter — Multi-Provider mit einem Key, sofort
OpenRouter ist ein Hosted-Gateway ohne Betrieb. Mit einer einzigen OpenAI-kompatiblen API und einem API-Key gibt es laut offizieller Seite Zugriff auf 400+ Modelle. Sein Preisdesign sticht heraus: Die offizielle Seite gibt an „wir schlagen keinen Aufschlag auf Inferenz-Tokens auf (Katalogpreise entsprechen den veröffentlichten Preisen des jeweiligen Anbieters)", während eine 5,5%-Plattformgebühr auf Guthaben-Käufe berechnet wird (laut openrouter.ai/pricing). Es ist überwältigend schnell, wenn es heißt „bring es einfach zum Laufen" und „probiere jeden Anbieter mit einem Key".
Vercel AI SDK — aus dem Code heraus abstrahieren, in TypeScript
Vercel AI SDK (2026 nur noch „AI SDK") ist ein Open-Source-TypeScript-Toolkit. Statt eines separaten Proxy-Prozesses ist es eine Abstraktionsschicht, die Anbieterunterschiede innerhalb Ihres App-Codes absorbiert. Was die Docs den „architektonischen Kern" nennen, ist Provider-Abstraktion: der Wechsel von OpenAI zu Anthropic bedeutet, einen Import und einen Modell-String zu ändern — Ihr Code für Generierung, Streaming und Tool-Calling bleibt vollständig intakt. Kombinieren Sie es mit dem Hosted Vercel AI Gateway und Sie erreichen 100+ Modelle. Für die Implementierungsdetails und den Code siehe unseren vollständigen Vercel-AI-SDK-Leitfaden.
Zwei weitere, die man kennen sollte
Eine verwaltete, am Edge laufende Option. Leiten Sie einfach Ihre bestehenden Anbieter-Aufrufe hindurch und Sie bekommen Caching, Rate-Limiting, Analytics, Logging und Fallback bei minimaler Code-Änderung (laut Docs). Ideal, wenn Sie ohnehin auf Cloudflare laufen.
Eine Control-Plane, die einem Gateway produktionsreife Governance, Guardrails und Prompt-Management hinzufügt. Die offizielle Seite sagt, es verbindet 1.600+ LLMs über eine API. Die OSS-Version lässt sich auch selbst hosten.
| Tool | Typ | Fenster | Fokus | Preisidee |
|---|---|---|---|---|
| LiteLLM | ① self-host | OpenAI-kompatible API | Governance, virtuelle Keys, Observability | OSS kostenlos + Ihre Betriebskosten |
| OpenRouter | ② hosted | OpenAI-kompatible API | Sofort, 400+ Modelle mit einem Key | Kein Inferenz-Aufschlag; 5,5% auf Käufe |
| Vercel AI SDK | ③ SDK | TS-Funktionen | Aus dem Code wechseln, typsicher | SDK kostenlos + Abrechnung je Anbieter |
| Cloudflare AI Gateway | ② hosted (edge) | Pass-through | Caching, Observability | Cloudflare-Preise |
| Portkey | ① / ② beide | Einheitliche API | Governance, Guardrails | OSS + SaaS-Pläne |
6. Minimales Setup (Code)
Es sieht einschüchternd aus, aber der Kern des Wechsels ist eine einzige Stelle — tauschen Sie den Endpunkt (oder den Modell-String). Hier ist das minimale Beispiel für jeden der drei Typen.
② Hosted: OpenRouter (nur den Endpunkt tauschen)
Behalten Sie Ihr gewohntes OpenAI-SDK; ändern Sie nur base_url und den Key, um 400+ Modelle zu erreichen.
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1", # das ist der einzige Tausch
api_key="sk-or-...", # Ihr OpenRouter-Key
)
resp = client.chat.completions.create(
model="anthropic/claude-opus-4.8", # auf "openai/gpt-5.5" ändern und Sie haben gewechselt
messages=[{"role": "user", "content": "Hallo"}],
)
print(resp.choices[0].message.content)
① Self-hosted: LiteLLM (eigenen Proxy aufstellen)
Listen Sie Ihre Modelle in einer Config-Datei auf, und ein Befehl stellt ein OpenAI-kompatibles Gateway auf localhost:4000 auf. Ihre App zeigt einfach dorthin.
# config.yaml
model_list:
- model_name: claude
litellm_params:
model: anthropic/claude-opus-4-8
api_key: os.environ/ANTHROPIC_API_KEY
- model_name: gpt
litellm_params:
model: openai/gpt-5.5
api_key: os.environ/OPENAI_API_KEY
# Start (stellt eine OpenAI-kompatible API unter http://localhost:4000 bereit)
litellm --config config.yaml
③ SDK: Vercel AI SDK (den Modell-String im Code ändern)
Behalten Sie den Import und die Funktion; tauschen Sie nur den model-String zum Wechseln.
import { generateText } from 'ai';
const { text } = await generateText({
model: 'anthropic/claude-opus-4.8', // auf 'openai/gpt-5.5' ändern
prompt: 'Hallo',
});
console.log(text);
In jedem Fall haben Sie keine einzige Zeile App-Logik angefasst. Das ist der Effekt eines Gateways/einer Abstraktion. Fallback und Caching werden darauf per Konfiguration aufgesetzt (die Docs des jeweiligen Anbieters sind der schnellste Weg zur genauen Syntax).
7. Wie Sie auswählen
Wählen Sie nicht nach „was ist am besten", sondern nach was zu Ihren Einschränkungen passt. Wenden Sie sie in dieser Reihenfolge an und Sie bleiben selten stecken.
Einfach zum Laufen bringen / solo, PoC, kleines Team → OpenRouter. Ein Key, null Betrieb, jedes Anbietermodell ausprobieren. Behandeln Sie die 5,5%-Gebühr als den Preis dafür, es nicht selbst zu betreiben.
Entwicklung in TypeScript / Next.js → Vercel AI SDK. Typsichere Abstraktion aus dem Code, plus ein komplettes Streaming-UI-Kit. Für die Implementierung geht es zum vollständigen Leitfaden.
Daten sollen das Haus nicht verlassen / organisationsweite Governance nötig → LiteLLM selbst hosten (oder Portkey OSS). Verteilen Sie virtuelle Keys an Teams und halten Sie Kosten und Logs an einer Stelle.
Bereits auf Cloudflare aufgebaut → Cloudflare AI Gateway: leiten Sie Ihre bestehenden Aufrufe hindurch und ergänzen Sie Caching und Observability.
Kombinationen sind in der Praxis normal. Zum Beispiel ist „die App mit dem Vercel AI SDK schreiben, aber deren Hintertür auf einen LiteLLM-Proxy richten, um unternehmensweit Kosten und Keys zu zentralisieren" ein zweistufiges Setup, das gerade deshalb funktioniert, weil die SDK- und Proxy-Typen getrennte Schichten sind. Als Versicherung gegen Abhängigkeitsrisiken wird es ebenfalls Standard, ein lokales LLM als eines der Fallback-Ziele einzuschieben.
8. Vorbehalte und Grenzen — nicht kostenlos
Ein Gateway ist praktisch, aber da es eine Schicht hinzufügt, gibt es immer einen Preis. Rechnen Sie diese vier ein, bevor Sie eines einführen.
Mit einem Relais dazwischen steigt die Latenz leicht. Hosted-Typen spüren besonders die geografische Distanz. Caching gleicht das oft aus, aber bei ultraniedriger Latenz gilt: messen.
Sie werden robust gegen Anbieterausfälle, aber fällt das Gateway selbst aus, fällt alles aus. Bauen Sie Redundanz, Health-Checks und einen Direktaufruf-Notausgang ein.
Hosted-Typen fügen eine Gebühr hinzu (OpenRouter sind 5,5% der Käufe); self-hosted fügt Server-Betriebskosten hinzu. Der Break-even verschiebt sich mit der Größe.
Die Konvergenz auf den kleinsten gemeinsamen Nenner OpenAI-kompatibel bedeutet, dass die einzigartigen Features jedes Anbieters (Extended Thinking, spezielle Tool-Formate) womöglich nicht durchkommen oder verspätet ankommen.
Noch eines, das oft übersehen wird: Privatsphäre. Das Routing durch ein Hosted-Gateway bedeutet, dass Ihre Prompts und Antworten durch die Infrastruktur eines Dritten laufen. Wenn Sie mit sensiblen Daten umgehen, prüfen Sie die Datenverarbeitungsrichtlinie des Vermittlers, oder halten Sie Prompts von vornherein im Haus mit einem Self-hosted-Typ (wie LiteLLM). Für den Produktionsbetrieb in einer Organisation behandeln Sie auch die eigenen Keys und Logs des Gateways als Gegenstände von Least Privilege und Isolation — das ist die sichere Seite.
Zusammenfassung
- Ein LLM-Gateway ist ein Relais zwischen Ihrer App und den Anbietern. Es lässt Sie jedes Modell über eine einzige API erreichen.
- Es übernimmt sechs Aufgaben: einheitliche API, Fallback, Kostenverfolgung, Caching, Rate-Limiting, Observability.
- Es gibt drei Typen — ① self-hosted (LiteLLM) / ② hosted (OpenRouter) / ③ SDK (Vercel AI SDK). Wählen Sie nach Einschränkung.
- Wie Sie wählen: sofort = OpenRouter / TS-Entwicklung = Vercel AI SDK / Governance = LiteLLM. Kombinationen sind normal.
- Vergessen Sie die Kosten nicht: ein Latenz-Hop, der eigene Ausfallpunkt des Gateways, Gebühren, Feature-Verlust, Privatsphäre.
- Fallback funktioniert nicht schon deshalb, weil es konfiguriert ist — lösen Sie es real aus und prüfen Sie, dass Ihr Prompt nicht bricht.
Wenn Sie mit mehreren Modellen arbeiten, wird ein Gateway kein „nice to have", sondern Grundausstattung, um die Klempnerei an einer Stelle zu sammeln. Beginnen Sie damit, mit OpenRouter base_url zu tauschen oder mit dem Vercel AI SDK einen Modell-String zu ändern — dieser kleine Schritt löst die Bindung an einen einzigen Anbieter auf und macht sowohl Vergleich als auch Fallback plötzlich realistisch. Für exakte, aktuelle Spezifikationen prüfen Sie die Primärquelle jedes Anbieters (LiteLLM / OpenRouter / AI SDK).
FAQ
F. Sind ein LLM-Gateway und ein LLM-Proxy verschiedene Dinge?
A. Sie werden fast austauschbar verwendet. Beide bezeichnen ein Relais, das zwischen Ihrer App und den Anbietern steht. Wenn überhaupt, neigt „Proxy" zum Mechanismus (Verkehr weiterleiten), während „Gateway" zur Rolle neigt (inklusive Kostenmanagement und Governance).
F. Wenn OpenRouter „keinen Aufschlag" hat, warum kann es am Ende teurer werden?
A. Die Inferenzrate pro Token ist der veröffentlichte Preis des jeweiligen Anbieters (kein Aufschlag), aber laut offizieller Seite gibt es eine 5,5%-Plattformgebühr auf Guthaben-Käufe. Je kleiner Ihre Aufladung, desto stärker beißt dieser Anteil, schätzen Sie die effektiven Kosten also als „Modellpreis + ein paar Prozent". Prüfen Sie den aktuellen Stand auf openrouter.ai/pricing.
F. Vercel AI SDK oder LiteLLM — welches sollte ich nutzen?
A. Sie sind getrennte Schichten und konkurrieren daher nicht. Das Vercel AI SDK ist In-Code-Abstraktion (für TS/JS); LiteLLM ist ein Separater-Prozess-Proxy (sprachunabhängig, governance-orientiert). Bauen Sie eine TS-App schnell mit Ersterem; halten Sie unternehmensweite Kosten, Keys und Logs an einer Stelle mit Letzterem. Beide zu stapeln ist üblich.
F. Macht das Hinzufügen eines Gateways die Dinge langsamer?
A. Ein Relais hinzuzufügen fügt etwas Latenz hinzu. Aber wo Caching greift, ist es oft stattdessen schneller. Ist ultraniedrige Latenz eine Anforderung, platzieren Sie einen Self-hosted-Typ in der Nähe, setzen Sie auf Caching und behalten Sie für kritische Pfade einen Direktaufruf-Notausgang, um die Auswirkung einzudämmen.
F. Brauche ich ein Gateway, auch wenn ich nur einen Anbieter nutze?
A. Nicht zwingend. Aber oft steckt schon allein in Kostentransparenz, Zugriffskontrolle über virtuelle Keys, Caching und Observability ein Wert. Falls Sie später Modelle hinzufügen oder es teamweit nutzen könnten, erleichtert ein frühes Einschieben die Migration.