Sie haben es auf der API von OpenAI aufgebaut. Dann wollen Sie auch Claude ausprobieren und Gemini vergleichen. Aber jeder Anbieter hat ein anderes SDK, eine andere Request-Struktur und ein anderes Fehlerverhalten. Jeder Wechsel bedeutet, Code umzuschreiben, Antworten zu transformieren und pro Anbieter eine eigene Retry-Logik zu pflegen — schon bald hat sich „anbieterspezifische Klempnerei" in jede Ecke Ihrer App gefressen. Und solange Sie an einen Anbieter gebunden sind, gilt: Sobald dieses Unternehmen einen Ausfall hat, die Preise erhöht oder ein Modell abschaltet, geht Ihre App mit unter.

Was Ihnen all diese Klempnerei abnimmt, ist ein LLM-Gateway (AI-Gateway), auch LLM-Proxy genannt. Es ist ein Relais, das zwischen Ihrer App und den Anbietern sitzt, eine einzige API (meist OpenAI-kompatibel) bereitstellt, um jedes Modell zu erreichen, und die querschnittlichen Aufgaben übernimmt — Fallback, Kostenverfolgung, Caching, Rate-Limiting. Dieser Leitfaden behandelt, was ein Gateway für Sie tut, den Unterschied zwischen den Typen self-hosted, hosted und SDK, wie Sie zwischen LiteLLM, OpenRouter und dem Vercel AI SDK wählen, und die Grenzen, die Sie kennen müssen, um sich nicht die Finger zu verbrennen.

Die Antwort in 30 Sekunden

Wenn Sie nur eine Box lesen

Was es ist
Ein Relais zwischen Ihrer App und den Anbietern. Erreichen Sie jedes Modell über eine einzige API.
Warum es hilft
Frei wechseln, vergleichen und zurückfallen. Verwalten Sie Kosten und Rate-Limits an einer Stelle.
Was zuerst wählen
Self-hosted = LiteLLM / sofort hosted = OpenRouter / TS-App = Vercel AI SDK.

Hinweis: Ein Gateway gibt es nicht umsonst. Es kostet Sie einen Latenz-Hop, Gebühren und etwas Feature-Verlust (§8).

1. Warum Sie ein LLM-Gateway brauchen

Wenn Sie nur einen einzigen Anbieter über ein einziges SDK ansprechen, brauchen Sie kein Gateway. Sie brauchen eines in dem Moment, in dem Sie mehr als ein Modell nutzen wollen. Schauen Sie sich die drei klassischen Schmerzpunkte an.

🔗 Vendor-Lock-in und verstreuter Code

Jeder Anbieter hat andere SDKs, Parameternamen, Antwortstrukturen und Fehlercodes. Jeder Wechsel bedeutet, Ihre App umzuschreiben.

⚡ Ausfälle, Preiserhöhungen, Abschaltungen

Hängen Sie vollständig von einem Unternehmen ab, wird dessen Ausfall oder Preisänderung zu Ihrer Ausfallzeit. Sie wollen einen Notausgang (Fallback).

🔀 Vergleichen, wechseln, mischen

Das beste Modell unterscheidet sich je nach Aufgabe. Sie wollen ein günstiges Modell zum Entwerfen und ein schlaues zum Feinschliff nutzen — aber die Klempnerei steht im Weg.

Gemeinsam ist ihnen eine Struktur, in der die Einschränkungen des SDK eine im Grunde strategische Entscheidung diktieren — welches Modell zu verwenden ist. Ein Gateway schneidet diese Klempnerei aus Ihrer App heraus. Ihre App muss nur einen Endpunkt kennen; wen sie dahinter aufruft, auf wen umgeschaltet wird und wie viel Sie ausgegeben haben, ist Sache des Gateways. Weil der Bau eines KI-Agenten oder eines Agenten-Frameworks fast immer mehrere Modelle voraussetzt, wächst der Bedarf nur weiter.

2. Was ein LLM-Gateway ist

Ein LLM-Gateway ist ein Proxy, der zwischen Ihrer App und einem oder mehreren LLM-Anbietern sitzt. Die meisten stellen eine einzige API bereit, geformt wie der Chat-Completions-Endpunkt von OpenAI, und bündeln an einer Stelle die querschnittliche Arbeit, die sonst über Ihren Code verstreut wäre — Routing, Retries und Fallback, Caching, Rate-Limiting, Kostenverfolgung und Zugriffskontrolle.

Ihre App
kennt nur eine API
(OpenAI-kompatibel)
LLM-Gateway
Routing / Fallback
Kosten / Cache / Kontrolle
Die Anbieter
OpenAI / Anthropic
Google / lokal…
Ihre App sieht ein einziges Fenster — das Gateway. Wen es aufruft, wechselt hinter den Kulissen.

Der Kern ist, das Fenster zu einem einzigen zu machen. Ihr App-Code übergibt einfach einen String an model. Schreiben Sie anthropic/claude-opus-4.8 und Sie bekommen Claude; schreiben Sie openai/gpt-5.5 und Sie bekommen GPT — sonst ändert sich nichts in der App. Entscheidungen wie „auf ein anderes Modell umschalten, wenn dieses ausfällt" oder „diese identische Frage aus dem Cache zurückgeben" werden alle auf der Gateway-Seite geregelt. Ein lokales LLM so einzumischen, dass „sensible Daten lokal bleiben, alles andere in die Cloud geht", wird auf dieselbe Weise geschrieben.

3. Was es für Sie übernimmt

Die querschnittliche Arbeit, die ein Gateway übernimmt, fällt grob in diese sechs Bereiche. Die Tools unterscheiden sich darin, was sie gut können, aber die Richtung ist gemeinsam.

🔌 Einheitliche API

Sprechen Sie jeden Anbieter in einem Format an (meist OpenAI-kompatibel). Anbieterunterschiede aus der App zu löschen, ist das zentrale Feature.

🔁 Fallback und Retry

Wenn das primäre Modell einen Fehler wirft, überlastet ist oder abläuft, automatisch auf ein anderes umschalten. Das Herzstück der Geschäftskontinuität.

💰 Kostenverfolgung und virtuelle Keys

Ausgaben sehen pro Nutzer, Team oder Projekt. Geben Sie eingeschränkte virtuelle Keys aus, die die echten verbergen.

⚡ Caching

Identische oder ähnliche Requests merken und sofort zurückgeben. Senkt sowohl API-Rechnungen als auch Latenz.

🚦 Rate-Limiting und Load-Balancing

Token- und Request-Limits pro Key, plus Load-Balancing über mehrere Keys und Instanzen.

📊 Observability und Guardrails

Messen Sie Logs, Latenz und Erfolgsrate über alle Requests. Manche Tools lassen Sie zudem Input-/Output-Guardrails einfügen.

💡 „Fallback" heißt nicht „sicher". Das Modell, auf das Sie umschalten, hat andere Output-Eigenheiten, Token-Zahlen und unterstützte Features. Fallback wird nicht in dem Moment sicher, in dem Sie es konfigurieren — es funktioniert erst, wenn Sie es tatsächlich ausgelöst und getestet haben. Prüfen Sie stets vorab, dass Ihr Prompt nach dem Wechsel nicht bricht.

4. Drei Typen: self-hosted, hosted, SDK

„LLM-Gateway" wird als ein einziger Begriff verwendet, aber wo es läuft teilt es in drei recht unterschiedliche Charaktere auf. Verwechseln Sie das, treffen Sie die falsche Wahl.

Typ Wo es läuft Beispiele Für wen
① Self-hosted Proxy Ihre Server (separater Prozess) LiteLLM / Portkey (OSS) Daten im Haus und kontrolliert halten
② Hosted (SaaS) Die Cloud des Anbieters OpenRouter / Cloudflare Sofort nutzen, null Betrieb
③ SDK / Bibliothek In Ihrem App-Code Vercel AI SDK Schnell in TS/JS abstrahieren

① Self-hosted ist ein eigenständiger Prozess (ein Proxy-Server), den Sie auf Ihrer eigenen Infrastruktur betreiben. Weil Prompts nicht durch ein externes SaaS laufen, ist es stark bei Governance und Audit — aber Sie betreiben es selbst. ② Hosted lässt den Anbieter den Proxy betreiben, ist also am schnellsten einzuführen, aber Requests laufen durch einen Dritten. ③ SDK stellt keinen separaten Prozess auf; es absorbiert Anbieterunterschiede innerhalb Ihres App-Codes — kein Netzwerk-Relais, sondern eine „Abstraktionsschicht", und es lässt sich mit ① oder ② kombinieren.

5. Die wichtigsten Tools im Vergleich

Hier sind die drei Spitzenreiter in empfohlener Reihenfolge, plus zwei weitere, die man kennen sollte. Die Angaben basieren auf den offiziellen Seiten der jeweiligen Anbieter, Stand Juli 2026 (die Angebote ändern sich, prüfen Sie also immer den aktuellen Stand an der Primärquelle).

LiteLLM — der Standard-Self-hosted-Proxy

LiteLLM (von BerriAI) ist eine Open-Source-Python-Bibliothek und ein Self-hosted-Gateway. Es lässt Sie 100+ Anbieter und 2.500+ Modelle über eine einzige OpenAI-kompatible API ansprechen (laut offiziellem Repo). Stellen Sie es als Proxy auf, bekommen Sie Kostenverfolgung, virtuelle Keys, Rate-Limiting, Fallback, Load-Balancing, Redis-Caching und Observability (Integrationen mit Langfuse/Prometheus/Datadog). Es ist die erste Wahl für Organisationen, die Prompts im Haus halten wollen.

OpenRouter — Multi-Provider mit einem Key, sofort

OpenRouter ist ein Hosted-Gateway ohne Betrieb. Mit einer einzigen OpenAI-kompatiblen API und einem API-Key gibt es laut offizieller Seite Zugriff auf 400+ Modelle. Sein Preisdesign sticht heraus: Die offizielle Seite gibt an „wir schlagen keinen Aufschlag auf Inferenz-Tokens auf (Katalogpreise entsprechen den veröffentlichten Preisen des jeweiligen Anbieters)", während eine 5,5%-Plattformgebühr auf Guthaben-Käufe berechnet wird (laut openrouter.ai/pricing). Es ist überwältigend schnell, wenn es heißt „bring es einfach zum Laufen" und „probiere jeden Anbieter mit einem Key".

Vercel AI SDK — aus dem Code heraus abstrahieren, in TypeScript

Vercel AI SDK (2026 nur noch „AI SDK") ist ein Open-Source-TypeScript-Toolkit. Statt eines separaten Proxy-Prozesses ist es eine Abstraktionsschicht, die Anbieterunterschiede innerhalb Ihres App-Codes absorbiert. Was die Docs den „architektonischen Kern" nennen, ist Provider-Abstraktion: der Wechsel von OpenAI zu Anthropic bedeutet, einen Import und einen Modell-String zu ändern — Ihr Code für Generierung, Streaming und Tool-Calling bleibt vollständig intakt. Kombinieren Sie es mit dem Hosted Vercel AI Gateway und Sie erreichen 100+ Modelle. Für die Implementierungsdetails und den Code siehe unseren vollständigen Vercel-AI-SDK-Leitfaden.

Zwei weitere, die man kennen sollte

Eine verwaltete, am Edge laufende Option. Leiten Sie einfach Ihre bestehenden Anbieter-Aufrufe hindurch und Sie bekommen Caching, Rate-Limiting, Analytics, Logging und Fallback bei minimaler Code-Änderung (laut Docs). Ideal, wenn Sie ohnehin auf Cloudflare laufen.

🛡️ Portkey

Eine Control-Plane, die einem Gateway produktionsreife Governance, Guardrails und Prompt-Management hinzufügt. Die offizielle Seite sagt, es verbindet 1.600+ LLMs über eine API. Die OSS-Version lässt sich auch selbst hosten.

Tool Typ Fenster Fokus Preisidee
LiteLLM ① self-host OpenAI-kompatible API Governance, virtuelle Keys, Observability OSS kostenlos + Ihre Betriebskosten
OpenRouter ② hosted OpenAI-kompatible API Sofort, 400+ Modelle mit einem Key Kein Inferenz-Aufschlag; 5,5% auf Käufe
Vercel AI SDK ③ SDK TS-Funktionen Aus dem Code wechseln, typsicher SDK kostenlos + Abrechnung je Anbieter
Cloudflare AI Gateway ② hosted (edge) Pass-through Caching, Observability Cloudflare-Preise
Portkey ① / ② beide Einheitliche API Governance, Guardrails OSS + SaaS-Pläne
Angaben und Preise laut den offiziellen Seiten der jeweiligen Anbieter, Stand Juli 2026. Sie ändern sich — prüfen Sie die Primärquelle bei der Einführung erneut.

6. Minimales Setup (Code)

Es sieht einschüchternd aus, aber der Kern des Wechsels ist eine einzige Stelle — tauschen Sie den Endpunkt (oder den Modell-String). Hier ist das minimale Beispiel für jeden der drei Typen.

② Hosted: OpenRouter (nur den Endpunkt tauschen)

Behalten Sie Ihr gewohntes OpenAI-SDK; ändern Sie nur base_url und den Key, um 400+ Modelle zu erreichen.

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",  # das ist der einzige Tausch
    api_key="sk-or-...",                       # Ihr OpenRouter-Key
)

resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.8",  # auf "openai/gpt-5.5" ändern und Sie haben gewechselt
    messages=[{"role": "user", "content": "Hallo"}],
)
print(resp.choices[0].message.content)

① Self-hosted: LiteLLM (eigenen Proxy aufstellen)

Listen Sie Ihre Modelle in einer Config-Datei auf, und ein Befehl stellt ein OpenAI-kompatibles Gateway auf localhost:4000 auf. Ihre App zeigt einfach dorthin.

# config.yaml
model_list:
  - model_name: claude
    litellm_params:
      model: anthropic/claude-opus-4-8
      api_key: os.environ/ANTHROPIC_API_KEY
  - model_name: gpt
    litellm_params:
      model: openai/gpt-5.5
      api_key: os.environ/OPENAI_API_KEY
# Start (stellt eine OpenAI-kompatible API unter http://localhost:4000 bereit)
litellm --config config.yaml

③ SDK: Vercel AI SDK (den Modell-String im Code ändern)

Behalten Sie den Import und die Funktion; tauschen Sie nur den model-String zum Wechseln.

import { generateText } from 'ai';

const { text } = await generateText({
  model: 'anthropic/claude-opus-4.8',  // auf 'openai/gpt-5.5' ändern
  prompt: 'Hallo',
});
console.log(text);

In jedem Fall haben Sie keine einzige Zeile App-Logik angefasst. Das ist der Effekt eines Gateways/einer Abstraktion. Fallback und Caching werden darauf per Konfiguration aufgesetzt (die Docs des jeweiligen Anbieters sind der schnellste Weg zur genauen Syntax).

7. Wie Sie auswählen

Wählen Sie nicht nach „was ist am besten", sondern nach was zu Ihren Einschränkungen passt. Wenden Sie sie in dieser Reihenfolge an und Sie bleiben selten stecken.

Einfach zum Laufen bringen / solo, PoC, kleines TeamOpenRouter. Ein Key, null Betrieb, jedes Anbietermodell ausprobieren. Behandeln Sie die 5,5%-Gebühr als den Preis dafür, es nicht selbst zu betreiben.

Entwicklung in TypeScript / Next.jsVercel AI SDK. Typsichere Abstraktion aus dem Code, plus ein komplettes Streaming-UI-Kit. Für die Implementierung geht es zum vollständigen Leitfaden.

Daten sollen das Haus nicht verlassen / organisationsweite Governance nötigLiteLLM selbst hosten (oder Portkey OSS). Verteilen Sie virtuelle Keys an Teams und halten Sie Kosten und Logs an einer Stelle.

Bereits auf Cloudflare aufgebautCloudflare AI Gateway: leiten Sie Ihre bestehenden Aufrufe hindurch und ergänzen Sie Caching und Observability.

Kombinationen sind in der Praxis normal. Zum Beispiel ist „die App mit dem Vercel AI SDK schreiben, aber deren Hintertür auf einen LiteLLM-Proxy richten, um unternehmensweit Kosten und Keys zu zentralisieren" ein zweistufiges Setup, das gerade deshalb funktioniert, weil die SDK- und Proxy-Typen getrennte Schichten sind. Als Versicherung gegen Abhängigkeitsrisiken wird es ebenfalls Standard, ein lokales LLM als eines der Fallback-Ziele einzuschieben.

8. Vorbehalte und Grenzen — nicht kostenlos

Ein Gateway ist praktisch, aber da es eine Schicht hinzufügt, gibt es immer einen Preis. Rechnen Sie diese vier ein, bevor Sie eines einführen.

⏱️ Ein Latenz-Hop

Mit einem Relais dazwischen steigt die Latenz leicht. Hosted-Typen spüren besonders die geografische Distanz. Caching gleicht das oft aus, aber bei ultraniedriger Latenz gilt: messen.

🎯 Ein neuer Single Point of Failure

Sie werden robust gegen Anbieterausfälle, aber fällt das Gateway selbst aus, fällt alles aus. Bauen Sie Redundanz, Health-Checks und einen Direktaufruf-Notausgang ein.

💸 Gebühren und Betriebskosten

Hosted-Typen fügen eine Gebühr hinzu (OpenRouter sind 5,5% der Käufe); self-hosted fügt Server-Betriebskosten hinzu. Der Break-even verschiebt sich mit der Größe.

🧩 Feature-Verlust

Die Konvergenz auf den kleinsten gemeinsamen Nenner OpenAI-kompatibel bedeutet, dass die einzigartigen Features jedes Anbieters (Extended Thinking, spezielle Tool-Formate) womöglich nicht durchkommen oder verspätet ankommen.

Noch eines, das oft übersehen wird: Privatsphäre. Das Routing durch ein Hosted-Gateway bedeutet, dass Ihre Prompts und Antworten durch die Infrastruktur eines Dritten laufen. Wenn Sie mit sensiblen Daten umgehen, prüfen Sie die Datenverarbeitungsrichtlinie des Vermittlers, oder halten Sie Prompts von vornherein im Haus mit einem Self-hosted-Typ (wie LiteLLM). Für den Produktionsbetrieb in einer Organisation behandeln Sie auch die eigenen Keys und Logs des Gateways als Gegenstände von Least Privilege und Isolation — das ist die sichere Seite.

Zusammenfassung

  • Ein LLM-Gateway ist ein Relais zwischen Ihrer App und den Anbietern. Es lässt Sie jedes Modell über eine einzige API erreichen.
  • Es übernimmt sechs Aufgaben: einheitliche API, Fallback, Kostenverfolgung, Caching, Rate-Limiting, Observability.
  • Es gibt drei Typen — ① self-hosted (LiteLLM) / ② hosted (OpenRouter) / ③ SDK (Vercel AI SDK). Wählen Sie nach Einschränkung.
  • Wie Sie wählen: sofort = OpenRouter / TS-Entwicklung = Vercel AI SDK / Governance = LiteLLM. Kombinationen sind normal.
  • Vergessen Sie die Kosten nicht: ein Latenz-Hop, der eigene Ausfallpunkt des Gateways, Gebühren, Feature-Verlust, Privatsphäre.
  • Fallback funktioniert nicht schon deshalb, weil es konfiguriert ist — lösen Sie es real aus und prüfen Sie, dass Ihr Prompt nicht bricht.

Wenn Sie mit mehreren Modellen arbeiten, wird ein Gateway kein „nice to have", sondern Grundausstattung, um die Klempnerei an einer Stelle zu sammeln. Beginnen Sie damit, mit OpenRouter base_url zu tauschen oder mit dem Vercel AI SDK einen Modell-String zu ändern — dieser kleine Schritt löst die Bindung an einen einzigen Anbieter auf und macht sowohl Vergleich als auch Fallback plötzlich realistisch. Für exakte, aktuelle Spezifikationen prüfen Sie die Primärquelle jedes Anbieters (LiteLLM / OpenRouter / AI SDK).

FAQ

F. Sind ein LLM-Gateway und ein LLM-Proxy verschiedene Dinge?

A. Sie werden fast austauschbar verwendet. Beide bezeichnen ein Relais, das zwischen Ihrer App und den Anbietern steht. Wenn überhaupt, neigt „Proxy" zum Mechanismus (Verkehr weiterleiten), während „Gateway" zur Rolle neigt (inklusive Kostenmanagement und Governance).

F. Wenn OpenRouter „keinen Aufschlag" hat, warum kann es am Ende teurer werden?

A. Die Inferenzrate pro Token ist der veröffentlichte Preis des jeweiligen Anbieters (kein Aufschlag), aber laut offizieller Seite gibt es eine 5,5%-Plattformgebühr auf Guthaben-Käufe. Je kleiner Ihre Aufladung, desto stärker beißt dieser Anteil, schätzen Sie die effektiven Kosten also als „Modellpreis + ein paar Prozent". Prüfen Sie den aktuellen Stand auf openrouter.ai/pricing.

F. Vercel AI SDK oder LiteLLM — welches sollte ich nutzen?

A. Sie sind getrennte Schichten und konkurrieren daher nicht. Das Vercel AI SDK ist In-Code-Abstraktion (für TS/JS); LiteLLM ist ein Separater-Prozess-Proxy (sprachunabhängig, governance-orientiert). Bauen Sie eine TS-App schnell mit Ersterem; halten Sie unternehmensweite Kosten, Keys und Logs an einer Stelle mit Letzterem. Beide zu stapeln ist üblich.

F. Macht das Hinzufügen eines Gateways die Dinge langsamer?

A. Ein Relais hinzuzufügen fügt etwas Latenz hinzu. Aber wo Caching greift, ist es oft stattdessen schneller. Ist ultraniedrige Latenz eine Anforderung, platzieren Sie einen Self-hosted-Typ in der Nähe, setzen Sie auf Caching und behalten Sie für kritische Pfade einen Direktaufruf-Notausgang, um die Auswirkung einzudämmen.

F. Brauche ich ein Gateway, auch wenn ich nur einen Anbieter nutze?

A. Nicht zwingend. Aber oft steckt schon allein in Kostentransparenz, Zugriffskontrolle über virtuelle Keys, Caching und Observability ein Wert. Falls Sie später Modelle hinzufügen oder es teamweit nutzen könnten, erleichtert ein frühes Einschieben die Migration.