Passerelle LLM : une API pour tous vos fournisseurs

Q: Ajouter une passerelle rend-il les choses plus lentes ?

Ajouter un relais ajoute un peu de latence. Mais là où la mise en cache entre en jeu, c'est souvent plus rapide au contraire. Si une latence ultra-faible est une exigence, placez un type auto-hébergé à proximité, appuyez-vous sur la mise en cache et gardez une issue d'appel direct pour les chemins critiques afin de contenir l'impact.

Qu'est-ce qu'une passerelle LLM (proxy) ? Une API pour tous les fournisseurs — Guide 2026

Sommaire

La réponse en 30 secondes
1. Pourquoi vous avez besoin d'une passerelle LLM
2. Ce qu'est une passerelle LLM
3. Ce qu'elle gère à votre place
4. Trois types : auto-hébergé, hébergé, SDK
5. Comparaison des principaux outils
6. Configuration minimale (code)
7. Comment choisir
8. Précautions et limites — ce n'est pas gratuit
Résumé
FAQ

Vous l'avez construit sur l'API d'OpenAI. Puis vous voulez aussi essayer Claude, et comparer Gemini. Mais chaque fournisseur a un SDK, une forme de requête et un comportement d'erreur différents. Chaque changement implique de réécrire du code, de transformer des réponses et de maintenir une logique de réessai distincte par fournisseur — bien vite, la « tuyauterie spécifique au fournisseur » s'est infiltrée dans tous les recoins de votre application. Et tant que vous êtes rivé à un seul fournisseur, au moment où cette entreprise subit une panne, augmente ses prix ou ferme un modèle, votre application tombe avec lui.

Ce qui prend en charge toute cette tuyauterie, c'est une passerelle LLM (passerelle IA), aussi appelée proxy LLM. C'est un relais qui se place entre votre application et les fournisseurs, exposant une seule API (généralement compatible OpenAI) pour atteindre tous les modèles, et gérant les tâches transversales — bascule (fallback), suivi des coûts, mise en cache, limitation de débit. Ce guide couvre ce qu'une passerelle fait pour vous, la différence entre les types auto-hébergé, hébergé et SDK, comment choisir parmi LiteLLM, OpenRouter et le Vercel AI SDK, et les limites à connaître pour ne pas vous brûler les doigts.

La réponse en 30 secondes

Si vous ne lisez qu'un seul encadré

Ce que c'est

Un relais entre votre application et les fournisseurs. Atteignez tous les modèles via une seule API.

Pourquoi c'est utile

Changez, comparez et basculez librement. Gérez le coût et les limites de débit en un seul endroit.

Lequel choisir en premier

Auto-hébergé = LiteLLM / hébergé instantané = OpenRouter / appli TS = Vercel AI SDK.

Note : une passerelle n'a rien de gratuit. Elle vous coûte un saut de latence, des frais et une certaine perte de fonctionnalités (§8).

1. Pourquoi vous avez besoin d'une passerelle LLM

Si vous n'appelez qu'un seul fournisseur via un seul SDK, vous n'avez pas besoin de passerelle. Vous en avez besoin dès l'instant où vous voulez utiliser plus d'un modèle. Regardez les trois douleurs classiques.

🔗 Dépendance au fournisseur et code éparpillé

Chaque fournisseur a des SDK, des noms de paramètres, des structures de réponse et des codes d'erreur différents. Chaque changement implique de réécrire votre application.

⚡ Pannes, hausses de prix, fermetures

Dépendez entièrement d'une seule entreprise et sa panne ou son changement de prix devient votre temps d'arrêt. Il vous faut une issue de secours (fallback).

🔀 Comparer, changer, panacher

Le meilleur modèle diffère selon la tâche. Vous voulez utiliser un modèle bon marché pour ébaucher et un modèle intelligent pour peaufiner — mais la tuyauterie se met en travers.

Ce qu'elles ont en commun, c'est une structure où les contraintes du SDK dictent un choix essentiellement stratégique — quel modèle utiliser. Une passerelle extrait cette tuyauterie de votre application. Votre application n'a besoin de connaître qu'un seul point d'accès ; qui appeler derrière, vers qui basculer, et combien vous avez dépensé, c'est le travail de la passerelle. Comme construire un agent IA ou un framework d'agents suppose presque toujours plusieurs modèles, la demande ne fait que croître.

2. Ce qu'est une passerelle LLM

Une passerelle LLM est un proxy qui se place entre votre application et un ou plusieurs fournisseurs de LLM. La plupart exposent une API unique façonnée comme le point de terminaison chat-completions d'OpenAI et regroupent en un seul endroit le travail transversal qui serait autrement éparpillé dans votre code — routage, réessais et bascule, mise en cache, limitation de débit, suivi des coûts et contrôle d'accès.

Votre application

ne connaît qu'une seule API
(compatible OpenAI)

→

Passerelle LLM

routage / bascule
coût / cache / contrôle

→

Les fournisseurs

OpenAI / Anthropic
Google / local…

Votre application ne voit qu'une seule fenêtre — la passerelle. Qui elle appelle bascule en coulisses.

L'idée est de rendre la fenêtre unique. Le code de votre application se contente de passer une chaîne à model. Écrivez anthropic/claude-opus-4.8 et vous obtenez Claude ; écrivez openai/gpt-5.5 et vous obtenez GPT — rien d'autre ne change dans l'application. Des décisions comme « basculer vers un autre modèle quand celui-ci est en panne » ou « renvoyer cette question identique depuis le cache » se règlent toutes du côté de la passerelle. Intégrer un LLM local pour que « les données sensibles restent en local, tout le reste va vers le cloud » s'écrit de la même façon.

3. Ce qu'elle gère à votre place

Le travail transversal qu'une passerelle prend en charge se répartit à peu près dans ces six catégories. Les outils diffèrent par leurs points forts, mais la direction est commune.

🔌 API unifiée

Appelez tous les fournisseurs dans un seul format (généralement compatible OpenAI). Effacer les différences entre fournisseurs de l'application est la fonctionnalité clé.

🔁 Bascule et réessai

Quand le modèle principal génère une erreur, surcharge ou dépasse le délai, bascule automatiquement vers un autre. Le cœur de la continuité d'activité.

💰 Suivi des coûts et clés virtuelles

Visualisez les dépenses par utilisateur, équipe ou projet. Distribuez des clés virtuelles à portée limitée qui masquent les vraies.

⚡ Mise en cache

Mémorisez et renvoyez instantanément les requêtes identiques ou similaires. Réduit à la fois les factures d'API et la latence.

🚦 Limitation de débit et répartition de charge

Limites de jetons et de requêtes par clé, plus répartition de charge entre plusieurs clés et instances.

📊 Observabilité et garde-fous

Mesurez les journaux, la latence et le taux de réussite sur toutes les requêtes. Certains outils vous permettent aussi d'insérer des garde-fous en entrée/sortie.

💡 « Bascule » ne veut pas dire « sûr ». Le modèle vers lequel vous basculez a des particularités de sortie, des décomptes de jetons et des fonctionnalités prises en charge différents. La bascule ne devient pas sûre à l'instant où vous la configurez — elle ne fonctionne qu'une fois que vous l'avez réellement déclenchée et testée. Vérifiez toujours au préalable que votre prompt ne casse pas après le changement.

4. Trois types : auto-hébergé, hébergé, SDK

« Passerelle LLM » s'utilise comme une seule étiquette, mais l'endroit où elle s'exécute la divise en trois caractères assez distincts. Trompez-vous là-dessus et vous choisirez mal.

Type	Où il s'exécute	Exemples	À qui il convient
① Proxy auto-hébergé	Vos serveurs (processus distinct)	LiteLLM / Portkey (OSS)	Garder les données en interne et gouvernées
② Hébergé (SaaS)	Le cloud du fournisseur	OpenRouter / Cloudflare	L'utiliser instantanément, zéro exploitation
③ SDK / bibliothèque	Dans le code de votre application	Vercel AI SDK	Abstraire rapidement en TS/JS

① Auto-hébergé est un processus indépendant (un serveur proxy) que vous montez sur votre propre infrastructure. Comme les prompts ne transitent pas par un SaaS externe, il est fort en gouvernance et en audit — mais c'est à vous de l'exploiter. ② Hébergé confie l'exploitation du proxy au fournisseur, c'est donc le plus rapide à adopter, mais les requêtes transitent par un tiers. ③ SDK ne monte aucun processus distinct ; il absorbe les différences entre fournisseurs dans le code de votre application — non pas un relais réseau mais une « couche d'abstraction », et il peut se combiner avec ① ou ②.

5. Comparaison des principaux outils

Voici les trois têtes d'affiche dans l'ordre recommandé, plus deux autres à connaître. Les chiffres se basent sur les pages officielles de chaque fournisseur en juillet 2026 (les offres changent, alors confirmez toujours les dernières auprès de la source primaire).

LiteLLM — le proxy auto-hébergé standard

LiteLLM (par BerriAI) est une bibliothèque Python open source et une passerelle auto-hébergée. Elle vous permet d'appeler plus de 100 fournisseurs et plus de 2 500 modèles via une API unique compatible OpenAI (selon le dépôt officiel). Montez-la en proxy et vous obtenez le suivi des coûts, les clés virtuelles, la limitation de débit, la bascule, la répartition de charge, la mise en cache Redis et l'observabilité (intégrations Langfuse/Prometheus/Datadog). C'est le premier choix pour les organisations qui veulent garder les prompts en interne.

OpenRouter — multi-fournisseur avec une seule clé, instantanément

OpenRouter est une passerelle hébergée sans exploitation. Avec une API unique compatible OpenAI et une seule clé d'API, elle donne accès à plus de 400 modèles selon le site officiel. Sa conception tarifaire se démarque : le site officiel indique « nous n'appliquons aucune marge sur les jetons d'inférence (les prix du catalogue égalent les prix publiés de chaque fournisseur) », tout en facturant des frais de plateforme de 5,5 % sur les achats de crédits (selon openrouter.ai/pricing). Elle est d'une rapidité écrasante pour « juste faire tourner ça » et « essayer chaque fournisseur avec une seule clé ».

Vercel AI SDK — abstraire depuis le code en TypeScript

Vercel AI SDK (simplement « AI SDK » en 2026) est une boîte à outils TypeScript open source. Plutôt qu'un processus proxy distinct, c'est une couche d'abstraction qui absorbe les différences entre fournisseurs dans le code de votre application. Ce que la documentation appelle le « cœur architectural » est l'abstraction des fournisseurs : passer d'OpenAI à Anthropic signifie changer un import et une chaîne de modèle — votre code de génération, de streaming et d'appel d'outils reste entièrement intact. Associez-le à la Vercel AI Gateway hébergée et vous atteignez plus de 100 modèles. Pour les détails d'implémentation et le code, consultez notre guide complet du Vercel AI SDK.

Deux autres à connaître

☁️ Cloudflare AI Gateway

Une option managée, exécutée en périphérie (edge). Routez simplement vos appels de fournisseur existants à travers elle et vous obtenez mise en cache, limitation de débit, analyses, journalisation et bascule avec un changement de code minimal (selon la documentation). Un excellent choix si vous tournez déjà sur Cloudflare.

🛡️ Portkey

Un plan de contrôle qui ajoute une gouvernance, des garde-fous et une gestion des prompts de niveau production à une passerelle. Le site officiel indique qu'il connecte plus de 1 600 LLM via une seule API. La version OSS peut aussi être auto-hébergée.

Outil	Type	Fenêtre	Axe	Idée tarifaire
LiteLLM	① auto-hébergé	API compatible OpenAI	Gouvernance, clés virtuelles, observabilité	OSS gratuit + votre coût d'exploitation
OpenRouter	② hébergé	API compatible OpenAI	Instantané, plus de 400 modèles avec une seule clé	Aucune marge sur l'inférence ; 5,5 % sur les achats
Vercel AI SDK	③ SDK	Fonctions TS	Changer depuis le code, typé statiquement	SDK gratuit + facturation de chaque fournisseur
Cloudflare AI Gateway	② hébergé (edge)	Passage direct	Mise en cache, observabilité	Tarification Cloudflare
Portkey	① / ② les deux	API unifiée	Gouvernance, garde-fous	Formules OSS + SaaS

Chiffres et tarifs selon les pages officielles de chaque fournisseur en juillet 2026. Ils changent — reconfirmez la source primaire au moment de l'adoption.

6. Configuration minimale (code)

Cela paraît intimidant, mais le nœud du changement tient en un seul et unique endroit — remplacez le point de terminaison (ou la chaîne de modèle). Voici l'exemple minimal pour chacun des trois types.

② Hébergé : OpenRouter (remplacez juste le point de terminaison)

Gardez votre SDK OpenAI habituel ; changez uniquement base_url et la clé pour atteindre plus de 400 modèles.

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",  # c'est le seul remplacement
    api_key="sk-or-...",                       # votre clé OpenRouter
)

resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.8",  # passez à "openai/gpt-5.5" et vous avez changé
    messages=[{"role": "user", "content": "Hello"}],
)
print(resp.choices[0].message.content)

① Auto-hébergé : LiteLLM (montez votre propre proxy)

Listez vos modèles dans un fichier de configuration, et une seule commande monte une passerelle compatible OpenAI sur localhost:4000. Votre application n'a qu'à y pointer.

# config.yaml
model_list:
  - model_name: claude
    litellm_params:
      model: anthropic/claude-opus-4-8
      api_key: os.environ/ANTHROPIC_API_KEY
  - model_name: gpt
    litellm_params:
      model: openai/gpt-5.5
      api_key: os.environ/OPENAI_API_KEY

# démarrage (expose une API compatible OpenAI sur http://localhost:4000)
litellm --config config.yaml

③ SDK : Vercel AI SDK (changez la chaîne de modèle dans le code)

Gardez l'import et la fonction ; remplacez juste la chaîne model pour changer.

import { generateText } from 'ai';

const { text } = await generateText({
  model: 'anthropic/claude-opus-4.8',  // passez à 'openai/gpt-5.5'
  prompt: 'Hello',
});
console.log(text);

Dans tous les cas, vous n'avez pas touché une seule ligne de logique applicative. C'est l'effet d'une passerelle/abstraction. La bascule et la mise en cache s'ajoutent par-dessus via la configuration (la documentation de chaque fournisseur est le chemin le plus rapide vers la syntaxe exacte).

7. Comment choisir

Choisissez non pas selon « lequel est le meilleur » mais selon lequel correspond à vos contraintes. Appliquez-les dans cet ordre et vous serez rarement bloqué.

Juste faire tourner ça / solo, PoC, petite équipe → OpenRouter. Une seule clé, zéro exploitation, essayez les modèles de chaque fournisseur. Considérez les frais de 5,5 % comme le prix de ne pas l'exploiter vous-même.

Développement en TypeScript / Next.js → Vercel AI SDK. Abstraction typée depuis le code, plus un kit d'interface de streaming complet. Pour l'implémentation, rendez-vous sur le guide complet.

Vous ne voulez pas que les données sortent / besoin d'une gouvernance à l'échelle de l'organisation → auto-hébergez LiteLLM (ou Portkey OSS). Distribuez des clés virtuelles aux équipes et centralisez coût et journaux en un seul endroit.

Déjà construit sur Cloudflare → Cloudflare AI Gateway : routez vos appels existants à travers elle et ajoutez mise en cache et observabilité.

Les combinaisons sont la norme en pratique. Par exemple, « écrire l'application avec le Vercel AI SDK, mais faire pointer sa porte de service vers un proxy LiteLLM pour centraliser le coût et les clés à l'échelle de l'entreprise » est un montage à deux niveaux qui fonctionne précisément parce que les types SDK et proxy sont des couches distinctes. Comme assurance contre le risque de dépendance, glisser un LLM local comme cible de bascule devient aussi la norme.

8. Précautions et limites — ce n'est pas gratuit

Une passerelle est pratique, mais comme elle ajoute une couche, il y a toujours un coût. Tenez compte de ces quatre points avant d'en adopter une.

⏱️ Un saut de latence

Avec un relais au milieu, la latence augmente légèrement. Les types hébergés ressentent surtout la distance géographique. La mise en cache la compense souvent, mais pour un usage à latence ultra-faible, mesurez.

🎯 Un nouveau point de défaillance unique

Vous devenez résilient aux pannes de fournisseur, mais si la passerelle elle-même tombe, tout tombe. Prévoyez de la redondance, des vérifications de santé et une issue d'appel direct.

💸 Frais et coût d'exploitation

Les types hébergés ajoutent des frais (OpenRouter c'est 5,5 % des achats) ; l'auto-hébergé ajoute un coût d'exploitation de serveur. Le seuil de rentabilité se déplace avec l'échelle.

🧩 Perte de fonctionnalités

Converger vers le plus petit dénominateur commun compatible OpenAI signifie que les fonctionnalités uniques de chaque fournisseur (raisonnement étendu, formats d'outils spéciaux) peuvent ne pas passer ou arriver en retard.

Encore un point souvent négligé : la confidentialité. Passer par une passerelle hébergée signifie que vos prompts et réponses transitent par l'infrastructure d'un tiers. Si vous manipulez des données sensibles, vérifiez la politique de traitement des données de l'intermédiaire, ou gardez d'emblée les prompts en interne avec un type auto-hébergé (comme LiteLLM). Pour la production dans une organisation, traitez les clés et les journaux propres à la passerelle comme des objets de moindre privilège et d'isolation eux aussi — c'est le côté sûr.

Résumé

Une passerelle LLM est un relais entre votre application et les fournisseurs. Elle vous permet d'atteindre tous les modèles via une seule API.
Elle prend en charge six tâches : API unifiée, bascule, suivi des coûts, mise en cache, limitation de débit, observabilité.
Il existe trois types — ① auto-hébergé (LiteLLM) / ② hébergé (OpenRouter) / ③ SDK (Vercel AI SDK). Choisissez selon vos contraintes.
Comment choisir : instantané = OpenRouter / dev TS = Vercel AI SDK / gouvernance = LiteLLM. Les combinaisons sont la norme.
N'oubliez pas les coûts : un saut de latence, le propre point de défaillance de la passerelle, les frais, la perte de fonctionnalités, la confidentialité.
La bascule ne fonctionne pas du simple fait qu'elle est configurée — déclenchez-la pour de vrai et vérifiez que votre prompt ne casse pas.

Si vous travaillez avec plusieurs modèles, une passerelle devient non pas un « plus » mais un équipement de base pour regrouper la tuyauterie en un seul endroit. Commencez par remplacer base_url avec OpenRouter ou changer une chaîne de modèle avec le Vercel AI SDK — ce petit pas dissout la dépendance à un fournisseur unique et rend soudain réalistes la comparaison comme la bascule. Pour des spécifications exactes et à jour, confirmez la source primaire de chaque fournisseur (LiteLLM / OpenRouter / AI SDK).

FAQ

Q. Une passerelle LLM et un proxy LLM sont-ils des choses différentes ?

R. Ils s'emploient de façon presque interchangeable. Les deux désignent un relais placé entre votre application et les fournisseurs. Tout au plus, « proxy » penche vers le mécanisme (relayer le trafic), tandis que « passerelle » penche vers le rôle (y compris la gestion des coûts et la gouvernance).

Q. Si OpenRouter n'applique « aucune marge », comment peut-il finir plus cher ?

R. Le tarif d'inférence par jeton est le prix publié de chaque fournisseur (aucune marge), mais selon le site officiel il y a des frais de plateforme de 5,5 % sur les achats de crédits. Plus votre recharge est petite, plus cette part mord, alors estimez le coût effectif comme « prix du modèle + quelques pour cent ». Confirmez les dernières informations sur openrouter.ai/pricing.

Q. Vercel AI SDK ou LiteLLM — lequel utiliser ?

R. Ce sont des couches distinctes, donc elles ne se concurrencent pas. Le Vercel AI SDK est une abstraction dans le code (pour TS/JS) ; LiteLLM est un proxy à processus distinct (indépendant du langage, orienté gouvernance). Construisez vite une application TS avec le premier ; centralisez coût, clés et journaux à l'échelle de l'entreprise avec le second. Empiler les deux est courant.

Q. Ajouter une passerelle rend-il les choses plus lentes ?

R. Ajouter un relais ajoute un peu de latence. Mais là où la mise en cache entre en jeu, c'est souvent plus rapide au contraire. Si une latence ultra-faible est une exigence, placez un type auto-hébergé à proximité, appuyez-vous sur la mise en cache et gardez une issue d'appel direct pour les chemins critiques afin de contenir l'impact.

Q. Ai-je besoin d'une passerelle même si je n'utilise qu'un seul fournisseur ?

R. Ce n'est pas obligatoire. Mais il y a souvent de la valeur ne serait-ce que dans la visibilité des coûts, le contrôle d'accès via des clés virtuelles, la mise en cache et l'observabilité. Si vous pourriez ajouter des modèles ou l'utiliser à l'échelle d'une équipe plus tard, en glisser une tôt facilite la migration.

Qu'est-ce qu'une passerelle LLM (proxy) ? Une API pour tous les fournisseurs — Guide 2026