Gateway de LLM: una API para cada proveedor

Q: ¿Un gateway de LLM y un proxy de LLM son cosas distintas?

Se usan casi de forma intercambiable. Ambos se refieren a un relé situado entre tu aplicación y los proveedores. Si acaso, "proxy" se inclina hacia el mecanismo (retransmitir el tráfico), mientras que "gateway" se inclina hacia el rol (incluyendo la gestión de costes y la gobernanza).

Q: Vercel AI SDK o LiteLLM, ¿cuál debería usar?

Son capas separadas, así que no compiten. El Vercel AI SDK es abstracción en el código (para TS/JS); LiteLLM es un proxy de proceso separado (agnóstico al lenguaje, orientado a la gobernanza). Construye una app en TS rápido con el primero; mantén el coste, las claves y los logs de toda la empresa en un solo lugar con el segundo. Apilar ambos es habitual.

Q: ¿Añadir un gateway hace las cosas más lentas?

Añadir un relé sí añade algo de latencia. Pero donde entra la caché, a menudo es más rápido en su lugar. Si la latencia ultrabaja es un requisito, coloca un tipo autoalojado cerca, apóyate en la caché y mantén un escape de llamada directa para las rutas críticas, para contener el impacto.

¿Qué es un gateway de LLM (proxy)? Una API para cada proveedor — Guía 2026

Contenido

La respuesta en 30 segundos
1. Por qué necesitas un gateway de LLM
2. Qué es un gateway de LLM
3. Qué gestiona por ti
4. Tres tipos: autoalojado, alojado, SDK
5. Comparativa de las herramientas principales
6. Configuración mínima (código)
7. Cómo elegir
8. Advertencias y límites — no es gratis
Resumen
Preguntas frecuentes

Lo construiste sobre la API de OpenAI. Luego quieres probar también Claude y comparar con Gemini. Pero cada proveedor tiene un SDK, una forma de petición y un comportamiento de errores distintos. Cada cambio implica reescribir código, transformar respuestas y mantener una lógica de reintentos separada por proveedor: antes de darte cuenta, la "fontanería específica de cada proveedor" se ha filtrado por todos los rincones de tu aplicación. Y mientras estás atado a un único proveedor, en el momento en que esa empresa sufre una caída, sube precios o retira un modelo, tu aplicación se cae con ella.

Lo que se hace cargo de toda esa fontanería es un gateway de LLM (AI gateway), también llamado proxy de LLM. Es un relé que se sitúa entre tu aplicación y los proveedores, exponiendo una sola API (normalmente compatible con OpenAI) para alcanzar cualquier modelo, y encargándose de las tareas transversales: fallback, seguimiento de costes, caché, limitación de tasa. Esta guía cubre qué hace un gateway por ti, la diferencia entre los tipos autoalojado, alojado y SDK, cómo elegir entre LiteLLM, OpenRouter y el Vercel AI SDK, y los límites que necesitas conocer para no llevarte un disgusto.

La respuesta en 30 segundos

Si solo lees un recuadro

Qué es

Un relé entre tu aplicación y los proveedores. Alcanza cualquier modelo a través de una sola API.

Por qué ayuda

Cambia, compara y haz fallback con libertad. Gestiona el coste y los límites de tasa en un solo lugar.

Cuál elegir primero

Autoalojado = LiteLLM / alojado al instante = OpenRouter / app en TS = Vercel AI SDK.

Nota: un gateway no es gratis. Te cuesta un salto de latencia, comisiones y algo de pérdida de funcionalidades (§8).

1. Por qué necesitas un gateway de LLM

Si solo llamas a un único proveedor a través de un único SDK, no necesitas un gateway. Lo necesitas en el momento en que quieres usar más de un modelo. Fíjate en los tres dolores clásicos.

🔗 Dependencia del proveedor y código disperso

Cada proveedor tiene SDKs, nombres de parámetros, estructuras de respuesta y códigos de error distintos. Cada cambio implica reescribir tu aplicación.

⚡ Caídas, subidas de precio, cierres

Depende por completo de una sola empresa y su caída o cambio de precio se convierte en tu tiempo de inactividad. Quieres una salida de emergencia (fallback).

🔀 Comparar, cambiar, combinar

El mejor modelo varía según la tarea. Quieres usar un modelo barato para borradores y uno inteligente para pulir, pero la fontanería se interpone.

Lo que comparten es una estructura donde las restricciones del SDK dictan una decisión esencialmente estratégica: qué modelo usar. Un gateway extrae esa fontanería de tu aplicación. Tu aplicación solo necesita conocer un endpoint; a quién llamar por detrás, a quién recurrir en caso de fallo y cuánto has gastado son tarea del gateway. Como construir un agente de IA o un framework de agentes casi siempre asume varios modelos, la demanda no hace más que crecer.

2. Qué es un gateway de LLM

Un gateway de LLM es un proxy que se sitúa entre tu aplicación y uno o varios proveedores de LLM. La mayoría expone una sola API con la forma del endpoint chat-completions de OpenAI y consolida en un solo lugar el trabajo transversal que, de otro modo, estaría disperso por tu código: enrutamiento, reintentos y fallback, caché, limitación de tasa, seguimiento de costes y control de acceso.

Tu aplicación

conoce una sola API
(compatible con OpenAI)

→

Gateway de LLM

enrutamiento / fallback
coste / caché / control

→

Los proveedores

OpenAI / Anthropic
Google / local…

Tu aplicación ve una sola ventana: el gateway. A quién llama cambia entre bastidores.

La clave es hacer que la ventana sea una sola. El código de tu aplicación simplemente pasa una cadena a model. Escribe anthropic/claude-opus-4.8 y obtienes Claude; escribe openai/gpt-5.5 y obtienes GPT: nada más en la aplicación cambia. Decisiones como "recurrir a otro modelo cuando este está caído" o "devolver esta misma pregunta desde caché" se resuelven todas del lado del gateway. Incorporar un LLM local para que "los datos sensibles se queden en local y todo lo demás vaya a la nube" se escribe de la misma manera.

3. Qué gestiona por ti

El trabajo transversal que asume un gateway se agrupa aproximadamente en estos seis bloques. Las herramientas difieren en aquello en lo que destacan, pero la dirección es compartida.

🔌 API unificada

Llama a cualquier proveedor en un solo formato (normalmente compatible con OpenAI). Borrar las diferencias entre proveedores de la aplicación es la funcionalidad clave.

🔁 Fallback y reintentos

Cuando el modelo principal da error, se sobrecarga o excede el tiempo, cambia automáticamente a otro. El corazón de la continuidad del negocio.

💰 Seguimiento de costes y claves virtuales

Visualiza el gasto por usuario, equipo o proyecto. Reparte claves virtuales con alcance limitado que ocultan las reales.

⚡ Caché

Recuerda y devuelve al instante las peticiones idénticas o similares. Recorta tanto la factura de la API como la latencia.

🚦 Limitación de tasa y balanceo de carga

Límites de tokens y peticiones por clave, además de balanceo de carga entre varias claves e instancias.

📊 Observabilidad y guardrails

Mide logs, latencia y tasa de éxito en todas las peticiones. Algunas herramientas también te permiten insertar guardrails de entrada/salida.

💡 "Fallback" no equivale a "seguro". El modelo al que recurres tiene peculiaridades de salida, recuentos de tokens y funcionalidades soportadas distintos. El fallback no se vuelve seguro en el instante en que lo configuras: solo funciona una vez que lo has disparado de verdad y lo has probado. Verifica siempre de antemano que tu prompt no se rompe tras el cambio.

4. Tres tipos: autoalojado, alojado, SDK

"Gateway de LLM" se usa como una sola etiqueta, pero dónde se ejecuta lo divide en tres caracteres bastante distintos. Confunde esto y elegirás mal.

Tipo	Dónde se ejecuta	Ejemplos	A quién le conviene
① Proxy autoalojado	Tus servidores (proceso separado)	LiteLLM / Portkey (OSS)	Mantener los datos en casa y gobernados
② Alojado (SaaS)	La nube del proveedor	OpenRouter / Cloudflare	Usarlo al instante, cero operaciones
③ SDK / biblioteca	Dentro del código de tu app	Vercel AI SDK	Abstraer rápido en TS/JS

① Autoalojado es un proceso independiente (un servidor proxy) que levantas en tu propia infraestructura. Como los prompts no pasan por un SaaS externo, es fuerte en gobernanza y auditoría, pero lo operas tú. ② Alojado hace que el proveedor ejecute el proxy, así que es lo más rápido de adoptar, pero las peticiones pasan por un tercero. ③ SDK no levanta ningún proceso separado; absorbe las diferencias entre proveedores dentro del código de tu aplicación: no es un relé de red sino una "capa de abstracción", y puede combinarse con ① o ②.

5. Comparativa de las herramientas principales

Aquí tienes las tres protagonistas en orden recomendado, más dos que conviene conocer. Las cifras se basan en las páginas oficiales de cada proveedor a fecha de julio de 2026 (las ofertas cambian, así que confirma siempre lo más reciente contra la fuente primaria).

LiteLLM — el proxy autoalojado estándar

LiteLLM (de BerriAI) es una biblioteca Python de código abierto y un gateway autoalojado. Te permite llamar a más de 100 proveedores y más de 2.500 modelos a través de una única API compatible con OpenAI (según el repositorio oficial). Levántalo como proxy y obtienes seguimiento de costes, claves virtuales, limitación de tasa, fallback, balanceo de carga, caché con Redis y observabilidad (integraciones con Langfuse/Prometheus/Datadog). Es la primera opción para organizaciones que quieren mantener los prompts en casa.

OpenRouter — multiproveedor con una sola clave, al instante

OpenRouter es un gateway alojado sin operaciones. Con una única API compatible con OpenAI y una sola clave de API, da acceso a más de 400 modelos según el sitio oficial. Su diseño de precios destaca: el sitio oficial afirma que "no aplicamos margen sobre los tokens de inferencia (los precios del catálogo son iguales a los precios publicados de cada proveedor)", mientras cobra una comisión de plataforma del 5,5 % sobre las compras de crédito (según openrouter.ai/pricing). Es abrumadoramente rápido para "solo ponerlo en marcha" y "probar cada proveedor con una sola clave".

Vercel AI SDK — abstraer desde el código en TypeScript

Vercel AI SDK (simplemente "AI SDK" en 2026) es un kit de herramientas TypeScript de código abierto. En lugar de un proceso proxy separado, es una capa de abstracción que absorbe las diferencias entre proveedores dentro del código de tu aplicación. Lo que la documentación llama el "núcleo arquitectónico" es la abstracción de proveedores: cambiar de OpenAI a Anthropic significa cambiar un import y una cadena de modelo, mientras tu código de generación, streaming y llamada a herramientas permanece totalmente intacto. Combínalo con el Vercel AI Gateway alojado y alcanzas más de 100 modelos. Para los detalles de implementación y el código, consulta nuestra guía completa del Vercel AI SDK.

Dos más que conviene conocer

☁️ Cloudflare AI Gateway

Una opción gestionada, ejecutada en el edge. Basta con enrutar por ella tus llamadas de proveedor existentes y obtienes caché, limitación de tasa, analíticas, logging y fallback con un cambio mínimo de código (según la documentación). Un gran encaje si ya operas sobre Cloudflare.

🛡️ Portkey

Un plano de control que añade gobernanza, guardrails y gestión de prompts de nivel producción a un gateway. El sitio oficial dice que conecta más de 1.600 LLMs a través de una sola API. La versión OSS también puede autoalojarse.

Herramienta	Tipo	Ventana	Enfoque	Idea de precios
LiteLLM	① autoalojado	API compatible con OpenAI	Gobernanza, claves virtuales, observabilidad	OSS gratis + tu coste de operación
OpenRouter	② alojado	API compatible con OpenAI	Al instante, más de 400 modelos con una clave	Sin margen de inferencia; 5,5 % sobre compras
Vercel AI SDK	③ SDK	Funciones en TS	Cambiar desde el código, con tipado seguro	SDK gratis + facturación de cada proveedor
Cloudflare AI Gateway	② alojado (edge)	Paso a través (pass-through)	Caché, observabilidad	Precios de Cloudflare
Portkey	① / ② ambos	API unificada	Gobernanza, guardrails	Planes OSS + SaaS

Cifras y precios según las páginas oficiales de cada proveedor a fecha de julio de 2026. Cambian: reconfirma la fuente primaria al adoptarlo.

6. Configuración mínima (código)

Parece intimidante, pero el meollo del cambio está en un único lugar: cambiar el endpoint (o la cadena de modelo). Aquí tienes el ejemplo mínimo para cada uno de los tres tipos.

② Alojado: OpenRouter (solo cambia el endpoint)

Conserva tu SDK de OpenAI habitual; cambia únicamente base_url y la clave para alcanzar más de 400 modelos.

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",  # este es el único cambio
    api_key="sk-or-...",                       # tu clave de OpenRouter
)

resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.8",  # cámbialo a "openai/gpt-5.5" y ya has hecho el cambio
    messages=[{"role": "user", "content": "Hola"}],
)
print(resp.choices[0].message.content)

① Autoalojado: LiteLLM (levanta tu propio proxy)

Enumera tus modelos en un archivo de configuración y un solo comando levanta un gateway compatible con OpenAI en localhost:4000. Tu aplicación solo apunta ahí.

# config.yaml
model_list:
  - model_name: claude
    litellm_params:
      model: anthropic/claude-opus-4-8
      api_key: os.environ/ANTHROPIC_API_KEY
  - model_name: gpt
    litellm_params:
      model: openai/gpt-5.5
      api_key: os.environ/OPENAI_API_KEY

# iniciar (sirve una API compatible con OpenAI en http://localhost:4000)
litellm --config config.yaml

③ SDK: Vercel AI SDK (cambia la cadena de modelo en el código)

Conserva el import y la función; cambia solo la cadena de model para hacer el cambio.

import { generateText } from 'ai';

const { text } = await generateText({
  model: 'anthropic/claude-opus-4.8',  // cámbialo a 'openai/gpt-5.5'
  prompt: 'Hola',
});
console.log(text);

En todos los casos no has tocado ni una sola línea de la lógica de la aplicación. Ese es el efecto de un gateway/abstracción. El fallback y la caché se añaden por encima de esto mediante configuración (la documentación de cada proveedor es la vía más rápida para la sintaxis exacta).

7. Cómo elegir

Elige no por "cuál es el mejor" sino por cuál encaja con tus restricciones. Aplícalas en este orden y rara vez te quedarás atascado.

Solo ponerlo en marcha / en solitario, PoC, equipo pequeño → OpenRouter. Una clave, cero operaciones, prueba los modelos de cada proveedor. Trata la comisión del 5,5 % como el precio de no operarlo tú mismo.

Desarrollando en TypeScript / Next.js → Vercel AI SDK. Abstracción con tipado seguro desde el código, más un kit completo de UI de streaming. Para la implementación, ve a la guía completa.

No quieres que los datos salgan / necesitas gobernanza a nivel de organización → autoaloja LiteLLM (o Portkey OSS). Reparte claves virtuales a los equipos y mantén el coste y los logs en un solo lugar.

Ya construido sobre Cloudflare → Cloudflare AI Gateway: enruta por él tus llamadas existentes y añade caché y observabilidad.

Las combinaciones son normales en la práctica. Por ejemplo, "escribe la aplicación con el Vercel AI SDK, pero apunta su puerta trasera a un proxy LiteLLM para centralizar el coste y las claves de toda la empresa" es una configuración de dos niveles que funciona precisamente porque los tipos SDK y proxy son capas separadas. Como seguro contra el riesgo de dependencia, encajar un LLM local como uno de los destinos de fallback también se está volviendo estándar.

8. Advertencias y límites — no es gratis

Un gateway es cómodo, pero como añade una capa, siempre tiene un coste. Ten en cuenta estos cuatro puntos antes de adoptar uno.

⏱️ Un salto de latencia

Con un relé de por medio, la latencia sube ligeramente. Los tipos alojados notan especialmente la distancia geográfica. La caché a menudo lo compensa, pero para usos de latencia ultrabaja, mide.

🎯 Un nuevo punto único de fallo

Te vuelves resistente a las caídas de proveedor, pero si el propio gateway se cae, todo se cae. Incorpora redundancia, health checks y una ruta de escape de llamada directa.

💸 Comisiones y coste de operación

Los tipos alojados añaden una comisión (OpenRouter es el 5,5 % de las compras); el autoalojado añade coste de operación de servidor. El punto de equilibrio se desplaza con la escala.

🧩 Pérdida de funcionalidades

Converger en el denominador común compatible con OpenAI significa que las funcionalidades exclusivas de cada proveedor (razonamiento extendido, formatos especiales de herramientas) pueden no pasar o llegar tarde.

Una cosa más que a menudo se pasa por alto: la privacidad. Enrutar a través de un gateway alojado significa que tus prompts y respuestas pasan por la infraestructura de un tercero. Si manejas datos sensibles, revisa la política de tratamiento de datos del intermediario o, de entrada, mantén los prompts en casa con un tipo autoalojado (como LiteLLM). Para producción en una organización, trata las propias claves y logs del gateway como sujetos de mínimo privilegio y aislamiento también: ese es el lado seguro.

Resumen

Un gateway de LLM es un relé entre tu aplicación y los proveedores. Te permite alcanzar cualquier modelo a través de una sola API.
Asume seis tareas: API unificada, fallback, seguimiento de costes, caché, limitación de tasa, observabilidad.
Hay tres tipos: ① autoalojado (LiteLLM) / ② alojado (OpenRouter) / ③ SDK (Vercel AI SDK). Elige por restricción.
Cómo elegir: al instante = OpenRouter / construir en TS = Vercel AI SDK / gobernanza = LiteLLM. Las combinaciones son normales.
No olvides los costes: un salto de latencia, el propio punto de fallo del gateway, comisiones, pérdida de funcionalidades, privacidad.
El fallback no funciona solo porque esté configurado: dispáralo de verdad y verifica que tu prompt no se rompe.

Si trabajas con varios modelos, un gateway se está convirtiendo no en un "estaría bien tenerlo" sino en equipamiento básico para reunir la fontanería en un solo lugar. Empieza por cambiar base_url con OpenRouter o cambiar una cadena de modelo con el Vercel AI SDK: ese pequeño paso disuelve la dependencia de un único proveedor y hace que tanto la comparación como el fallback se vuelvan de repente realistas. Para especificaciones exactas y actuales, confirma la fuente primaria de cada proveedor (LiteLLM / OpenRouter / AI SDK).

Preguntas frecuentes

P. ¿Un gateway de LLM y un proxy de LLM son cosas distintas?

R. Se usan casi de forma intercambiable. Ambos se refieren a un relé situado entre tu aplicación y los proveedores. Si acaso, "proxy" se inclina hacia el mecanismo (retransmitir el tráfico), mientras que "gateway" se inclina hacia el rol (incluyendo la gestión de costes y la gobernanza).

P. Si OpenRouter no aplica margen, ¿por qué puede acabar saliendo más caro?

R. La tarifa de inferencia por token es el precio publicado de cada proveedor (sin margen), pero según el sitio oficial hay una comisión de plataforma del 5,5 % sobre las compras de crédito. Cuanto más pequeña sea tu recarga, más muerde esa parte, así que estima el coste efectivo como "precio del modelo + un pequeño porcentaje". Confirma lo más reciente en openrouter.ai/pricing.

P. Vercel AI SDK o LiteLLM, ¿cuál debería usar?

R. Son capas separadas, así que no compiten. El Vercel AI SDK es abstracción en el código (para TS/JS); LiteLLM es un proxy de proceso separado (agnóstico al lenguaje, orientado a la gobernanza). Construye una app en TS rápido con el primero; mantén el coste, las claves y los logs de toda la empresa en un solo lugar con el segundo. Apilar ambos es habitual.

P. ¿Añadir un gateway hace las cosas más lentas?

R. Añadir un relé sí añade algo de latencia. Pero donde entra la caché, a menudo es más rápido en su lugar. Si la latencia ultrabaja es un requisito, coloca un tipo autoalojado cerca, apóyate en la caché y mantén un escape de llamada directa para las rutas críticas, para contener el impacto.

P. ¿Necesito un gateway aunque use un solo proveedor?

R. No es obligatorio. Pero a menudo hay valor incluso solo con la visibilidad del coste, el control de acceso mediante claves virtuales, la caché y la observabilidad. Si más adelante podrías añadir modelos o usarlo en un equipo, encajar uno pronto facilita la migración.

¿Qué es un gateway de LLM (proxy)? Una API para cada proveedor — Guía 2026