Contenido
- La respuesta en 30 segundos
- 1. Por qué necesitas un gateway de LLM
- 2. Qué es un gateway de LLM
- 3. Qué gestiona por ti
- 4. Tres tipos: autoalojado, alojado, SDK
- 5. Comparativa de las herramientas principales
- 6. Configuración mínima (código)
- 7. Cómo elegir
- 8. Advertencias y límites — no es gratis
- Resumen
- Preguntas frecuentes
Lo construiste sobre la API de OpenAI. Luego quieres probar también Claude y comparar con Gemini. Pero cada proveedor tiene un SDK, una forma de petición y un comportamiento de errores distintos. Cada cambio implica reescribir código, transformar respuestas y mantener una lógica de reintentos separada por proveedor: antes de darte cuenta, la "fontanería específica de cada proveedor" se ha filtrado por todos los rincones de tu aplicación. Y mientras estás atado a un único proveedor, en el momento en que esa empresa sufre una caída, sube precios o retira un modelo, tu aplicación se cae con ella.
Lo que se hace cargo de toda esa fontanería es un gateway de LLM (AI gateway), también llamado proxy de LLM. Es un relé que se sitúa entre tu aplicación y los proveedores, exponiendo una sola API (normalmente compatible con OpenAI) para alcanzar cualquier modelo, y encargándose de las tareas transversales: fallback, seguimiento de costes, caché, limitación de tasa. Esta guía cubre qué hace un gateway por ti, la diferencia entre los tipos autoalojado, alojado y SDK, cómo elegir entre LiteLLM, OpenRouter y el Vercel AI SDK, y los límites que necesitas conocer para no llevarte un disgusto.
La respuesta en 30 segundos
Si solo lees un recuadro
Nota: un gateway no es gratis. Te cuesta un salto de latencia, comisiones y algo de pérdida de funcionalidades (§8).
1. Por qué necesitas un gateway de LLM
Si solo llamas a un único proveedor a través de un único SDK, no necesitas un gateway. Lo necesitas en el momento en que quieres usar más de un modelo. Fíjate en los tres dolores clásicos.
Cada proveedor tiene SDKs, nombres de parámetros, estructuras de respuesta y códigos de error distintos. Cada cambio implica reescribir tu aplicación.
Depende por completo de una sola empresa y su caída o cambio de precio se convierte en tu tiempo de inactividad. Quieres una salida de emergencia (fallback).
El mejor modelo varía según la tarea. Quieres usar un modelo barato para borradores y uno inteligente para pulir, pero la fontanería se interpone.
Lo que comparten es una estructura donde las restricciones del SDK dictan una decisión esencialmente estratégica: qué modelo usar. Un gateway extrae esa fontanería de tu aplicación. Tu aplicación solo necesita conocer un endpoint; a quién llamar por detrás, a quién recurrir en caso de fallo y cuánto has gastado son tarea del gateway. Como construir un agente de IA o un framework de agentes casi siempre asume varios modelos, la demanda no hace más que crecer.
2. Qué es un gateway de LLM
Un gateway de LLM es un proxy que se sitúa entre tu aplicación y uno o varios proveedores de LLM. La mayoría expone una sola API con la forma del endpoint chat-completions de OpenAI y consolida en un solo lugar el trabajo transversal que, de otro modo, estaría disperso por tu código: enrutamiento, reintentos y fallback, caché, limitación de tasa, seguimiento de costes y control de acceso.
(compatible con OpenAI)
coste / caché / control
Google / local…
La clave es hacer que la ventana sea una sola. El código de tu aplicación simplemente pasa una cadena a model. Escribe anthropic/claude-opus-4.8 y obtienes Claude; escribe openai/gpt-5.5 y obtienes GPT: nada más en la aplicación cambia. Decisiones como "recurrir a otro modelo cuando este está caído" o "devolver esta misma pregunta desde caché" se resuelven todas del lado del gateway. Incorporar un LLM local para que "los datos sensibles se queden en local y todo lo demás vaya a la nube" se escribe de la misma manera.
3. Qué gestiona por ti
El trabajo transversal que asume un gateway se agrupa aproximadamente en estos seis bloques. Las herramientas difieren en aquello en lo que destacan, pero la dirección es compartida.
Llama a cualquier proveedor en un solo formato (normalmente compatible con OpenAI). Borrar las diferencias entre proveedores de la aplicación es la funcionalidad clave.
Cuando el modelo principal da error, se sobrecarga o excede el tiempo, cambia automáticamente a otro. El corazón de la continuidad del negocio.
Visualiza el gasto por usuario, equipo o proyecto. Reparte claves virtuales con alcance limitado que ocultan las reales.
Recuerda y devuelve al instante las peticiones idénticas o similares. Recorta tanto la factura de la API como la latencia.
Límites de tokens y peticiones por clave, además de balanceo de carga entre varias claves e instancias.
Mide logs, latencia y tasa de éxito en todas las peticiones. Algunas herramientas también te permiten insertar guardrails de entrada/salida.
💡 "Fallback" no equivale a "seguro". El modelo al que recurres tiene peculiaridades de salida, recuentos de tokens y funcionalidades soportadas distintos. El fallback no se vuelve seguro en el instante en que lo configuras: solo funciona una vez que lo has disparado de verdad y lo has probado. Verifica siempre de antemano que tu prompt no se rompe tras el cambio.
4. Tres tipos: autoalojado, alojado, SDK
"Gateway de LLM" se usa como una sola etiqueta, pero dónde se ejecuta lo divide en tres caracteres bastante distintos. Confunde esto y elegirás mal.
| Tipo | Dónde se ejecuta | Ejemplos | A quién le conviene |
|---|---|---|---|
| ① Proxy autoalojado | Tus servidores (proceso separado) | LiteLLM / Portkey (OSS) | Mantener los datos en casa y gobernados |
| ② Alojado (SaaS) | La nube del proveedor | OpenRouter / Cloudflare | Usarlo al instante, cero operaciones |
| ③ SDK / biblioteca | Dentro del código de tu app | Vercel AI SDK | Abstraer rápido en TS/JS |
① Autoalojado es un proceso independiente (un servidor proxy) que levantas en tu propia infraestructura. Como los prompts no pasan por un SaaS externo, es fuerte en gobernanza y auditoría, pero lo operas tú. ② Alojado hace que el proveedor ejecute el proxy, así que es lo más rápido de adoptar, pero las peticiones pasan por un tercero. ③ SDK no levanta ningún proceso separado; absorbe las diferencias entre proveedores dentro del código de tu aplicación: no es un relé de red sino una "capa de abstracción", y puede combinarse con ① o ②.
5. Comparativa de las herramientas principales
Aquí tienes las tres protagonistas en orden recomendado, más dos que conviene conocer. Las cifras se basan en las páginas oficiales de cada proveedor a fecha de julio de 2026 (las ofertas cambian, así que confirma siempre lo más reciente contra la fuente primaria).
LiteLLM — el proxy autoalojado estándar
LiteLLM (de BerriAI) es una biblioteca Python de código abierto y un gateway autoalojado. Te permite llamar a más de 100 proveedores y más de 2.500 modelos a través de una única API compatible con OpenAI (según el repositorio oficial). Levántalo como proxy y obtienes seguimiento de costes, claves virtuales, limitación de tasa, fallback, balanceo de carga, caché con Redis y observabilidad (integraciones con Langfuse/Prometheus/Datadog). Es la primera opción para organizaciones que quieren mantener los prompts en casa.
OpenRouter — multiproveedor con una sola clave, al instante
OpenRouter es un gateway alojado sin operaciones. Con una única API compatible con OpenAI y una sola clave de API, da acceso a más de 400 modelos según el sitio oficial. Su diseño de precios destaca: el sitio oficial afirma que "no aplicamos margen sobre los tokens de inferencia (los precios del catálogo son iguales a los precios publicados de cada proveedor)", mientras cobra una comisión de plataforma del 5,5 % sobre las compras de crédito (según openrouter.ai/pricing). Es abrumadoramente rápido para "solo ponerlo en marcha" y "probar cada proveedor con una sola clave".
Vercel AI SDK — abstraer desde el código en TypeScript
Vercel AI SDK (simplemente "AI SDK" en 2026) es un kit de herramientas TypeScript de código abierto. En lugar de un proceso proxy separado, es una capa de abstracción que absorbe las diferencias entre proveedores dentro del código de tu aplicación. Lo que la documentación llama el "núcleo arquitectónico" es la abstracción de proveedores: cambiar de OpenAI a Anthropic significa cambiar un import y una cadena de modelo, mientras tu código de generación, streaming y llamada a herramientas permanece totalmente intacto. Combínalo con el Vercel AI Gateway alojado y alcanzas más de 100 modelos. Para los detalles de implementación y el código, consulta nuestra guía completa del Vercel AI SDK.
Dos más que conviene conocer
Una opción gestionada, ejecutada en el edge. Basta con enrutar por ella tus llamadas de proveedor existentes y obtienes caché, limitación de tasa, analíticas, logging y fallback con un cambio mínimo de código (según la documentación). Un gran encaje si ya operas sobre Cloudflare.
Un plano de control que añade gobernanza, guardrails y gestión de prompts de nivel producción a un gateway. El sitio oficial dice que conecta más de 1.600 LLMs a través de una sola API. La versión OSS también puede autoalojarse.
| Herramienta | Tipo | Ventana | Enfoque | Idea de precios |
|---|---|---|---|---|
| LiteLLM | ① autoalojado | API compatible con OpenAI | Gobernanza, claves virtuales, observabilidad | OSS gratis + tu coste de operación |
| OpenRouter | ② alojado | API compatible con OpenAI | Al instante, más de 400 modelos con una clave | Sin margen de inferencia; 5,5 % sobre compras |
| Vercel AI SDK | ③ SDK | Funciones en TS | Cambiar desde el código, con tipado seguro | SDK gratis + facturación de cada proveedor |
| Cloudflare AI Gateway | ② alojado (edge) | Paso a través (pass-through) | Caché, observabilidad | Precios de Cloudflare |
| Portkey | ① / ② ambos | API unificada | Gobernanza, guardrails | Planes OSS + SaaS |
6. Configuración mínima (código)
Parece intimidante, pero el meollo del cambio está en un único lugar: cambiar el endpoint (o la cadena de modelo). Aquí tienes el ejemplo mínimo para cada uno de los tres tipos.
② Alojado: OpenRouter (solo cambia el endpoint)
Conserva tu SDK de OpenAI habitual; cambia únicamente base_url y la clave para alcanzar más de 400 modelos.
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1", # este es el único cambio
api_key="sk-or-...", # tu clave de OpenRouter
)
resp = client.chat.completions.create(
model="anthropic/claude-opus-4.8", # cámbialo a "openai/gpt-5.5" y ya has hecho el cambio
messages=[{"role": "user", "content": "Hola"}],
)
print(resp.choices[0].message.content)
① Autoalojado: LiteLLM (levanta tu propio proxy)
Enumera tus modelos en un archivo de configuración y un solo comando levanta un gateway compatible con OpenAI en localhost:4000. Tu aplicación solo apunta ahí.
# config.yaml
model_list:
- model_name: claude
litellm_params:
model: anthropic/claude-opus-4-8
api_key: os.environ/ANTHROPIC_API_KEY
- model_name: gpt
litellm_params:
model: openai/gpt-5.5
api_key: os.environ/OPENAI_API_KEY
# iniciar (sirve una API compatible con OpenAI en http://localhost:4000)
litellm --config config.yaml
③ SDK: Vercel AI SDK (cambia la cadena de modelo en el código)
Conserva el import y la función; cambia solo la cadena de model para hacer el cambio.
import { generateText } from 'ai';
const { text } = await generateText({
model: 'anthropic/claude-opus-4.8', // cámbialo a 'openai/gpt-5.5'
prompt: 'Hola',
});
console.log(text);
En todos los casos no has tocado ni una sola línea de la lógica de la aplicación. Ese es el efecto de un gateway/abstracción. El fallback y la caché se añaden por encima de esto mediante configuración (la documentación de cada proveedor es la vía más rápida para la sintaxis exacta).
7. Cómo elegir
Elige no por "cuál es el mejor" sino por cuál encaja con tus restricciones. Aplícalas en este orden y rara vez te quedarás atascado.
Solo ponerlo en marcha / en solitario, PoC, equipo pequeño → OpenRouter. Una clave, cero operaciones, prueba los modelos de cada proveedor. Trata la comisión del 5,5 % como el precio de no operarlo tú mismo.
Desarrollando en TypeScript / Next.js → Vercel AI SDK. Abstracción con tipado seguro desde el código, más un kit completo de UI de streaming. Para la implementación, ve a la guía completa.
No quieres que los datos salgan / necesitas gobernanza a nivel de organización → autoaloja LiteLLM (o Portkey OSS). Reparte claves virtuales a los equipos y mantén el coste y los logs en un solo lugar.
Ya construido sobre Cloudflare → Cloudflare AI Gateway: enruta por él tus llamadas existentes y añade caché y observabilidad.
Las combinaciones son normales en la práctica. Por ejemplo, "escribe la aplicación con el Vercel AI SDK, pero apunta su puerta trasera a un proxy LiteLLM para centralizar el coste y las claves de toda la empresa" es una configuración de dos niveles que funciona precisamente porque los tipos SDK y proxy son capas separadas. Como seguro contra el riesgo de dependencia, encajar un LLM local como uno de los destinos de fallback también se está volviendo estándar.
8. Advertencias y límites — no es gratis
Un gateway es cómodo, pero como añade una capa, siempre tiene un coste. Ten en cuenta estos cuatro puntos antes de adoptar uno.
Con un relé de por medio, la latencia sube ligeramente. Los tipos alojados notan especialmente la distancia geográfica. La caché a menudo lo compensa, pero para usos de latencia ultrabaja, mide.
Te vuelves resistente a las caídas de proveedor, pero si el propio gateway se cae, todo se cae. Incorpora redundancia, health checks y una ruta de escape de llamada directa.
Los tipos alojados añaden una comisión (OpenRouter es el 5,5 % de las compras); el autoalojado añade coste de operación de servidor. El punto de equilibrio se desplaza con la escala.
Converger en el denominador común compatible con OpenAI significa que las funcionalidades exclusivas de cada proveedor (razonamiento extendido, formatos especiales de herramientas) pueden no pasar o llegar tarde.
Una cosa más que a menudo se pasa por alto: la privacidad. Enrutar a través de un gateway alojado significa que tus prompts y respuestas pasan por la infraestructura de un tercero. Si manejas datos sensibles, revisa la política de tratamiento de datos del intermediario o, de entrada, mantén los prompts en casa con un tipo autoalojado (como LiteLLM). Para producción en una organización, trata las propias claves y logs del gateway como sujetos de mínimo privilegio y aislamiento también: ese es el lado seguro.
Resumen
- Un gateway de LLM es un relé entre tu aplicación y los proveedores. Te permite alcanzar cualquier modelo a través de una sola API.
- Asume seis tareas: API unificada, fallback, seguimiento de costes, caché, limitación de tasa, observabilidad.
- Hay tres tipos: ① autoalojado (LiteLLM) / ② alojado (OpenRouter) / ③ SDK (Vercel AI SDK). Elige por restricción.
- Cómo elegir: al instante = OpenRouter / construir en TS = Vercel AI SDK / gobernanza = LiteLLM. Las combinaciones son normales.
- No olvides los costes: un salto de latencia, el propio punto de fallo del gateway, comisiones, pérdida de funcionalidades, privacidad.
- El fallback no funciona solo porque esté configurado: dispáralo de verdad y verifica que tu prompt no se rompe.
Si trabajas con varios modelos, un gateway se está convirtiendo no en un "estaría bien tenerlo" sino en equipamiento básico para reunir la fontanería en un solo lugar. Empieza por cambiar base_url con OpenRouter o cambiar una cadena de modelo con el Vercel AI SDK: ese pequeño paso disuelve la dependencia de un único proveedor y hace que tanto la comparación como el fallback se vuelvan de repente realistas. Para especificaciones exactas y actuales, confirma la fuente primaria de cada proveedor (LiteLLM / OpenRouter / AI SDK).
Preguntas frecuentes
P. ¿Un gateway de LLM y un proxy de LLM son cosas distintas?
R. Se usan casi de forma intercambiable. Ambos se refieren a un relé situado entre tu aplicación y los proveedores. Si acaso, "proxy" se inclina hacia el mecanismo (retransmitir el tráfico), mientras que "gateway" se inclina hacia el rol (incluyendo la gestión de costes y la gobernanza).
P. Si OpenRouter no aplica margen, ¿por qué puede acabar saliendo más caro?
R. La tarifa de inferencia por token es el precio publicado de cada proveedor (sin margen), pero según el sitio oficial hay una comisión de plataforma del 5,5 % sobre las compras de crédito. Cuanto más pequeña sea tu recarga, más muerde esa parte, así que estima el coste efectivo como "precio del modelo + un pequeño porcentaje". Confirma lo más reciente en openrouter.ai/pricing.
P. Vercel AI SDK o LiteLLM, ¿cuál debería usar?
R. Son capas separadas, así que no compiten. El Vercel AI SDK es abstracción en el código (para TS/JS); LiteLLM es un proxy de proceso separado (agnóstico al lenguaje, orientado a la gobernanza). Construye una app en TS rápido con el primero; mantén el coste, las claves y los logs de toda la empresa en un solo lugar con el segundo. Apilar ambos es habitual.
P. ¿Añadir un gateway hace las cosas más lentas?
R. Añadir un relé sí añade algo de latencia. Pero donde entra la caché, a menudo es más rápido en su lugar. Si la latencia ultrabaja es un requisito, coloca un tipo autoalojado cerca, apóyate en la caché y mantén un escape de llamada directa para las rutas críticas, para contener el impacto.
P. ¿Necesito un gateway aunque use un solo proveedor?
R. No es obligatorio. Pero a menudo hay valor incluso solo con la visibilidad del coste, el control de acceso mediante claves virtuales, la caché y la observabilidad. Si más adelante podrías añadir modelos o usarlo en un equipo, encajar uno pronto facilita la migración.