Manual de ahorro de tokens IA: prompt caching, modelo y salida

Q: ¿Necesito una configuración especial para usar prompt caching?

En la API hay que marcar explícitamente bloques cache_control. No funciona por defecto. Herramientas integradas como Claude Code / Cursor a menudo lo usan internamente de forma automática, pero si llamas tú a la API, debes declararlo. Consulta los documentos oficiales de Anthropic para más detalle.

Q: ChatGPT vs. Claude — ¿cuál es más eficiente en coste?

Depende del caso de uso. Para tareas autónomas largas y codificación compleja, Claude (sobre todo con caché) suele salir más barato. Para preguntas y respuestas cortas y automatización de terminal, GPT-5.5 mini es muy barato (0,60 $ de entrada). «Suscríbete a ambos y elige la herramienta adecuada» también es práctico.

Q: ¿Cómo decido si «con Haiku me basta»?

Haz un experimento en tres pasos. (1) Que funcione con Opus. (2) Envía el mismo prompt a Sonnet y compara la calidad. (3) Si Sonnet parece comparable, prueba también Haiku. Para muchas tareas rutinarias, Haiku y Opus se diferencian en algo que no notarás. Reserva Opus para casos que de verdad requieran juicio o razonamiento profundo.

Q: ¿Los usuarios particulares deberían atacar la API directamente?

Depende. Para 2 horas o más al día de codificación interactiva, el plan Max (100 $/200 $) es abrumadoramente más cómodo. Para integrar IA en tu propia app, procesamiento por lotes o automatización, la API directa es esencial. Mucha gente hace las dos cosas.

Q: ¿Qué umbral debería poner para las alertas de facturación?

Para un desarrollador particular, un montaje realista es 1,5× tu gasto mensual habitual para la primera alerta y 3× como parada automática. Ejemplo: si sueles gastar 30 $/mes, alerta a 50 $ y para a 100 $. Al principio, lanza alertas más finas como 5 $/día para construir intuición y luego afloja.

Q: Nos han dicho «el presupuesto de IA de la empresa se ha disparado». ¿Por dónde empezamos?

Tres cosas en orden. (1) Mira el uso por usuario y comprueba qué porcentaje del total consume el 5 % superior (a menudo el 50 % o más). (2) Entrevista a los heavy users sobre su flujo de trabajo e identifica patrones de despilfarro. (3) Distribuye una guía interna sobre «caché, enrutamiento de modelo y presupuesto de salida» a toda la empresa y reporta mensualmente el progreso. Si hablas con tu representante Enterprise de Anthropic / OpenAI, también puedes conseguir una revisión de optimización gratuita.

Cómo ahorrar en gasto y tokens de herramientas de IA: tres palancas que comprimen el coste sin optimizar al 20-30 %

Contenidos

1. Por qué tu factura de IA se infla en silencio
2. Desglose del coste — entrada, salida, caché y herramientas
3. Elección de plan y su impacto en el ahorro
4. Prompt caching — la palanca individual más potente
5. Gestión del contexto — /compact y división
6. Selección de modelo — enrutamiento por tarea
7. Gestionar tu presupuesto de salida
8. La trampa multiagente — 15× tokens
9. Monitorización y alertas de facturación
10. Siete patrones de despilfarro habituales
Resumen
FAQ

«Estaba con ChatGPT Plus, me pasé a Claude Code y mi factura mensual se multiplicó por 10.» — al entrar en 2026, este tipo de queja se ha disparado entre los desarrolladores. Las herramientas de IA son útiles, pero si no sabes usarlas, decenas de miles de dólares al mes pueden esfumarse en silencio.

La buena noticia: combinando tres palancas (prompt caching, enrutamiento de modelo y presupuesto de salida) puedes hacer el mismo trabajo por el 20-30 % del coste sin optimizar. Apoyándose en la guía oficial de Anthropic, en investigaciones del sector y en datos operativos reales, este artículo expone cómo ahorrar legalmente en gasto de herramientas de IA.

3 PALANCAS · 2026

Comprime al 20-30 % del coste sin optimizar

— caso realista: de 30 000 $/mes a 6 000-9 000 $

PALANCA 1 CACHÉ

-60 a 90 %

El prompt caching recorta el coste de entrada. Impacto máximo en cargas de producción que reutilizan el mismo system prompt.

PALANCA 2 ELECCIÓN DE MODELO

-50 a 80 %

Enruta Opus / Sonnet / Haiku según la tarea. Ocho de cada diez trabajos van bien con un modelo más barato.

PALANCA 3 PRESUPUESTO DE SALIDA

-30 a 60 %

Acota con max_tokens y pide «responde brevemente». Los tokens de salida cuestan 5-6× más que los de entrada.

Las tres palancas se multiplican al aplicarlas juntas.
«Solo caché» o «solo elección de modelo» deja dinero sobre la mesa — atacar con las tres a la vez es la tesis central de este artículo.

1. Por qué tu factura de IA se infla en silencio

Las herramientas de IA tienen dos modelos de facturación: planes personales (tarifa plana) y facturación por API (basada en uso). La factura que se dispara es, sobre todo, la segunda.

Planes personales: ChatGPT Plus 20 $/mes, Claude Pro 20 $/mes, Max 100-200 $/mes. Coste fijo, así que incluso un uso intensivo tiene un techo (con límites de uso).
Facturación por API: por token, basada en uso. Cursor / Claude Code / tus propias apps con IA, Lovable / Bolt.new y similares entran aquí. Si los usas sin cuidado, tu factura mensual sube un orden de magnitud.

La razón por la que ocurren cosas como «de repente 300 $» o «50 $ quemados en un solo día»: (1) los tokens de salida cuestan 5-6× más que los de entrada, (2) cuanto más crece el contexto, más se reenvía completo en cada turno, (3) los subagentes se invocan varias veces entre bambalinas, (4) cuando entra en bucle, no se detiene — y todo se acumula. Una vez entiendes la mecánica, todo eso tiene solución.

2. Desglose del coste — entrada, salida, caché y herramientas

Tomando como ejemplo los precios de la API de Claude Opus 4.7 (a mayo de 2026), aquí va a parar el dinero.

Concepto	Precio unitario	Descripción
Tokens de entrada	$5 / 1M tokens	Lo que envías: prompt + historial de conversación + ficheros, etc.
Tokens de salida	$25 / 1M tokens	Lo que devuelve la IA. 5× más caros que la entrada.
Escritura en caché	$6.25 / 1M tokens (1,25×)	Almacenado en caché con TTL de 5 min (solo la primera escritura cuesta más).
Escritura en caché (1 h)	$10 / 1M tokens (2×)	En caché con TTL de 1 hora. Dura más, pero la escritura cuesta más.
Lectura de caché	$0.50 / 1M tokens (10 %)	10 % del precio de entrada. Esta es la estrella del ahorro.
Llamadas a herramientas	— (incluido)	Las definiciones de herramientas forman parte del contexto. Más herramientas, entrada más gorda.

En resumen, «lo que está en la caché se lee a una décima parte del precio». Esa es la mayor palanca de ahorro de 2026.

3. Elección de plan y su impacto en el ahorro

En cuanto puedas anticipar cómo lo vas a usar, cambia primero al plan adecuado.

Uso	Plan recomendado	Objetivo mensual	Advertencias
Hobby, aprendizaje, unas pocas veces por semana	Claude Free / ChatGPT Free	$0	Con límites de uso; no para datos de trabajo.
Personal, varias horas al día	Claude Pro / ChatGPT Plus	$20	Plan personal; no para datos de trabajo.
Uso personal intensivo	Claude Max	$100-200	Techo de uso más alto; recomendado para Claude Code.
Trabajo en equipo	Claude Team / ChatGPT Team	$25-30/usuario	OK para datos de trabajo; los datos no se usan para entrenamiento.
Gran organización	Enterprise	Presupuesto comercial	SSO, registros de auditoría, SLA.
Desarrollo con IA integrada	API directa (Anthropic / OpenAI)	Por uso	Usa caché y batch.

Si vas a usar Claude Code «en serio, varias horas al día», el plan Max (100 $ o 200 $) es casi siempre la respuesta correcta. Más barato que la API directa y los límites de uso son prácticamente suficientes. Cursor ofrece niveles como Pro 20 $ y Ultra 200 $.

4. Prompt caching — la palanca individual más potente

Si llamas directamente a la API, el prompt caching es una herramienta de ahorro «sin razón para no usarla». La propia Anthropic la describe como «la herramienta de optimización de coste más infrautilizada de 2026».

Cómo funciona

Cuando reutilizas el mismo system prompt o los mismos documentos en varias peticiones, la primera llamada escribe en caché (coste 1,25×). Cada llamada posterior lee de la caché al 10 % del precio de entrada.

Cálculo del punto de equilibrio

TTL de 5 min (escritura 1,25×): con dos lecturas ya recuperas la inversión
TTL de 1 hora (escritura 2×): con cinco lecturas recuperas la inversión
Regla práctica en producción: 3+ lecturas con TTL de 5 min, o 5+ lecturas con TTL de 1 hora, son una victoria fiable

Cambio importante en 2026

A principios de 2026, Anthropic acortó el TTL por defecto del prompt caching de 60 minutos a 5 minutos. Si llevas producción sin enterarte, tu coste efectivo ha subido entre un 30 % y un 60 %. Los desarrolladores anclados en la «vieja intuición» están perdiendo dinero en silencio: ese es el problema oculto de 2026.

Patrón recomendado

Para apps en producción:

system prompt + definiciones de herramientas: cachear con TTL de 1 hora (las partes que no cambian)
parte inicial del historial de conversación: cachear con TTL de 5 min (las partes a las que se vuelve en una ventana corta)

Si tu tasa de aciertos de caché (cache_read / (cache_read + input)) está por debajo del 60 %, hay margen para optimizar. En producción, apunta al 80 % o más.

5. Gestión del contexto — /compact y división

Usa Claude Code o Cursor un rato y, en mitad de una conversación larga, te encontrarás con «no sé cómo, pero estoy enviando 100 000 tokens en cada turno». No es la salida: es la entrada (= conversación pasada) la que no para de hincharse.

Táctica 1: usa `/compact` de forma activa

Claude Code dispone del comando /compact. Resume y comprime el historial de la conversación, regenerando la ventana de contexto. Puedes reducir 200 000 tokens a 5000. Considéralo en cuanto una sesión supere los 30 minutos.

Táctica 2: divide las sesiones por tarea

No hagas «implementar la funcionalidad A», «arreglar el bug B» y «generar el documento C» en una única conversación larga: arranca sesiones nuevas. Cierra la sesión cuando termines cada tarea. Si necesitas memoria a largo plazo, escríbela en un fichero de memoria.

Táctica 3: recorta el ruido con Hooks

Claude Agent SDK / Claude Code ofrecen Hooks, que permiten transformar la salida de las herramientas antes de que llegue a la IA. Ejemplo: comprimir un log largo de npm install a un simple «éxito/fallo» mediante un Hook. Solo con eso puedes ahorrar miles de tokens por turno.

6. Selección de modelo — enrutamiento por tarea

«Siempre Opus» es la estrategia del millonario. La mayoría de las tareas obtienen calidad suficiente con Sonnet o Haiku. Las proporciones de precio oficiales de Anthropic son las siguientes (mayo de 2026).

Modelo	Entrada	Salida	Mejor para
Claude Opus 4.7	$5	$25	Diseño complejo, razonamiento, tareas autónomas largas
Claude Sonnet 4.7	$3	$15	Codificación diaria, análisis, resumen
Claude Haiku 4.5	$0.80	$4	Clasificación, extracción, conversión corta, respuesta en tiempo real
GPT-5.5	$5	$30	Planificación, ejecución, control de terminal
GPT-5.5 mini	$0.60	$2.40	Tareas ligeras

De Opus a Haiku, aproximadamente 6× más barato. Solo con enrutar por tarea ya consigues un ahorro enorme. Criterios de decisión:

Usa Opus para: refactorizaciones complejas, diseños que abarcan muchos ficheros, razonamiento profundo, exploración de un dominio desconocido
Usa Sonnet para: codificación diaria, análisis, resumen, revisión, añadir tests
Usa Haiku para: clasificación, extracción, conversión de formato, sugerencias en tiempo real, generación de mensajes de commit

7. Gestionar tu presupuesto de salida

Los tokens de salida cuestan 5-6× más que los de entrada. El ahorro aquí es enorme.

Tres enfoques

Fija max_tokens de forma explícita: acota con max_tokens: 1000 o similar en la llamada a la API. Dejarlo sin límite por defecto es peligroso.
Añade «responde brevemente» o «cinco bullets» al prompt: la IA hace caso. Suprime introducciones, resúmenes y despedidas redundantes.
Salida estructurada (modo JSON): el JSON es más corto que la prosa. Si tu app consume el resultado, es el camino.

Para situaciones en las que no necesitas una «respuesta larga y bonita» (clasificación, extracción, decisiones), recortar a fondo acaba siendo más eficiente en coste.

8. La trampa multiagente — 15× tokens

La tendencia de 2026, los montajes multiagente (orquestador + subagentes en paralelo), es potente, pero la propia Anthropic ha declarado en público que «el consumo de tokens es aproximadamente 15× respecto a un único agente».

Criterios de decisión para ahorrar

Tareas claras y secuenciales (edición de un único fichero, resumen, revisión de código) → basta con un único agente
Paralelismo que reduce de forma significativa el tiempo de reloj → multiagente está justificado
«Multiagente por defecto» es económicamente erróneo. Empieza con un único agente y divide solo los cuellos de botella que veas de verdad.

Detalles: véase ¿Qué es un sistema multiagente?

9. Monitorización y alertas de facturación

Para evitar la sorpresa de «de repente 500 $», la monitorización rutinaria + alertas son obligatorias.

Usuarios de API

Revisa el consumo diario de tokens en la Anthropic Console / OpenAI Dashboard
Fija un límite de uso: parada automática al superar 200 $/mes, etc. Sin límite = peligro.
Alertas de facturación: email a 50 $, Slack a 100 $ — umbrales escalonados.

Usuarios de Claude Code

Usa /cost para revisar el consumo de tokens y el gasto estimado de la sesión actual
Convierte en hábito comprobar /cost al final de cada día

Administradores de organización

Informes de uso por usuario (consola de admin de Anthropic Team / Enterprise)
Detección de anomalías (señalar a quien consume 3× su normal)
Difusión trimestral en toda la empresa de los «patrones de despilfarro»

10. Siete patrones de despilfarro habituales

Patrón	Qué falla	Solución
Reenviar todos los ficheros en cada turno	La caché no entra; la entrada se infla	Envía los documentos invariables una vez y cachéalos
Hacer la misma pregunta en ChatGPT y Claude	Pagas dos veces la misma entrada en planes distintos	Elige uno
Continuar una conversación larga sin `/compact`	Se envía el historial completo en cada turno	`/compact` a partir de los 30 minutos
Usar Opus para clasificación o extracción simple	Pagas 6× lo que cuesta Haiku para el mismo resultado	Casa el modelo con la tarea
Repetir «más pulido» / «un poco más largo»	Los tokens de salida se acumulan	Indica la longitud deseada desde el principio
Definir muchas herramientas innecesarias	Las definiciones de herramientas viajan en el contexto	Define solo lo que vayas a usar
Recurrir a multiagente a la ligera	15× tokens frente a un único agente	Solo cuando haya una necesidad clara

Resumen

Las tres palancas de la optimización de coste de IA: prompt caching, enrutamiento de modelo y presupuesto de salida. Combinadas, comprimen al 20-30 % del coste sin optimizar.
Lectura de caché = 10 % del precio de entrada. Ahorro del 60-90 % en cargas de producción. Atento al acortamiento del TTL a principios de 2026 (60 min → 5 min); ignorarlo equivale a un 30-60 % más de coste.
Elección de modelo: de Opus a Haiku, aproximadamente 6× más barato. El 80 % de las tareas funcionan bien con Sonnet/Haiku.
Presupuesto de salida: los tokens de salida cuestan 5-6× más que los de entrada. Fija max_tokens de forma explícita y pide «brevedad».
Gestión del contexto: /compact al pasar de 30 minutos por sesión, divide por tarea, comprime la salida con Hooks.
Trampa multiagente: 15× tokens frente a un único agente. Úsalo solo con una necesidad clara.
Monitorización: límites de uso, alertas de facturación y comprobar /cost deben ser hábitos.
Mantente atento a los siete patrones de despilfarro habituales y evítalos.

FAQ

Q1. Uso Claude Code a diario — ¿me sale más a cuenta Pro 20 $ o Max 200 $?

Si lo usas 2 horas o más al día, Max es casi seguro la mejor opción. Pro toca techo de uso enseguida, la frustración crece y acabas sangrando hacia la facturación por API igualmente. Max te deja trabajar horas sin preocuparte. Incluso la propia comunicación de Anthropic asume que los usuarios de Pro usarán Claude Code «de forma ligera».

Q2. ¿Necesito una configuración especial para usar prompt caching?

En la API hay que marcar explícitamente bloques cache_control. No funciona por defecto. Herramientas integradas como Claude Code / Cursor a menudo lo usan internamente de forma automática, pero si llamas tú a la API, debes declararlo. Consulta los documentos oficiales de Anthropic para más detalle.

Q3. ChatGPT vs. Claude — ¿cuál es más eficiente en coste?

Depende del caso de uso. Para tareas autónomas largas y codificación compleja, Claude (sobre todo con caché) suele salir más barato. Para preguntas y respuestas cortas y automatización de terminal, GPT-5.5 mini es muy barato (0,60 $ de entrada). «Suscríbete a ambos y elige la herramienta adecuada» también es práctico.

Q4. ¿Cómo decido si «con Haiku me basta»?

Haz un experimento en tres pasos. (1) Que funcione con Opus. (2) Envía el mismo prompt a Sonnet y compara la calidad. (3) Si Sonnet parece comparable, prueba también Haiku. Para muchas tareas rutinarias, Haiku y Opus se diferencian en algo que no notarás. Reserva Opus para casos que de verdad requieran juicio o razonamiento profundo.

Q5. ¿Los usuarios particulares deberían atacar la API directamente?

Depende. Para 2 horas o más al día de codificación interactiva, el plan Max (100 $/200 $) es abrumadoramente más cómodo. Para integrar IA en tu propia app, procesamiento por lotes o automatización, la API directa es esencial. Mucha gente hace las dos cosas.

Q6. ¿Qué umbral debería poner para las alertas de facturación?

Para un desarrollador particular, un montaje realista es 1,5× tu gasto mensual habitual para la primera alerta y 3× como parada automática. Ejemplo: si sueles gastar 30 $/mes, alerta a 50 $ y para a 100 $. Al principio, lanza alertas más finas como 5 $/día para construir intuición y luego afloja.

Q7. Nos han dicho «el presupuesto de IA de la empresa se ha disparado». ¿Por dónde empezamos?

Tres cosas en orden. (1) Mira el uso por usuario y comprueba qué porcentaje del total consume el 5 % superior (a menudo el 50 % o más). (2) Entrevista a los heavy users sobre su flujo de trabajo e identifica patrones de despilfarro. (3) Distribuye una guía interna sobre «caché, enrutamiento de modelo y presupuesto de salida» a toda la empresa y reporta mensualmente el progreso. Si hablas con tu representante Enterprise de Anthropic / OpenAI, también puedes conseguir una revisión de optimización gratuita.

Cómo ahorrar en gasto y tokens de herramientas de IA: tres palancas que comprimen el coste sin optimizar al 20-30 %

Comprime al 20-30 % del coste sin optimizar

1. Por qué tu factura de IA se infla en silencio

2. Desglose del coste — entrada, salida, caché y herramientas

3. Elección de plan y su impacto en el ahorro