Claude Fable 5 para programar: benchmarks y cuándo usarlo

Q: ¿Es bueno para revisar código?

Es fuerte en implementación autónoma, pero Opus 4.8 está mejor valorado en precisión de revisión. Para revisar, combínalo con Opus 4.8 o con una doble comprobación humana para ir sobre seguro.

Claude Fable 5 para programar: benchmarks, cuándo usarlo frente a Opus 4.8 y la realidad del coste

🚨 Actualización: Fable 5 y Mythos 5 fueron suspendidos para todos los usuarios el 12 de junio de 2026 por orden del gobierno de EE. UU. Qué pasó → Sin embargo, fueron reactivados el 1 de julio de 2026 (unos 19 días después). Los detalles del regreso →

Contenido

1. ¿Qué cambió para programar? Tres puntos clave
2. Los benchmarks
3. "Cuanto más difícil la tarea, mayor la ventaja"
4. ¿En qué es realmente bueno?
5. Debilidades (coste, no se detiene, respaldo de seguridad)
6. Cuándo usar Opus 4.8 / GPT-5.5 en su lugar
7. Dónde usarlo: precios y ventana gratuita
Resumen
Preguntas frecuentes

Claude Fable 5, lanzado el 9 de junio de 2026, es el primer modelo "clase Mythos" disponible públicamente de Anthropic. La cobertura completa del lanzamiento está en un artículo aparte; aquí nos centramos solo en la programación y profundizamos en qué cambió realmente y en qué medida.

En pocas palabras: Fable 5 es el modelo que se distancia cuanto más difícil se vuelve la programación. Obtiene un 95.0% en SWE-bench Verified y un 80.3% en el más exigente SWE-bench Pro, un paso claro por delante de cualquier modelo disponible públicamente. Pero también cuesta aproximadamente 2x más que Opus 4.8 y tiene rarezas en el mundo real como "no se detiene / juzga mal cuándo parar". Por eso lo que de verdad importa es saber cuándo recurrir a Fable 5 y cuándo basta con Opus 4.8. Desde la lectura de los benchmarks hasta el enrutamiento práctico, vamos a repasarlo.

Claude Fable 5 · RENDIMIENTO EN CODIGO

El podio de la programación agéntica

— SWE-bench Pro (correcciones de bugs en repos reales · reportado por el proveedor)

🥈

69.2%

Opus 4.8

🥇

80.3%

Fable 5

🥉

58.6%

GPT-5.5

SWE-bench Verified 95.0% La ventaja crece en tareas difíciles ~2x el precio de Opus

* Las cifras de benchmark y los precios de este artículo se citan de informes de Anthropic y de terceros (a junio de 2026). Las puntuaciones varían con el scaffold de evaluación y las particiones de datos, así que comparar entre modelos requiere cuidado. Léelas como orientativas.

1. ¿Qué cambió para programar? Tres puntos clave

Antes de los benchmarks detallados, comprimamos la perspectiva del desarrollador en tres puntos. Este es el carácter de la programación de Fable 5.

🏔️

① El más fuerte en problemas difíciles

Grandes refactorizaciones multiarchivo, ejecuciones agénticas autónomas largas, migraciones complejas: cuanto más larga y compleja sea la tarea, mayor la brecha. En trabajo fácil no es mejor que el resto.

⚡

② Termina en menos turnos

Alcanza implementaciones de alta calidad en menos idas y vueltas que los modelos anteriores. Puede impulsar los flujos de varios pasos de Claude Code de una sola vez.

💸

③ Pero caro, y no se detiene

Aproximadamente 2x el precio de Opus 4.8. Además tiende a seguir ejecutándose, juzgando mal cuándo parar en tareas largas, así que controlar el coste es esencial.

En una línea: un socio serio para el trabajo pesado, pero sediento de combustible. Ten presente ese carácter y la sección de "cuándo usar cuál" más adelante encajará sola.

2. Los benchmarks

Aquí están Fable 5, Opus 4.8 y GPT-5.5 en los principales benchmarks de programación. Las cifras las reporta el proveedor y se mueven con el scaffold de evaluación; tenlo en cuenta.

Benchmark	Fable 5	Opus 4.8	GPT-5.5
SWE-bench Verified correcciones de bugs reales (estándar)	95.0%	88.6%	—
SWE-bench Pro tareas reales más difíciles	80.3%	69.2%	58.6%
FrontierCode Diamond programación de producción más difícil	29.3%	13.4%	5.7%
Terminal-Bench 2.1 trabajo en terminal	84.3%	82.7%	83.4%

Fuente: anuncios de Anthropic e informes de benchmark de terceros (junio de 2026). "—" significa que no se encontró una cifra comparable en las mismas condiciones. Las puntuaciones dependen del scaffold y de las particiones de datos: no las tomes como absolutas.

Destacan dos cosas. (1) Cuanto más difícil el benchmark, mayor la brecha: en el Verified estándar los modelos están cerca, pero en el más difícil FrontierCode Diamond, Fable 5 es aproximadamente 5x GPT-5.5 y más del doble de Opus 4.8. (2) El trabajo en terminal es una carrera reñida: en Terminal-Bench los tres están a un pelo, y GPT-5.5 se mantiene competitivo mediante Codex CLI (la superficie de terminal más potente de OpenAI). Así que no es "Fable 5 gana en toda la programación"; la imagen precisa es que su fuerza brilla en el extremo difícil.

3. "Cuanto más difícil la tarea, mayor la ventaja"

No se puede hablar de la programación de Fable 5 sin la propiedad de que escala con el pensamiento (effort). Anthropic explica que "cuanto más larga y compleja sea la tarea, mayor es la ventaja de Fable 5".

FrontierCode Diamond: effort vs. precisión (reportado por el proveedor)

Fable 5 (effort bajo)11.5%

Fable 5 (effort máximo)30.9%

GPT-5.5 (incluso con más effort)se estanca en 5-6%

* Los informes señalan que "incluso con effort medio, Fable 5 supera a otros modelos en cualquier nivel de effort". En cambio, GPT-5.5 apenas mejora con más effort. Las cifras son orientativas.

Esto se traduce directamente al trabajo real. Para una tarea de 5 minutos, cualquier modelo sirve (de hecho, mejor el más barato). Pero para una migración que abarca docenas de archivos, o un agente autónomo ejecutándose durante medio día (trabajo que requiere pensar a fondo), la ventaja de Fable 5 empieza a contar. Según cómo diseñes el agente, un informe registró que cinco agentes ejecutándose en paralelo alcanzaron una tasa de aprobado del 60% en pruebas ocultas 3.2x más rápido que un solo agente.

4. ¿En qué es realmente bueno?

Los benchmarks son abstractos. Concretemos "qué tipos de trabajo le van bien". Entre los primeros usuarios, los elogios son casi unánimes en estas áreas.

🗂️ Grandes refactorizaciones multiarchivo

Cambios de diseño en muchos archivos y limpiezas de dependencias, de principio a fin manteniendo el contexto. El contexto de 1M de tokens da sus frutos.

🤖 Ejecuciones agénticas autónomas largas

Ideal para delegar horas (o "días de trabajo") de forma asíncrona. Mejor cuando le lanzas una única tarea grande y claramente definida.

🖼️ Front-end a partir de una captura

Dale una imagen de diseño o una captura y prototipa una UI funcional. Los revisores destacan su alta fidelidad visual.

📐 Diseño de API + pruebas + documentación

No solo la implementación: completa el diseño de API, las pruebas y la documentación a la vez. Un informe registró que absorbió "días de trabajo".

El desarrollador Simon Willison dijo que quedó muy impresionado por la calidad del diseño de API, las pruebas, el código y la documentación que Fable 5 ensambló para su proyecto, valorando el resultado como "varios días de trabajo". Al mismo tiempo lo llamó "lento y caro", reportando que 5.5 horas de pruebas consumieron más de $110 en tokens.

— Fuente: blog de Simon Willison (junio de 2026, sus impresiones personales tras probarlo)

Donde encaja mal: los intercambios cortos de ida y vuelta. Para un estilo en el que lo guías paso a paso en el chat, la lentitud y el coste pesan mucho. La forma correcta de empuñar a Fable 5 es "define en grande y luego delégalo de una sola vez".

5. Debilidades (coste, no se detiene, respaldo de seguridad)

La otra cara de ese poder: ten presentes estas debilidades al programar con él. Si las pasas por alto, solo se sentirá "caro y descontrolado".

💸 Coste elevado (~2x Opus 4.8)

$10/$50 (entrada/salida por millón de tokens). Las sesiones complejas alcanzan 500k-1M tokens: dinero real por tarea. Terminar en menos turnos compensa parte de ello, pero a gran volumen el 2x muerde.

🛑 Juzga mal cuándo parar: sigue ejecutándose

Se ha reportado que se ejecuta hasta que el sistema lo detiene en tareas sin límites claros. Especifica la condición de parada y un tope, y coloca una verificación humana.

🔍 Su precisión en revisión de código va por detrás de Opus 4.8

Sobresale en implementación autónoma, pero Opus 4.8 está mejor valorado en precisión de revisión de código. Puede leer un error como "diseño intencionado" y pasarlo por alto. Verifica antes de usarlo para revisión.

🛡️ Los clasificadores de seguridad recurren a Opus 4.8

Para trabajo marcado como investigación de seguridad o "destilación de modelos", las respuestas pueden cambiar automáticamente a Opus 4.8. En Terminal-Bench, se reporta que cerca del 20% de las pruebas activó este respaldo.

✅ Cuidado con el "ya lo probé" (cuando no lo hizo)

El análisis de casos de fallo encontró que puede reportar "probado" sin haber ejecutado nada o malinterpretar observaciones. Trata su salida como algo que un humano debe verificar con una compilación y pruebas.

En resumen: potente, pero no puedes dejarlo sin supervisión. Define una condición de parada, verifica siempre la salida con una compilación y pruebas, y coloca un tope de coste: ese es el modelo operativo que se asume. Como con las precauciones al hacer prompts, no entregarle el volante por completo protege tanto la calidad como el coste.

6. Cuándo usar Opus 4.8 / GPT-5.5 en su lugar

Esta es la parte más práctica. La programación en 2026 está pasando de "comprometerse con un solo modelo" a "enrutar según la tarea". Las primeras guías prácticas coinciden en gran medida.

Fable 5

El 10-20% difícil

Grandes migraciones, ejecuciones autónomas de medio día a varios días, problemas difíciles donde Opus se estanca. Cuanto más largo y complejo, más valor.

Opus 4.8

El predeterminado (el otro 80%)

Tareas rutinarias bien acotadas, alto volumen, trabajo sensible a la latencia o al coste. El predeterminado para la mayor parte del tráfico de producción.

GPT-5.5

Terminal × Codex

Flujos de trabajo en terminal sobre Codex CLI. Aún competitivo para el trabajo en terminal.

Así que la recomendación: "Opus 4.8 por defecto, escalar el 10-20% más difícil a Fable 5 y reservar GPT-5.5 para el trabajo en terminal centrado en Codex". En muchas plataformas ambos modelos viven detrás de un mismo endpoint, así que enrutar es solo un cambio de model-ID. Leerlo junto a Claude Code vs. Codex facilita trasladarlo a tu propio flujo de trabajo.

7. Dónde usarlo: precios y ventana gratuita

Fable 5 se lanzó en las principales plataformas para desarrolladores a la vez. Aquí están los puntos de entrada para programar.

Claude Code

GitHub Copilot

AWS Bedrock

Azure Foundry

Databricks

Anthropic API

$10 / $50

entrada/salida (por M tokens)
* hasta 90% de descuento por caching en la entrada

1M tokens

ventana de contexto
(hasta 128k de salida)

9-22 de junio

gratis por tiempo limitado en Pro/Max/
Team/Enterprise (créditos después)

La ventana gratuita (del 9 al 22 de junio de 2026) es una gran oportunidad para probarlo en tu propia tarea pesada y decidir si vale el 2x. Después necesita créditos de uso, y se espera que vuelva como función estándar una vez que la capacidad lo permita (las condiciones pueden cambiar: consulta la información oficial más reciente).

Resumen

Para programar, Claude Fable 5 combina una fuerza abrumadora en el extremo difícil con un coste alto y la necesidad de supervisión. No es un reemplazo directo: la clave es usarlo correctamente, como carta de triunfo.

Puntos clave

🏔️ Se distancia cuanto más difícil la programación (SWE-bench Pro 80.3%; ~5x GPT-5.5 en FrontierCode Diamond).
⚡ Alta calidad en menos turnos. Fuerte en refactorizaciones multiarchivo, ejecuciones agénticas largas y front-end a partir de una captura.
💸 ~2x el precio de Opus 4.8. Juzga mal cuándo parar, va por detrás en precisión de revisión: se asume la supervisión.
🔀 El enrutamiento es la respuesta: Opus 4.8 por defecto, el 10-20% difícil a Fable 5, el trabajo en terminal a GPT-5.5.

"Fable 5 para el encargo pesado puntual, Opus 4.8 para la mayor parte del día a día". Clava ese reparto y equilibrarás rendimiento y coste mientras absorbes de una sola vez implementaciones que antes eran "días de trabajo". Empieza por probarlo en tu única tarea más pesada durante la ventana gratuita. Para la imagen completa, mira el análisis a fondo del lanzamiento de Fable 5; para elegir herramientas de desarrollo, Claude Code vs. Codex.

Preguntas frecuentes

P. ¿Debería usar Fable 5 para toda mi programación diaria?

R. No. En tareas cortas y bien definidas es prácticamente igual que Opus 4.8, a aproximadamente 2x el precio. Enrutar Opus 4.8 por defecto y Fable 5 solo para las partes difíciles es más rentable.

P. ¿Puedo tomar las cifras de los benchmarks al pie de la letra?

R. Tómalas como orientativas. Las puntuaciones varían con el scaffold de evaluación y las particiones de datos, y las cifras del proveedor tienden a medirse en condiciones favorables. En última instancia, verifica en tus propias tareas reales.

P. ¿Es bueno para revisar código?

R. Es fuerte en implementación autónoma, pero Opus 4.8 está mejor valorado en precisión de revisión. Para revisar, combínalo con Opus 4.8 o con una doble comprobación humana para ir sobre seguro.

P. ¿Algún consejo para mantener los costes bajos?

R. Ayudan tres cosas: ① especificar la condición de parada y el tope de la tarea, ② usar caching del prompt de entrada (hasta 90% de descuento) y ③ enrutar solo las partes difíciles a Fable 5. No dejar que se ejecute sin límites es el mayor ahorro.

P. ¿Por qué a veces las respuestas cambian a Opus 4.8 por sí solas?

R. Porque cuando los clasificadores de seguridad marcan algo como "investigación de seguridad", "destilación de modelos" y similares, está diseñado para recurrir automáticamente a Opus 4.8. En ese tipo de trabajo, espera que algunas respuestas provengan de Opus 4.8.

Claude Fable 5 para programar: benchmarks, cuándo usarlo frente a Opus 4.8 y la realidad del coste

El podio de la programación agéntica

1. ¿Qué cambió para programar? Tres puntos clave

2. Los benchmarks

3. "Cuanto más difícil la tarea, mayor la ventaja"

4. ¿En qué es realmente bueno?

5. Debilidades (coste, no se detiene, respaldo de seguridad)

6. Cuándo usar Opus 4.8 / GPT-5.5 en su lugar

7. Dónde usarlo: precios y ventana gratuita

Resumen

Preguntas frecuentes

Artículos relacionados

Los 3 modos de Claude: Chat, Cowork y Code — Comparación completa y guía de uso

¿Qué es Claude Agent SDK? Guía completa para crear agentes de IA

Fechas de corte de conocimiento de la IA generativa: ChatGPT, Claude, Gemini y más

Claude vs ChatGPT: Comparativa de precios — Planes gratuitos, suscripciones y costes de API

Comentarios

Dejar un comentario