El 28 de mayo de 2026, Anthropic lanzó Claude Opus 4.8 — apenas dos meses después de Opus 4.7. La cadencia de actualizaciones claramente se está acelerando. Pero esta vez el titular no son unos pocos puntos porcentuales en un benchmark. Lo primero que la propia Anthropic destacó fue «un juicio más afinado, más honestidad sobre su propio progreso y la capacidad de trabajar de forma independiente durante más tiempo que sus predecesores». Un lanzamiento que encabeza con «se volvió más honesto» antes que con «se volvió más inteligente» es algo inusual.

Esta es la conclusión de fondo: la programación mejora con solidez (SWE-bench Pro 64.3% → 69.2%), las matemáticas dan un salto espectacular (USAMO 2026 de 69.3% a 96.7%) y el seguimiento de contexto largo casi se duplica (GraphWalks con 1M tokens 40.3% → 68.1%). Además, el modo rápido es aproximadamente 2.5 veces más veloz y, en la práctica, cuesta un tercio del precio, y tres funciones orientadas a desarrolladores llegan de golpe: el parámetro effort, los flujos de trabajo dinámicos y las entradas system en la Messages API. Al mismo tiempo, no todo mejoró — la robustez frente a la inyección de prompts en realidad retrocedió. Este artículo desglosa las cifras, las nuevas funciones y las advertencias, a partir del anuncio oficial de Anthropic y de la system card.

ANTHROPIC · LANZAMIENTO 2026-05-28

Claude Opus 4.8 de un vistazo

— un buque insignia que encabeza con la «honestidad» antes que con la inteligencia bruta

PROGRAMACIÓN
69.2%
SWE-bench Pro
(4.7 era 64.3%)
MATEMÁTICAS
96.7%
USAMO 2026
(4.7 era 69.3%)
MODO RÁPIDO
3x más barato
~2.5x más veloz
$10 / $50 por Mtok
HONESTIDAD
10x
menos exceso de confianza
vs Opus 4.7

El precio estándar se mantiene igual que en 4.7 ($5 / $25 por Mtok), el contexto permanece en 1M tokens.
El ID del modelo es claude-opus-4-8, disponible desde el primer día en Claude API, Bedrock, Vertex AI y Microsoft Foundry.

* Las cifras de este artículo se basan en el anuncio oficial de Anthropic, la página del modelo y la system card, además de la cobertura de varios medios tecnológicos (a fecha de 28 de mayo de 2026). Pueden actualizarse a medida que se realicen más verificaciones.

1. Opus 4.8 en tres líneas

Para el lector con prisa, primero lo esencial.

  • Rendimiento: la programación es cada vez más sólida; las matemáticas (USAMO) y el seguimiento de contexto largo (GraphWalks) mejoran de forma espectacular. Por otro lado, GPQA Diamond baja ligeramente y las tareas multilingües quedan por detrás de Gemini 3.1 Pro / GPT-5.5.
  • Precios: el estándar se mantiene igual que en 4.7. El mayor impacto económico es que el modo rápido es ~2.5x más veloz y, en la práctica, cuesta un tercio del precio.
  • Filosofía: «más honesto» antes que «más inteligente». Es el primer Claude que obtiene un 0% al reportar resultados defectuosos sin sentido crítico, y el exceso de confianza baja 10 veces respecto a 4.7. Los nuevos flujos de trabajo dinámicos y el parámetro effort dan soporte a un trabajo autónomo más prolongado.

2. Especificaciones clave y disponibilidad

Empecemos por los hechos inamovibles: las especificaciones de Opus 4.8 y dónde puedes usarlo.

ElementoDetalle
Fecha de lanzamiento28 de mayo de 2026 (unos 2 meses después de 4.7)
ID del modelo en la APIclaude-opus-4-8
Ventana de contexto1,000,000 tokens (igual que 4.7)
Salida máxima128,000 tokens por respuesta
Precio estándar$5 entrada / $25 salida (por 1M tokens, igual que 4.7)
Reducciones de costeHasta un 90% de descuento con prompt caching, 50% con procesamiento por lotes
Precio del modo rápido$10 entrada / $50 salida (por 1M tokens, ~2.5x más veloz)
DisponibilidadClaude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry (desde el primer día)

El punto clave es que el precio y el contexto se mantienen iguales, y solo la sustancia se reforzó. Si estás en 4.7, cambiar el ID del modelo a claude-opus-4-8 te da las mejoras de rendimiento sin coste adicional (las advertencias de migración están en la sección 9). Eso sí, ten en cuenta que la inferencia exclusiva en EE. UU. conlleva un multiplicador de precio de 1.1x.

3. Benchmarks cara a cara (4.8 vs 4.7)

Ya vimos las especificaciones. Entonces, ¿cuánto creció la capacidad real? Aquí están los principales benchmarks publicados alineados frente a 4.7. La negrita marca las mayores ganancias.

BenchmarkClaude Opus 4.8Claude Opus 4.7Diferencia
SWE-bench Verified (correcciones de código reales)88.6%87.6%+1.0
SWE-bench Pro (programación difícil)69.2%64.3%+4.9
SWE-bench Multilingual84.4%80.5%+3.9
USAMO 2026 (olimpiada de matemáticas)96.7%69.3%+27.4
GraphWalks (contexto largo de 1M tokens, F1)68.1%40.3%+27.8
GPQA Diamond (ciencia de nivel posgrado)93.6%94.2%−0.6
Online-Mind2Web (uso del navegador)84%

Una nota para leer la tabla. Los +4.9 puntos en SWE-bench Pro parecen modestos pero importan: Pro reúne tareas de programación más realistas y difíciles, así que una ganancia ahí se traduce directamente en «menos momentos en los que te atascas en el trabajo real». Pero lo que de verdad destaca son los saltos de +27 puntos en USAMO y GraphWalks.

MAYORES SALTOS

Qué significan los dos saltos

USAMO 2026 · 69.3% → 96.7%
Casi perfecto en los problemas de la Olimpiada de Matemáticas de EE. UU. — evidencia de una gran mejora en llevar hasta el final pruebas rigurosas de varios pasos sin romperse. Esto rinde frutos en el diseño de algoritmos complejos y el razonamiento formal.
GraphWalks 1M · 40.3% → 68.1%
La capacidad de rastrear correctamente «qué se escribió y dónde» a lo largo de un contexto de 1M tokens casi se duplica. Eso eleva la fiabilidad de alimentarlo con una base de código enorme entera o una especificación larga.

Además, CursorBench supera a todos los Opus anteriores en todos los niveles de effort,
en el benchmark Super-Agent se convirtió en el único modelo que completó todos los casos de principio a fin, y en el benchmark Legal Agent registró la primera puntuación por encima del 10% en el estándar de aprobado total.

Dicho esto, no todo subió. GPQA Diamond bajó de 94.2% a 93.6%. Podrías considerarlo dentro del margen de error, pero el hecho de que 4.7 vaya marginalmente por delante en «cuestionarios de conocimiento científico puro» merece tenerse en cuenta. Más detalles en la sección 9.

4. Precios y modo rápido — velocidad 3 veces más barata

Nos hemos detenido en el rendimiento, pero lo que esta vez realmente más golpea tu bolsillo es el cambio de precio del modo rápido. El precio estándar se mantiene completamente igual que en 4.7, así que alineemos ambos.

Modo estándar (sin cambios)

  • Entrada: $5 / 1M tokens
  • Salida: $25 / 1M tokens
  • Prompt caching: hasta un 90% de descuento
  • Procesamiento por lotes: 50% de descuento

→ Ni un centavo de diferencia respecto a 4.7. Coste de cambio cero.

Modo rápido (gran cambio)

  • Entrada: $10 / 1M tokens
  • Salida: $50 / 1M tokens
  • Velocidad: unas 2.5x la estándar
  • Un tercio del precio del modo rápido anterior

→ Ya no se cumple lo de «rápido = caro». Genial para interfaces de chat y procesamiento masivo.

Esto es más grande de lo que parece. El dilema de «quiero velocidad, pero el modo rápido es caro» afectaba justo a los casos de uso — respuestas en interfaces de chat, revisión masiva de código en CI/CD, ejecuciones de agentes con muchos pasos — donde ahora puedes tener velocidad y precio a la vez. Combinado con el precio estándar sin cambios, la conclusión económica de esta vez es «el mismo presupuesto, pero más rápido y más inteligente». Para el panorama completo de precios, consulta la comparativa de precios de Claude Opus / Sonnet / Haiku.

5. Novedad #1: el parámetro effort y el pensamiento adaptativo

Después de los precios, las funciones que los desarrolladores tocan directamente. Primero, el parámetro effort. Es una palanca que te permite especificar explícitamente «con qué profundidad pensar» en cuatro niveles.

PARÁMETRO EFFORT

Elige la profundidad de pensamiento en cuatro niveles

LOW · velocidad primero
Las respuestas más rápidas y menor consumo del límite de tasa. Para clasificación simple, extracción y respuestas cortas.
HIGH · por defecto (recomendado)
El equilibrio recomendado por Anthropic. Aproximadamente el mismo recuento de tokens que el valor por defecto de 4.7, pero con mayor rendimiento. Ante la duda, usa este.
XHIGH · tareas difíciles / asíncronas
Recomendado para tareas difíciles y flujos de trabajo asíncronos — cuando quieres que se lo piense bien.
MAX · calidad primero
Maximiza la profundidad de tokens. Para trabajo crítico de calidad por encima del coste.

El meollo: el valor por defecto HIGH usa aproximadamente el mismo recuento de tokens que el valor por defecto de 4.7, subiendo solo el rendimiento.
En otras palabras, incluso sin ningún ajuste, obtienes mejores resultados al mismo coste.

La contraparte de effort es el pensamiento adaptativo: el modelo ajusta automáticamente el cómputo que utiliza según la complejidad de la tarea. Rápido en preguntas simples, más profundo por iniciativa propia en las difíciles. Tú fijas el techo y la política con effort, y el pensamiento adaptativo optimiza la asignación real — un diseño de dos niveles que ofrece «ni un token de pensamiento desperdiciado, profundidad solo donde cuenta».

6. Novedad #2: flujos de trabajo dinámicos (research preview)

La función más ambiciosa esta vez es esta. Los flujos de trabajo dinámicos son una función en research preview utilizable en Claude Code (CLI, Desktop, extensión de VS Code), un mecanismo para entregarle a Claude un «gran trabajo» por completo.

En concreto, Claude escribe sus propios scripts de orquestación y genera de decenas a cientos de subagentes en paralelo para atacar un problema de forma concurrente. Incluso despliega agentes de verificación adversaria para revisar críticamente los resultados, e itera hasta converger. Coordina fuera del hilo principal de la conversación, y su estado es reanudable, manteniéndose a lo largo de una ejecución de varios días.

Para qué sirve

Los casos de uso previstos son cazas de bugs en toda la base de código, migraciones a gran escala, auditorías de seguridad y tareas de verificación crítica — el tipo de trabajo que «a un equipo de humanos le llevaría varios días».

Disponibilidad: planes Max, Team y Enterprise (habilitado por el administrador), además de a través de la API, Bedrock, Vertex y Foundry. Por seguridad, requiere confirmación explícita en el primer disparo. Al ser una research preview, el comportamiento puede cambiar.

En cuanto a posicionamiento, es un paso hacia que el propio modelo diseñe y ejecute, sobre la marcha, la «orquestación en paralelo de muchos agentes» que antes tenías que construir tú mismo con el Claude Agent SDK. Para grandes refactorizaciones e investigaciones transversales, se amplía el rango que puede conducir sin dirección humana paso a paso.

7. Novedad #3: entradas system en la Messages API

Un cambio sutil, pero bienvenido para los desarrolladores: la Messages API ahora acepta entradas system dentro del array messages.

Antes, el system prompt (las instrucciones de sistema) se colocaba una sola vez al inicio de la conversación. Con este cambio, puedes inyectar instrucciones de sistema a mitad de la conversación — y hacerlo sin romper el prompt cache ni requerir un turno del usuario.

// Ejemplo: actualizar «permisos, presupuesto, entorno» a mitad de un flujo
messages: [
  { role: "system",    content: "Eres un agente de CI. Sin operaciones destructivas." },
  { role: "user",      content: "Actualiza las dependencias" },
  { role: "assistant", content: "..." },
  // Actualizar la política a mitad de la ejecución (sin romper la caché)
  { role: "system",    content: "El presupuesto de tokens es bajo. Usa effort=low, solo puntos clave." },
  { role: "user",      content: "Continúa" }
]

Esto rinde frutos en ejecuciones de agentes largas y de varios pasos. «Intercambiar dinámicamente la política» a mitad de la ejecución — endurecer permisos, señalar el presupuesto de tokens, actualizar el contexto del entorno (en qué rama estás, etc.) — ahora funciona preservando la eficiencia de la caché. Es un diseño que combina bien con ejecuciones autónomas de largo recorrido como los flujos de trabajo dinámicos.

8. El mayor salto es la honestidad — 10 veces menos exceso de confianza

Esta es la parte que más quiero transmitir. El verdadero diferenciador de Opus 4.8 no son los números de los benchmarks — es la «honestidad sobre su propio trabajo». Lo que Anthropic y los evaluadores subrayaron repetidamente es que este modelo señala proactivamente su propia incertidumbre y es menos propenso a hacer afirmaciones sin fundamento.

MÉTRICAS DE HONESTIDAD

La honestidad en cifras

0%
reporte acrítico de resultados defectuosos
Reportar un resultado erróneo como «hecho». Primer Claude que obtiene la puntuación perfecta.
3.7%
omisiones en eventos importantes
Con qué frecuencia no llega a plantear eventos que debería reportar. Mucho más baja.
10x+
caída del exceso de confianza
El exceso de confianza infundado es más de 10 veces menor que en 4.7.

Además, la tasa de dejar pasar sin comentario los fallos en su propio código es aproximadamente un cuarto de la de 4.7.
Dejó de «fingir que funciona» — y eso es decisivo para la operación de agentes.

¿Por qué importa esto? El mayor riesgo de dejar que un agente de IA se ejecute de forma autónoma durante mucho tiempo es «reportar un fallo como un éxito y luego apilar más trabajo encima de ese error». Decir «arreglado» mientras las pruebas aún fallan; afirmar conjeturas inciertas en un tono seguro — este tipo de «exceso de confianza» socava la fiabilidad de la automatización desde la raíz. Que Opus 4.8 ahora señale su incertidumbre por sí mismo es, en términos prácticos, más valioso que unos pocos puntos de benchmark. Personalmente, creo que este único punto es lo más loable de esta actualización.

9. Advertencias y retrocesos (contados con honestidad)

Hemos visto las ganancias. Pero como este es un artículo que elogia la «honestidad», yo también seré honesto — aquí, sin disfraces, están los puntos que retrocedieron o que merecen precaución en 4.8.

AdvertenciaDetalleCómo gestionarlo
Menor robustez frente a la inyección de promptsEn el red-teaming de Gray Swan, el éxito de los ataques subió de 6.0% (4.7) a 9.6% (4.8)Para agentes que manejan entrada externa, refuerza el saneamiento de la entrada y la separación de privilegios. Revisa tu diseño de permisos
Leve caída en GPQA Diamond94.2% → 93.6% (−0.6). En cuestionarios de conocimiento científico puro, 4.7 va marginalmente por delanteDentro del margen de error. Haz pruebas A/B en tus tareas reales si te importa
No es el líder en multilingüeLas tareas multilingües quedan por detrás de Gemini 3.1 Pro / GPT-5.5Si lo multilingüe es tu campo de batalla, considera combinarlo con / compararlo con otros modelos
Los flujos de trabajo dinámicos son una research previewEl comportamiento puede cambiar. Depender plenamente de ellos para trabajo crítico en producción es prematuroValídalos en trabajo no crítico antes de adoptarlos

La caída en la robustez frente a la inyección de prompts en particular no puede pasarse por alto. Que el éxito de los ataques suba alrededor de 1.6x significa que, para agentes que leen entrada externa (páginas web, correo, publicaciones de usuarios) y actúan de forma autónoma, simplemente pasar a 4.8 puede hacerlos relativamente más débiles en seguridad en algunos escenarios. Volverse más inteligente no significa superar a 4.7 en todos los ejes de seguridad — entiende correctamente esta asimetría.

10. Quién debería actualizar ahora mismo

Entonces, ¿deberías cambiar a claude-opus-4-8 ahora mismo? Desglosémoslo por tipo.

✅ Actualiza ahora

  • La programación / operación de agentes es tu uso principal
  • Quieres delegar tareas autónomas largas
  • Usas el modo rápido intensamente (ahora 3x más barato)
  • Trabajas con bases de código enormes / contextos largos
  • El «reporte erróneo por exceso de confianza» sería fatal en tu entorno

⚠ Considéralo con cuidado

  • Agentes públicos que manejan entrada externa (menor robustez frente a inyección)
  • El procesamiento multilingüe es tu campo de batalla (otros pueden liderar)
  • El QA científico puro es central (leve caída en GPQA)
  • Meter los flujos de trabajo dinámicos directamente en producción crítica

Dado que el coste de cambio en sí es casi nulo (solo cambia el ID del modelo; el precio estándar se mantiene igual), el camino real es cambiar primero a claude-opus-4-8 en un entorno no crítico y medir en tus propias tareas. Los pasos concretos de migración desde 4.7 se trasladan directamente desde el planteamiento de la guía de migración de Opus 4.7. Para la comparación con GPT-5.5 y otros, consulta la comparativa GPT-5.5 vs Claude Opus.

Resumen

Claude Opus 4.8 (lanzado el 28 de mayo de 2026, claude-opus-4-8) es un buque insignia que reforzó la sustancia manteniendo el precio y el contexto sin cambios. La programación mejoró con solidez (SWE-bench Pro +4.9); las matemáticas (USAMO 96.7%) y el seguimiento de contexto largo (GraphWalks 68.1%) mejoraron de forma espectacular. El modo rápido se volvió ~2.5x más veloz y, en la práctica, cuesta un tercio del precio, y las funciones prácticas — el parámetro effort, los flujos de trabajo dinámicos y las entradas system en la Messages API — llegaron todas juntas.

Pero la esencia no son los números. Una tasa del 0% de dejar pasar fallos sin sentido crítico, el exceso de confianza más de 10 veces menor — este lanzamiento, que encabeza con la «honestidad» antes que con la «inteligencia», apunta en la dirección correcta para una era de IA autónoma de larga ejecución. Al mismo tiempo, la robustez frente a la inyección de prompts en realidad retrocedió; no supera al modelo antiguo en todos los ejes. Por eso — apropiadamente, en el espíritu de la propia virtud de este modelo — la forma más inteligente de abordarlo es no tener exceso de confianza, y medir en tus propias tareas antes de decidir.

Lecturas relacionadas: desglose del lanzamiento de Claude Opus 4.7, guía de migración de Opus 4.7, comparativa de precios Opus / Sonnet / Haiku, comparativa GPT-5.5 vs Claude Opus y qué es el Claude Agent SDK.

Preguntas frecuentes

P. ¿Es difícil migrar de Opus 4.7 a 4.8?
R. Cuesta prácticamente nada. Solo cambia el ID del modelo en la API a claude-opus-4-8; el precio estándar y la ventana de contexto (1M tokens) se mantienen sin cambios. El effort=HIGH por defecto usa aproximadamente el mismo recuento de tokens que el valor por defecto de 4.7, subiendo solo el rendimiento, así que te beneficias sin cambios de configuración. Solo vigila la caída en la robustez frente a inyección (más abajo) para los agentes que manejan entrada externa.

P. ¿Qué significa que el modo rápido es «3x más barato»?
R. Significa que el precio del modo rápido ($10 entrada / $50 salida por 1M tokens) es en la práctica un tercio del del modo rápido del modelo anterior. La velocidad es unas 2.5x la estándar. El dilema de «quiero velocidad pero el modo rápido es caro» se alivia enormemente, lo que facilita usarlo en interfaces de chat y procesamiento masivo por lotes.

P. ¿Puede cualquiera usar los flujos de trabajo dinámicos?
R. Están en research preview, utilizables desde Claude Code (CLI, Desktop, extensión de VS Code). La disponibilidad es en planes Max, Team y Enterprise (habilitado por el administrador) y a través de la API, Bedrock, Vertex y Foundry. Por seguridad, el primer disparo requiere confirmación explícita. El comportamiento puede cambiar, así que lo más seguro es probarlos primero en trabajo no crítico.

P. ¿Es 4.8 mejor que 4.7 en todos los aspectos?
R. No. GPQA Diamond bajó ligeramente (94.2% → 93.6%), las tareas multilingües quedan por detrás de Gemini 3.1 Pro / GPT-5.5, y la robustez frente a la inyección de prompts en realidad empeoró (éxito de ataques 6.0% → 9.6%). Va claramente por delante en programación, matemáticas, contexto largo y honestidad, pero para algunos usos 4.7 u otros modelos pueden encajar mejor.

P. ¿Cuál es el beneficio concreto de una mayor «honestidad»?
R. Al ejecutar agentes de IA de forma autónoma, el mayor riesgo es «reportar erróneamente un fallo como éxito y apilar trabajo encima». Como 4.8 redujo a 0% el reporte acrítico de resultados defectuosos y recortó el exceso de confianza en más de 10 veces, deja de «fingir que funciona» y dice que no está seguro cuando lo está. Para la automatización de larga ejecución, la CI y la revisión de código, la fiabilidad mejora a nivel práctico.