Índice de contenidos
- 1. Opus 4.8 en tres líneas
- 2. Especificaciones clave y disponibilidad
- 3. Benchmarks cara a cara (4.8 vs 4.7)
- 4. Precios y modo rápido — velocidad 3 veces más barata
- 5. Novedad #1: el parámetro effort y el pensamiento adaptativo
- 6. Novedad #2: flujos de trabajo dinámicos (research preview)
- 7. Novedad #3: entradas system en la Messages API
- 8. El mayor salto es la honestidad — 10 veces menos exceso de confianza
- 9. Advertencias y retrocesos (contados con honestidad)
- 10. Quién debería actualizar ahora mismo
- Resumen
- Preguntas frecuentes
El 28 de mayo de 2026, Anthropic lanzó Claude Opus 4.8 — apenas dos meses después de Opus 4.7. La cadencia de actualizaciones claramente se está acelerando. Pero esta vez el titular no son unos pocos puntos porcentuales en un benchmark. Lo primero que la propia Anthropic destacó fue «un juicio más afinado, más honestidad sobre su propio progreso y la capacidad de trabajar de forma independiente durante más tiempo que sus predecesores». Un lanzamiento que encabeza con «se volvió más honesto» antes que con «se volvió más inteligente» es algo inusual.
Esta es la conclusión de fondo: la programación mejora con solidez (SWE-bench Pro 64.3% → 69.2%), las matemáticas dan un salto espectacular (USAMO 2026 de 69.3% a 96.7%) y el seguimiento de contexto largo casi se duplica (GraphWalks con 1M tokens 40.3% → 68.1%). Además, el modo rápido es aproximadamente 2.5 veces más veloz y, en la práctica, cuesta un tercio del precio, y tres funciones orientadas a desarrolladores llegan de golpe: el parámetro effort, los flujos de trabajo dinámicos y las entradas system en la Messages API. Al mismo tiempo, no todo mejoró — la robustez frente a la inyección de prompts en realidad retrocedió. Este artículo desglosa las cifras, las nuevas funciones y las advertencias, a partir del anuncio oficial de Anthropic y de la system card.
Claude Opus 4.8 de un vistazo
— un buque insignia que encabeza con la «honestidad» antes que con la inteligencia bruta
(4.7 era 64.3%)
(4.7 era 69.3%)
$10 / $50 por Mtok
vs Opus 4.7
El precio estándar se mantiene igual que en 4.7 ($5 / $25 por Mtok), el contexto permanece en 1M tokens.
El ID del modelo es claude-opus-4-8, disponible desde el primer día en Claude API, Bedrock, Vertex AI y Microsoft Foundry.
* Las cifras de este artículo se basan en el anuncio oficial de Anthropic, la página del modelo y la system card, además de la cobertura de varios medios tecnológicos (a fecha de 28 de mayo de 2026). Pueden actualizarse a medida que se realicen más verificaciones.
1. Opus 4.8 en tres líneas
Para el lector con prisa, primero lo esencial.
- Rendimiento: la programación es cada vez más sólida; las matemáticas (USAMO) y el seguimiento de contexto largo (GraphWalks) mejoran de forma espectacular. Por otro lado, GPQA Diamond baja ligeramente y las tareas multilingües quedan por detrás de Gemini 3.1 Pro / GPT-5.5.
- Precios: el estándar se mantiene igual que en 4.7. El mayor impacto económico es que el modo rápido es ~2.5x más veloz y, en la práctica, cuesta un tercio del precio.
- Filosofía: «más honesto» antes que «más inteligente». Es el primer Claude que obtiene un 0% al reportar resultados defectuosos sin sentido crítico, y el exceso de confianza baja 10 veces respecto a 4.7. Los nuevos flujos de trabajo dinámicos y el parámetro effort dan soporte a un trabajo autónomo más prolongado.
2. Especificaciones clave y disponibilidad
Empecemos por los hechos inamovibles: las especificaciones de Opus 4.8 y dónde puedes usarlo.
| Elemento | Detalle |
|---|---|
| Fecha de lanzamiento | 28 de mayo de 2026 (unos 2 meses después de 4.7) |
| ID del modelo en la API | claude-opus-4-8 |
| Ventana de contexto | 1,000,000 tokens (igual que 4.7) |
| Salida máxima | 128,000 tokens por respuesta |
| Precio estándar | $5 entrada / $25 salida (por 1M tokens, igual que 4.7) |
| Reducciones de coste | Hasta un 90% de descuento con prompt caching, 50% con procesamiento por lotes |
| Precio del modo rápido | $10 entrada / $50 salida (por 1M tokens, ~2.5x más veloz) |
| Disponibilidad | Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry (desde el primer día) |
El punto clave es que el precio y el contexto se mantienen iguales, y solo la sustancia se reforzó. Si estás en 4.7, cambiar el ID del modelo a claude-opus-4-8 te da las mejoras de rendimiento sin coste adicional (las advertencias de migración están en la sección 9). Eso sí, ten en cuenta que la inferencia exclusiva en EE. UU. conlleva un multiplicador de precio de 1.1x.
3. Benchmarks cara a cara (4.8 vs 4.7)
Ya vimos las especificaciones. Entonces, ¿cuánto creció la capacidad real? Aquí están los principales benchmarks publicados alineados frente a 4.7. La negrita marca las mayores ganancias.
| Benchmark | Claude Opus 4.8 | Claude Opus 4.7 | Diferencia |
|---|---|---|---|
| SWE-bench Verified (correcciones de código reales) | 88.6% | 87.6% | +1.0 |
| SWE-bench Pro (programación difícil) | 69.2% | 64.3% | +4.9 |
| SWE-bench Multilingual | 84.4% | 80.5% | +3.9 |
| USAMO 2026 (olimpiada de matemáticas) | 96.7% | 69.3% | +27.4 |
| GraphWalks (contexto largo de 1M tokens, F1) | 68.1% | 40.3% | +27.8 |
| GPQA Diamond (ciencia de nivel posgrado) | 93.6% | 94.2% | −0.6 |
| Online-Mind2Web (uso del navegador) | 84% | — | — |
Una nota para leer la tabla. Los +4.9 puntos en SWE-bench Pro parecen modestos pero importan: Pro reúne tareas de programación más realistas y difíciles, así que una ganancia ahí se traduce directamente en «menos momentos en los que te atascas en el trabajo real». Pero lo que de verdad destaca son los saltos de +27 puntos en USAMO y GraphWalks.
Qué significan los dos saltos
Además, CursorBench supera a todos los Opus anteriores en todos los niveles de effort,
en el benchmark Super-Agent se convirtió en el único modelo que completó todos los casos de principio a fin, y en el benchmark Legal Agent registró la primera puntuación por encima del 10% en el estándar de aprobado total.
Dicho esto, no todo subió. GPQA Diamond bajó de 94.2% a 93.6%. Podrías considerarlo dentro del margen de error, pero el hecho de que 4.7 vaya marginalmente por delante en «cuestionarios de conocimiento científico puro» merece tenerse en cuenta. Más detalles en la sección 9.
4. Precios y modo rápido — velocidad 3 veces más barata
Nos hemos detenido en el rendimiento, pero lo que esta vez realmente más golpea tu bolsillo es el cambio de precio del modo rápido. El precio estándar se mantiene completamente igual que en 4.7, así que alineemos ambos.
Modo estándar (sin cambios)
- Entrada: $5 / 1M tokens
- Salida: $25 / 1M tokens
- Prompt caching: hasta un 90% de descuento
- Procesamiento por lotes: 50% de descuento
→ Ni un centavo de diferencia respecto a 4.7. Coste de cambio cero.
Modo rápido (gran cambio)
- Entrada: $10 / 1M tokens
- Salida: $50 / 1M tokens
- Velocidad: unas 2.5x la estándar
- Un tercio del precio del modo rápido anterior
→ Ya no se cumple lo de «rápido = caro». Genial para interfaces de chat y procesamiento masivo.
Esto es más grande de lo que parece. El dilema de «quiero velocidad, pero el modo rápido es caro» afectaba justo a los casos de uso — respuestas en interfaces de chat, revisión masiva de código en CI/CD, ejecuciones de agentes con muchos pasos — donde ahora puedes tener velocidad y precio a la vez. Combinado con el precio estándar sin cambios, la conclusión económica de esta vez es «el mismo presupuesto, pero más rápido y más inteligente». Para el panorama completo de precios, consulta la comparativa de precios de Claude Opus / Sonnet / Haiku.
5. Novedad #1: el parámetro effort y el pensamiento adaptativo
Después de los precios, las funciones que los desarrolladores tocan directamente. Primero, el parámetro effort. Es una palanca que te permite especificar explícitamente «con qué profundidad pensar» en cuatro niveles.
Elige la profundidad de pensamiento en cuatro niveles
El meollo: el valor por defecto HIGH usa aproximadamente el mismo recuento de tokens que el valor por defecto de 4.7, subiendo solo el rendimiento.
En otras palabras, incluso sin ningún ajuste, obtienes mejores resultados al mismo coste.
La contraparte de effort es el pensamiento adaptativo: el modelo ajusta automáticamente el cómputo que utiliza según la complejidad de la tarea. Rápido en preguntas simples, más profundo por iniciativa propia en las difíciles. Tú fijas el techo y la política con effort, y el pensamiento adaptativo optimiza la asignación real — un diseño de dos niveles que ofrece «ni un token de pensamiento desperdiciado, profundidad solo donde cuenta».
6. Novedad #2: flujos de trabajo dinámicos (research preview)
La función más ambiciosa esta vez es esta. Los flujos de trabajo dinámicos son una función en research preview utilizable en Claude Code (CLI, Desktop, extensión de VS Code), un mecanismo para entregarle a Claude un «gran trabajo» por completo.
En concreto, Claude escribe sus propios scripts de orquestación y genera de decenas a cientos de subagentes en paralelo para atacar un problema de forma concurrente. Incluso despliega agentes de verificación adversaria para revisar críticamente los resultados, e itera hasta converger. Coordina fuera del hilo principal de la conversación, y su estado es reanudable, manteniéndose a lo largo de una ejecución de varios días.
Para qué sirve
Los casos de uso previstos son cazas de bugs en toda la base de código, migraciones a gran escala, auditorías de seguridad y tareas de verificación crítica — el tipo de trabajo que «a un equipo de humanos le llevaría varios días».
Disponibilidad: planes Max, Team y Enterprise (habilitado por el administrador), además de a través de la API, Bedrock, Vertex y Foundry. Por seguridad, requiere confirmación explícita en el primer disparo. Al ser una research preview, el comportamiento puede cambiar.
En cuanto a posicionamiento, es un paso hacia que el propio modelo diseñe y ejecute, sobre la marcha, la «orquestación en paralelo de muchos agentes» que antes tenías que construir tú mismo con el Claude Agent SDK. Para grandes refactorizaciones e investigaciones transversales, se amplía el rango que puede conducir sin dirección humana paso a paso.
7. Novedad #3: entradas system en la Messages API
Un cambio sutil, pero bienvenido para los desarrolladores: la Messages API ahora acepta entradas system dentro del array messages.
Antes, el system prompt (las instrucciones de sistema) se colocaba una sola vez al inicio de la conversación. Con este cambio, puedes inyectar instrucciones de sistema a mitad de la conversación — y hacerlo sin romper el prompt cache ni requerir un turno del usuario.
// Ejemplo: actualizar «permisos, presupuesto, entorno» a mitad de un flujo
messages: [
{ role: "system", content: "Eres un agente de CI. Sin operaciones destructivas." },
{ role: "user", content: "Actualiza las dependencias" },
{ role: "assistant", content: "..." },
// Actualizar la política a mitad de la ejecución (sin romper la caché)
{ role: "system", content: "El presupuesto de tokens es bajo. Usa effort=low, solo puntos clave." },
{ role: "user", content: "Continúa" }
]
Esto rinde frutos en ejecuciones de agentes largas y de varios pasos. «Intercambiar dinámicamente la política» a mitad de la ejecución — endurecer permisos, señalar el presupuesto de tokens, actualizar el contexto del entorno (en qué rama estás, etc.) — ahora funciona preservando la eficiencia de la caché. Es un diseño que combina bien con ejecuciones autónomas de largo recorrido como los flujos de trabajo dinámicos.
8. El mayor salto es la honestidad — 10 veces menos exceso de confianza
Esta es la parte que más quiero transmitir. El verdadero diferenciador de Opus 4.8 no son los números de los benchmarks — es la «honestidad sobre su propio trabajo». Lo que Anthropic y los evaluadores subrayaron repetidamente es que este modelo señala proactivamente su propia incertidumbre y es menos propenso a hacer afirmaciones sin fundamento.
La honestidad en cifras
Además, la tasa de dejar pasar sin comentario los fallos en su propio código es aproximadamente un cuarto de la de 4.7.
Dejó de «fingir que funciona» — y eso es decisivo para la operación de agentes.
¿Por qué importa esto? El mayor riesgo de dejar que un agente de IA se ejecute de forma autónoma durante mucho tiempo es «reportar un fallo como un éxito y luego apilar más trabajo encima de ese error». Decir «arreglado» mientras las pruebas aún fallan; afirmar conjeturas inciertas en un tono seguro — este tipo de «exceso de confianza» socava la fiabilidad de la automatización desde la raíz. Que Opus 4.8 ahora señale su incertidumbre por sí mismo es, en términos prácticos, más valioso que unos pocos puntos de benchmark. Personalmente, creo que este único punto es lo más loable de esta actualización.
9. Advertencias y retrocesos (contados con honestidad)
Hemos visto las ganancias. Pero como este es un artículo que elogia la «honestidad», yo también seré honesto — aquí, sin disfraces, están los puntos que retrocedieron o que merecen precaución en 4.8.
| Advertencia | Detalle | Cómo gestionarlo |
|---|---|---|
| Menor robustez frente a la inyección de prompts | En el red-teaming de Gray Swan, el éxito de los ataques subió de 6.0% (4.7) a 9.6% (4.8) | Para agentes que manejan entrada externa, refuerza el saneamiento de la entrada y la separación de privilegios. Revisa tu diseño de permisos |
| Leve caída en GPQA Diamond | 94.2% → 93.6% (−0.6). En cuestionarios de conocimiento científico puro, 4.7 va marginalmente por delante | Dentro del margen de error. Haz pruebas A/B en tus tareas reales si te importa |
| No es el líder en multilingüe | Las tareas multilingües quedan por detrás de Gemini 3.1 Pro / GPT-5.5 | Si lo multilingüe es tu campo de batalla, considera combinarlo con / compararlo con otros modelos |
| Los flujos de trabajo dinámicos son una research preview | El comportamiento puede cambiar. Depender plenamente de ellos para trabajo crítico en producción es prematuro | Valídalos en trabajo no crítico antes de adoptarlos |
La caída en la robustez frente a la inyección de prompts en particular no puede pasarse por alto. Que el éxito de los ataques suba alrededor de 1.6x significa que, para agentes que leen entrada externa (páginas web, correo, publicaciones de usuarios) y actúan de forma autónoma, simplemente pasar a 4.8 puede hacerlos relativamente más débiles en seguridad en algunos escenarios. Volverse más inteligente no significa superar a 4.7 en todos los ejes de seguridad — entiende correctamente esta asimetría.
10. Quién debería actualizar ahora mismo
Entonces, ¿deberías cambiar a claude-opus-4-8 ahora mismo? Desglosémoslo por tipo.
✅ Actualiza ahora
- La programación / operación de agentes es tu uso principal
- Quieres delegar tareas autónomas largas
- Usas el modo rápido intensamente (ahora 3x más barato)
- Trabajas con bases de código enormes / contextos largos
- El «reporte erróneo por exceso de confianza» sería fatal en tu entorno
⚠ Considéralo con cuidado
- Agentes públicos que manejan entrada externa (menor robustez frente a inyección)
- El procesamiento multilingüe es tu campo de batalla (otros pueden liderar)
- El QA científico puro es central (leve caída en GPQA)
- Meter los flujos de trabajo dinámicos directamente en producción crítica
Dado que el coste de cambio en sí es casi nulo (solo cambia el ID del modelo; el precio estándar se mantiene igual), el camino real es cambiar primero a claude-opus-4-8 en un entorno no crítico y medir en tus propias tareas. Los pasos concretos de migración desde 4.7 se trasladan directamente desde el planteamiento de la guía de migración de Opus 4.7. Para la comparación con GPT-5.5 y otros, consulta la comparativa GPT-5.5 vs Claude Opus.
Resumen
Claude Opus 4.8 (lanzado el 28 de mayo de 2026, claude-opus-4-8) es un buque insignia que reforzó la sustancia manteniendo el precio y el contexto sin cambios. La programación mejoró con solidez (SWE-bench Pro +4.9); las matemáticas (USAMO 96.7%) y el seguimiento de contexto largo (GraphWalks 68.1%) mejoraron de forma espectacular. El modo rápido se volvió ~2.5x más veloz y, en la práctica, cuesta un tercio del precio, y las funciones prácticas — el parámetro effort, los flujos de trabajo dinámicos y las entradas system en la Messages API — llegaron todas juntas.
Pero la esencia no son los números. Una tasa del 0% de dejar pasar fallos sin sentido crítico, el exceso de confianza más de 10 veces menor — este lanzamiento, que encabeza con la «honestidad» antes que con la «inteligencia», apunta en la dirección correcta para una era de IA autónoma de larga ejecución. Al mismo tiempo, la robustez frente a la inyección de prompts en realidad retrocedió; no supera al modelo antiguo en todos los ejes. Por eso — apropiadamente, en el espíritu de la propia virtud de este modelo — la forma más inteligente de abordarlo es no tener exceso de confianza, y medir en tus propias tareas antes de decidir.
Lecturas relacionadas: desglose del lanzamiento de Claude Opus 4.7, guía de migración de Opus 4.7, comparativa de precios Opus / Sonnet / Haiku, comparativa GPT-5.5 vs Claude Opus y qué es el Claude Agent SDK.
Preguntas frecuentes
P. ¿Es difícil migrar de Opus 4.7 a 4.8?
R. Cuesta prácticamente nada. Solo cambia el ID del modelo en la API a claude-opus-4-8; el precio estándar y la ventana de contexto (1M tokens) se mantienen sin cambios. El effort=HIGH por defecto usa aproximadamente el mismo recuento de tokens que el valor por defecto de 4.7, subiendo solo el rendimiento, así que te beneficias sin cambios de configuración. Solo vigila la caída en la robustez frente a inyección (más abajo) para los agentes que manejan entrada externa.
P. ¿Qué significa que el modo rápido es «3x más barato»?
R. Significa que el precio del modo rápido ($10 entrada / $50 salida por 1M tokens) es en la práctica un tercio del del modo rápido del modelo anterior. La velocidad es unas 2.5x la estándar. El dilema de «quiero velocidad pero el modo rápido es caro» se alivia enormemente, lo que facilita usarlo en interfaces de chat y procesamiento masivo por lotes.
P. ¿Puede cualquiera usar los flujos de trabajo dinámicos?
R. Están en research preview, utilizables desde Claude Code (CLI, Desktop, extensión de VS Code). La disponibilidad es en planes Max, Team y Enterprise (habilitado por el administrador) y a través de la API, Bedrock, Vertex y Foundry. Por seguridad, el primer disparo requiere confirmación explícita. El comportamiento puede cambiar, así que lo más seguro es probarlos primero en trabajo no crítico.
P. ¿Es 4.8 mejor que 4.7 en todos los aspectos?
R. No. GPQA Diamond bajó ligeramente (94.2% → 93.6%), las tareas multilingües quedan por detrás de Gemini 3.1 Pro / GPT-5.5, y la robustez frente a la inyección de prompts en realidad empeoró (éxito de ataques 6.0% → 9.6%). Va claramente por delante en programación, matemáticas, contexto largo y honestidad, pero para algunos usos 4.7 u otros modelos pueden encajar mejor.
P. ¿Cuál es el beneficio concreto de una mayor «honestidad»?
R. Al ejecutar agentes de IA de forma autónoma, el mayor riesgo es «reportar erróneamente un fallo como éxito y apilar trabajo encima». Como 4.8 redujo a 0% el reporte acrítico de resultados defectuosos y recortó el exceso de confianza en más de 10 veces, deja de «fingir que funciona» y dice que no está seguro cuando lo está. Para la automatización de larga ejecución, la CI y la revisión de código, la fiabilidad mejora a nivel práctico.