Claude Opus 4.8 refuerza la carrera por los agentes de IA capaces de programar solos

Nota de Prensa

Anthropic ha lanzado Claude Opus 4.8, una nueva versión de su modelo más avanzado que apunta directamente al terreno donde se está librando buena parte de la competición actual en inteligencia artificial: los agentes capaces de trabajar durante más tiempo, usar herramientas, revisar código, operar con terminales y completar tareas complejas con menos supervisión humana.

La compañía presenta Opus 4.8 como una mejora sobre Opus 4.7, no como una ruptura total. Pero el tipo de avances que destaca deja claro hacia dónde se mueve el mercado. La batalla ya no se mide solo en respuestas conversacionales, razonamiento general o generación de texto. Cada vez importa más si un modelo puede mantener contexto durante una sesión larga, detectar sus propios errores, pedir aclaraciones cuando una tarea no está bien definida y ejecutar flujos de trabajo reales en entornos de desarrollo, análisis financiero, investigación o uso del ordenador.

Más foco en programación agéntica y uso de herramientas

Según los datos publicados por Anthropic, Claude Opus 4.8 mejora a Opus 4.7 en la mayoría de benchmarks mostrados por la compañía. En SWE-Bench Pro, una prueba centrada en programación agéntica, el nuevo modelo alcanza el 69,2 %, frente al 64,3 % de Opus 4.7. En OSWorld-Verified, orientado al uso agéntico del ordenador, obtiene un 83,4 %, ligeramente por encima del 82,9 % de la versión anterior.

También mejora en GDPval-AA, una evaluación de tareas de conocimiento, donde Anthropic le atribuye 1.890 puntos, frente a 1.753 de Opus 4.7. En Finance Agent v2, centrado en análisis financiero agéntico, sube al 53,9 %, por encima del 51,5 % de su predecesor.

La lectura técnica es interesante porque Anthropic no está vendiendo únicamente un modelo más “inteligente” en abstracto. Está reforzando Claude como una pieza de trabajo para entornos donde la IA debe interactuar con herramientas externas, revisar información, ejecutar tareas y sostener cadenas de razonamiento más largas. Es decir, justo el tipo de uso que muchas empresas están empezando a probar en desarrollo de software, soporte técnico, automatización interna, análisis documental y operaciones.

Benchmark publicado por Anthropic	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro	69,2 %	64,3 %	58,6 %	54,2 %
Terminal-Bench 2.1	74,6 %	66,1 %	78,2 %	70,3 %
Humanity’s Last Exam, sin herramientas	49,8 %	46,9 %	41,4 %	44,4 %
Humanity’s Last Exam, con herramientas	57,9 %	54,7 %	52,2 %	51,4 %
OSWorld-Verified	83,4 %	82,9 %	78,7 %	76,2 %
GDPval-AA	1.890	1.753	1.769	1.314
Finance Agent v2	53,9 %	51,5 %	51,8 %	43,0 %

Conviene matizar los resultados. Las cifras proceden de Anthropic y deben interpretarse como datos aportados por el propio proveedor. Además, los benchmarks no siempre anticipan el comportamiento real en repositorios empresariales, bases de código antiguas, documentación incompleta o entornos con permisos limitados. Aun así, la comparación sí muestra una dirección clara: Opus 4.8 mejora a Opus 4.7 en casi todas las áreas destacadas y compite de forma directa con GPT-5.5 y Gemini 3.1 Pro en tareas agénticas.

El único dato de la tabla donde no lidera es Terminal-Bench 2.1. En esa prueba, GPT-5.5 aparece con un 78,2 %, por encima del 74,6 % de Opus 4.8. Para desarrolladores y equipos técnicos, este matiz es importante: el nuevo modelo de Anthropic parece fuerte en programación agéntica, uso de ordenador, razonamiento con herramientas y trabajo de conocimiento, pero no domina todas las categorías.

Claude Code gana peso con dynamic workflows

La actualización llega acompañada de una novedad relevante para Claude Code: dynamic workflows. Esta función, disponible en vista previa de investigación para planes Enterprise, Team y Max, permite a Claude planificar trabajos grandes y lanzar cientos de subagentes en paralelo dentro de una misma sesión. Después, el sistema verifica los resultados antes de informar al usuario.

La idea encaja con una tendencia evidente en el desarrollo asistido por IA. Las primeras herramientas se centraban en completar líneas, generar funciones o explicar fragmentos de código. La siguiente fase apunta a tareas de más alcance: migraciones, refactorizaciones, análisis de dependencias, revisión de grandes bases de código, actualización de APIs o cambios coordinados en múltiples servicios.

Anthropic pone como ejemplo migraciones a escala de repositorio sobre cientos de miles de líneas de código, usando la suite de tests existente como referencia. En la práctica, esto plantea una forma distinta de trabajar: el desarrollador ya no solo pide una solución puntual, sino que puede delegar un proceso largo con planificación, ejecución distribuida y verificación.

Para que esto funcione en entornos reales, el reto no es solo generar código correcto. También importa saber cuándo no tocar algo, cuándo pedir contexto adicional, cómo gestionar dependencias entre servicios, cómo interpretar fallos de tests y cómo evitar cambios masivos difíciles de revisar. Por eso Anthropic insiste tanto en la mejora del “riterio” del modelo.

La honestidad empieza a ser una función de producto

Uno de los aspectos más llamativos del anuncio es que Anthropic destaca la honestidad como una mejora técnica. La compañía asegura que Opus 4.8 es más propenso a reconocer incertidumbres y menos dado a afirmar que ha avanzado cuando la evidencia no lo respalda. En sus evaluaciones, afirma que el modelo es unas cuatro veces menos propenso que Opus 4.7 a dejar pasar sin comentario fallos en código escrito por él.

Este punto puede parecer menos espectacular que una subida en benchmarks, pero tiene más impacto práctico de lo que parece. En programación, un modelo que produce una solución incorrecta pero la presenta con seguridad puede consumir horas de depuración. En análisis financiero o legal, una afirmación sin soporte puede ser peligrosa. En operaciones técnicas, un agente demasiado confiado puede ejecutar cambios con consecuencias reales.

La mejora de la honestidad también conecta con una necesidad creciente en IA empresarial: trazabilidad y control. Las empresas no quieren solo modelos que respondan rápido, sino asistentes capaces de explicar límites, señalar dudas, conservar contexto y no ocultar problemas. En flujos agénticos, donde el modelo puede usar herramientas y tomar decisiones intermedias, reconocer incertidumbre deja de ser una cuestión de estilo y pasa a ser una medida de seguridad.

Control de esfuerzo y cambios en la API

Anthropic también introduce control de esfuerzo en claude.ai y Claude Cowork. El usuario puede elegir cuánto trabajo interno debe dedicar el modelo a una tarea. En configuraciones más altas, Claude piensa con más profundidad y consume más tokens. En niveles bajos, responde más rápido y usa menos límites.

Opus 4.8 usa por defecto un nivel alto de esfuerzo, que Anthropic considera el mejor equilibrio entre calidad y experiencia de usuario. Para tareas difíciles o flujos asíncronos largos, la compañía recomienda usar niveles superiores como “extra” o “max”. Este tipo de control se está convirtiendo en una pieza habitual en modelos avanzados porque no todas las tareas justifican el mismo coste computacional.

En la API Messages, Anthropic añade otra mejora importante para desarrolladores de agentes: ahora se aceptan entradas de sistema dentro del array de mensajes. Esto permite actualizar instrucciones durante una tarea sin romper la caché del prompt ni introducir el cambio como un turno de usuario. En un agente de larga duración, puede servir para modificar permisos, presupuestos de tokens, contexto del entorno o instrucciones de seguridad mientras el sistema sigue trabajando.

Aunque es un cambio técnico, tiene implicaciones claras. Los agentes no son conversaciones lineales simples. Necesitan adaptar su contexto, cambiar restricciones, recibir nuevas señales del entorno y mantener instrucciones actualizadas sin reiniciar todo el flujo. Esta mejora acerca la API a escenarios más complejos de orquestación.

Precio y disponibilidad

Claude Opus 4.8 ya está disponible en claude.ai, Claude Code y la API de Anthropic bajo el identificador claude-opus-4-8. El precio regular se mantiene respecto a Opus 4.7: 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida. El modo rápido cuesta 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida, y Anthropic afirma que ahora es tres veces más barato que en modelos anteriores de este tipo.

La compañía también señala que trabaja en modelos con capacidades similares a Opus pero a menor coste, una línea importante para empresas que quieren escalar agentes sin disparar el presupuesto. Además, Anthropic menciona una nueva clase de modelos por encima de Opus, vinculada al proyecto Glasswing y a Claude Mythos Preview, actualmente en uso limitado para ciberseguridad. Según la empresa, estos modelos requieren salvaguardas adicionales antes de una disponibilidad general.

Opus 4.8 no cambia por sí solo el mercado de la IA, pero sí confirma una dirección. La próxima fase no estará dominada únicamente por modelos que respondan mejor en un chat, sino por sistemas capaces de trabajar de forma sostenida, coordinar herramientas, reconocer límites y producir resultados verificables. En esa carrera, Anthropic quiere que Claude sea menos un asistente conversacional y más un colaborador técnico capaz de operar dentro de flujos reales.

Preguntas frecuentes

¿Qué es Claude Opus 4.8?
Claude Opus 4.8 es la nueva versión del modelo Opus de Anthropic, orientada a programación, razonamiento avanzado, uso de herramientas y tareas agénticas largas.

¿Qué mejora frente a Opus 4.7?
Según Anthropic, mejora en varios benchmarks de programación, razonamiento, uso de ordenador y análisis financiero, además de ser más fiable al reconocer errores e incertidumbres.

¿Qué son los dynamic workflows de Claude Code?
Son una función en vista previa que permite a Claude planificar tareas grandes, ejecutar múltiples subagentes en paralelo y verificar resultados antes de entregar una respuesta.

¿Cuánto cuesta Claude Opus 4.8?
El precio regular es de 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida. El modo rápido tiene una tarifa de 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida.