OpenAI ha presentado GPT-5.4 como su nuevo modelo de referencia para el trabajo profesional, la programación y los flujos complejos con agentes, en un movimiento que deja clara la dirección que está tomando la compañía: menos énfasis en la simple conversación y más foco en convertir sus modelos en herramientas capaces de ejecutar tareas reales con menos fricción, menos repeticiones y más precisión.
El lanzamiento ya se está desplegando en ChatGPT, en la API y en Codex. En ChatGPT aparece como GPT-5.4 Thinking, mientras que GPT-5.4 Pro queda reservado para quienes necesitan el máximo rendimiento en tareas especialmente exigentes. La idea de fondo no es menor. OpenAI quiere que su nuevo modelo sirva tanto para razonar como para programar, navegar por herramientas, manipular documentos, trabajar con hojas de cálculo, preparar presentaciones y mantener el contexto durante procesos largos. Dicho de otro modo: ya no se trata solo de responder bien, sino de hacer trabajo útil de principio a fin.
La compañía sostiene que GPT-5.4 reúne lo mejor de sus avances recientes en razonamiento, programación y flujos agenticos. También absorbe buena parte de las fortalezas de GPT-5.3-Codex, su modelo más orientado a la codificación, y las traslada a un sistema más generalista. Esa convergencia es una de las claves del anuncio, porque permite entender por qué OpenAI lo presenta no como una variante más, sino como el nuevo centro de gravedad de su ecosistema.
Uno de los aspectos más llamativos del lanzamiento es la ambición con la que OpenAI sitúa a GPT-5.4 en el terreno del trabajo profesional especializado. En GDPval, una evaluación que mide la capacidad de los agentes para generar productos de trabajo en 44 ocupaciones repartidas entre 9 grandes industrias, GPT-5.4 alcanza un 83,0 % de victorias o empates, frente al 70,9 % de GPT-5.2. El salto no es pequeño. Según OpenAI, el modelo iguala o supera a profesionales del sector en un porcentaje muy alto de comparativas, algo que refuerza la narrativa de que la Inteligencia Artificial ya no solo asiste, sino que empieza a participar en tareas con una estructura claramente laboral.
La mejora también se deja ver en ámbitos muy concretos. OpenAI asegura que GPT-5.4 ha sido afinado de forma especial para crear y editar hojas de cálculo, presentaciones y documentos. En una evaluación interna de modelización en hojas de cálculo similar a tareas propias de un analista júnior de banca de inversión, GPT-5.4 obtiene una media del 87,3 %, frente al 68,4 % de GPT-5.2. En presentaciones, además, evaluadores humanos prefirieron las generadas por GPT-5.4 el 68,0 % de las veces por su mejor estética, mayor variedad visual y un uso más eficaz de la generación de imágenes.
Para OpenAI, esta evolución no es solo una cuestión de calidad, sino también de eficiencia. GPT-5.4 se presenta como un modelo que consume menos tokens para resolver problemas que GPT-5.2, lo que debería traducirse en menor coste total en muchos flujos de trabajo, aunque el precio por token suba. En la API, GPT-5.4 cuesta 2,50 dólares por millón de tokens de entrada y 15 dólares por millón de tokens de salida en peticiones de hasta 272.000 tokens, mientras que GPT-5.4 Pro sube a 30 dólares de entrada y 180 dólares de salida. A partir de contextos superiores a 272.000 tokens, las tarifas aumentan, lo que confirma que el contexto largo sigue siendo una prestación muy poderosa, pero no precisamente barata.
Y precisamente ahí aparece otra de las grandes bazas del modelo: su ventana de contexto de hasta 1 millón de tokens. Esta capacidad está pensada para análisis de bases de código enteras, colecciones documentales extensas o tareas largas con múltiples pasos y verificaciones. No es solo una cifra llamativa para titulares. En la práctica, significa que los desarrolladores y equipos podrán plantear problemas mucho más amplios dentro de una sola interacción, algo especialmente relevante en agentes, auditorías, análisis documental y automatización empresarial.
GPT-5.4 también marca un cambio importante en el uso de ordenadores. OpenAI lo define como su primer modelo de propósito general con capacidades nativas para operar equipos y software. Esto permite a los agentes interactuar con aplicaciones, páginas web y entornos de escritorio mediante capturas de pantalla, teclado y ratón, tanto para ejecutar tareas como para validarlas y corregirlas si algo falla. En OSWorld-Verified, una de las pruebas utilizadas para medir ese comportamiento, GPT-5.4 alcanza un 75,0 % de éxito, superando no solo a GPT-5.2, que se quedaba en el 47,3 %, sino incluso al rendimiento humano de referencia, situado en el 72,4 %.
En programación, la compañía también presume de músculo. GPT-5.4 iguala o supera a GPT-5.3-Codex en SWE-Bench Pro, donde alcanza un 57,7 %, y mejora respecto a GPT-5.2 en varios indicadores ligados al uso de herramientas y a la ejecución de tareas reales. Además, OpenAI subraya que el modelo destaca especialmente en desarrollo front-end complejo, con resultados más pulidos tanto en lo visual como en lo funcional. No es casual que junto al lanzamiento haya presentado una skill experimental de Codex llamada “Playwright (Interactive)”, orientada a depurar visualmente aplicaciones web y de Electron mientras se desarrollan.
Otro frente clave está en la búsqueda y gestión de herramientas. OpenAI afirma que GPT-5.4 mejora su rendimiento en ecosistemas con muchas funciones, conectores o servidores MCP gracias a tool search, un sistema que evita cargar desde el inicio todas las definiciones de herramientas. En lugar de inundar el prompt con miles de tokens innecesarios, el modelo recibe una lista ligera y puede buscar la herramienta adecuada solo cuando la necesita. En una evaluación de 250 tareas con 36 servidores MCP habilitados, este enfoque redujo el uso total de tokens en un 47 % sin perder precisión. Es un dato relevante, porque anticipa agentes más rápidos, más baratos y más viables en entornos empresariales complejos.
También hay avances en fiabilidad. OpenAI asegura que GPT-5.4 es su modelo más preciso hasta la fecha y señala que, en un conjunto de prompts anonimizados donde los usuarios habían marcado errores fácticos, las afirmaciones individuales de GPT-5.4 fueron un 33 % menos propensas a ser falsas que las de GPT-5.2, mientras que las respuestas completas resultaron un 18 % menos propensas a contener algún error. No significa que las alucinaciones hayan desaparecido, pero sí que la empresa sigue intentando responder a una de las críticas más persistentes contra los modelos generativos.
En ChatGPT, una de las novedades más visibles será el llamado preámbulo de razonamiento. GPT-5.4 Thinking puede mostrar desde el inicio un plan o enfoque para resolver consultas largas y complejas, lo que permite al usuario corregir el rumbo a mitad de respuesta sin tener que reiniciar toda la conversación. OpenAI lo plantea como una forma de hacer el modelo más controlable y más útil en tareas prolongadas. Esa capacidad ya está disponible en la web de ChatGPT y en Android, y la compañía ha adelantado que llegará muy pronto a iOS.
En conjunto, GPT-5.4 no parece un simple relevo generacional. Lo que OpenAI ha presentado es un modelo pensado para consolidar una transición: de la Inteligencia Artificial que responde a la Inteligencia Artificial que trabaja. Todavía habrá que ver cómo se comporta fuera de las pruebas internas y los benchmarks oficiales, pero el mensaje de la empresa es inequívoco. El futuro inmediato de sus productos pasa por agentes que entiendan mejor, programen mejor, usen herramientas con más criterio, trabajen sobre documentos reales y mantengan el hilo durante procesos mucho más largos. Y GPT-5.4 es, desde ahora, la pieza central de esa estrategia.
Preguntas frecuentes
¿Qué es GPT-5.4 y por qué es importante para desarrolladores y empresas?
GPT-5.4 es el nuevo modelo de referencia de OpenAI para trabajo profesional, programación y agentes con uso de herramientas. Su importancia radica en que combina razonamiento, generación de código, contexto largo, uso del ordenador y mejor manejo de documentos, presentaciones y hojas de cálculo en un solo sistema.
¿Cuál es la diferencia entre GPT-5.4 Thinking y GPT-5.4 Pro en ChatGPT?
GPT-5.4 Thinking es la versión integrada en ChatGPT para usuarios Plus, Team y Pro, mientras que GPT-5.4 Pro está pensada para quienes necesitan el máximo rendimiento en tareas muy complejas. La versión Pro también está disponible en la API para cargas de trabajo más exigentes.
¿Para qué sirve una ventana de contexto de 1 millón de tokens en GPT-5.4?
Sirve para analizar bases de código grandes, conjuntos documentales extensos, flujos de trabajo largos y tareas con múltiples pasos sin tener que fragmentar tanto la información. Esto resulta especialmente útil en automatización, auditoría documental, análisis financiero, programación y agentes empresariales.
¿Cuánto cuesta usar GPT-5.4 en la API de OpenAI?
En la tarifa estándar para contextos de hasta 272.000 tokens, GPT-5.4 cuesta 2,50 dólares por millón de tokens de entrada, 0,25 dólares por entrada en caché y 15 dólares por millón de tokens de salida. GPT-5.4 Pro sube a 30 dólares por millón de tokens de entrada y 180 dólares por millón de tokens de salida.
vía: Noticias GPT 5.4