OpenAI ha presentado GPT-5.2, su nueva familia de modelos de inteligencia artificial, con un mensaje claro al mercado tecnológico: la compañía quiere que la IA deje de ser solo un asistente conversacional y se convierta en una pieza central del trabajo profesional, especialmente allí donde hay hojas de cálculo complejas, código de producción, documentos largos y flujos de trabajo encadenados con múltiples herramientas.
La nueva generación llega en tres variantes —Instant, Thinking y Pro— y se despliega primero en los planes de pago de ChatGPT (Plus, Pro, Business y Enterprise), además de estar ya disponible en la API para desarrolladores bajo las referencias gpt-5.2, gpt-5.2-chat-latest y gpt-5.2-pro.
De chatbot a “trabajador del conocimiento” asistido por IA
OpenAI lleva meses apoyándose en GDPval, una batería de pruebas diseñada para simular tareas reales de 44 ocupaciones de trabajo del conocimiento: desde banca de inversión hasta marketing, pasando por derecho, recursos humanos o análisis de negocio.
En ese entorno, GPT-5.2 Thinking se convierte en el primer modelo de la casa que, según la propia compañía, iguala o supera de forma consistente a profesionales humanos en la mayoría de comparaciones. En torno a un 70,9 % de las veces, el modelo empata o gana frente a expertos evaluados por jueces independientes, produciendo artefactos completos: presentaciones, hojas de cálculo, informes estructurados o planes de proyecto.
Más allá del porcentaje, el discurso de OpenAI gira en torno a la eficiencia: para esas mismas tareas, GPT-5.2 Thinking habría producido resultados más de once veces más rápido y a menos del 1 % del coste de un profesional, siempre bajo la premisa de supervisión humana antes del resultado final.
En un banco de pruebas interno orientado a modelos financieros típicos de analistas junior —por ejemplo, montar los tres estados financieros de una empresa cotizada o un modelo de compra apalancada—, el salto frente a GPT-5.1 ronda los 9 puntos porcentuales, hasta una media del 68,4 %.
Motor de código: mejor rendimiento en SWE-Bench y front-end
La ingeniería de software es otro de los frentes donde GPT-5.2 quiere diferenciarse. En SWE-Bench Pro, una evaluación que plantea incidencias reales sobre repositorios de proyectos de distintos lenguajes, GPT-5.2 Thinking resuelve más de la mitad de los casos planteados y marca un nuevo máximo interno. En la versión Verified de SWE-Bench, centrada en Python, la tasa de aciertos alcanza el 80 %.
En el uso cotidiano, esto se traduce en un modelo más fiable para:
- depurar errores en bases de código grandes,
- implementar pequeñas funcionalidades a partir de tickets,
- refactorizar módulos existentes,
- y proponer pull requests razonables con menos intervención manual.
OpenAI subraya también mejoras en desarrollo front-end: interfaces complejas, diseños poco convencionales e incluso componentes 3D se gestionan mejor que en GPT-5.1, lo que apunta a un papel más relevante para GPT-5.2 como copiloto de ingenieros full stack.
Otro dato relevante para el sector es la reducción de “alucinaciones”: en un conjunto de consultas reales anonimizadas de ChatGPT, las respuestas incorrectas habrían caído cerca de un 38 % en términos relativos frente a la generación anterior. Es decir, sigue habiendo errores, pero menos que antes.
Contexto masivo y visión más robusta
Una de las principales barreras prácticas de los modelos actuales es el contexto: cuánto texto pueden tener “en la cabeza” a la vez sin perder información ni empezar a confundirse. GPT-5.2 Thinking mejora de forma notable en las pruebas internas MRCRv2, donde OpenAI mide la capacidad de localizar y combinar “agujas” de información dispersas en documentos muy extensos.
En escenarios con cientos de miles de tokens, el modelo mantiene una precisión alta y, en ciertas variantes concretas, se acerca al 100 % de acierto, lo que abre la puerta a:
- análisis completos de informes corporativos, contratos, memorias técnicas o papers científicos largos,
- síntesis de proyectos con muchos archivos y versiones,
- y flujos de trabajo profesionales donde se combinan varias fuentes de datos en una sola sesión.
Para ir más allá de la ventana estándar, GPT-5.2 Thinking se integra con un nuevo endpoint de la API (Responses /compact) que extiende de forma efectiva el contexto manejable mediante técnicas de compresión y uso de herramientas.
En visión, la mejora va en dos direcciones: menos errores en gráficos, paneles e interfaces, y mayor comprensión de la disposición espacial de elementos. El modelo es más preciso identificando y etiquetando regiones en imágenes técnicas (como una placa base) o pantallas de software complejas, algo relevante para depuración visual, soporte al usuario, análisis de producto o documentación interactiva.
Herramientas, agentes y flujos de varios pasos
GPT-5.2 también llega con mejoras específicas en el uso de herramientas externas, un punto clave para la tendencia hacia agentes de IA que ejecutan tareas de principio a fin.
En pruebas como Tau2-Bench o BrowseComp, orientadas a escenarios de varios turnos con llamadas a APIs, el modelo gestiona mejor la secuencia de pasos, mantiene el contexto entre interacciones y reduce errores de coordinación. OpenAI muestra ejemplos donde GPT-5.2 tramita un caso complejo de atención al cliente (vuelos retrasados, conexiones perdidas, necesidades médicas especiales) gestionando reprogramaciones, asientos y compensaciones de forma más completa que GPT-5.1.
Para aplicaciones empresariales, esto apunta a:
- asistentes capaces de orquestar múltiples sistemas internos,
- automatización de procesos de back office,
- y agentes que colaboran en flujos largos sin perder el hilo.
Los modelos GPT-5.2 Thinking y GPT-5.2 Pro admiten además un nuevo nivel de razonamiento “xhigh” en la API, pensado para tareas donde se prioriza la calidad por encima del coste o la latencia.
Ciencia, matemáticas y razonamiento abstracto
En el terreno académico, GPT-5.2 refuerza la narrativa de la IA como herramienta para acelerar investigación:
- En GPQA Diamond, evaluación de preguntas científicas a nivel de posgrado, GPT-5.2 Pro supera el 93 % de aciertos, con GPT-5.2 Thinking muy cerca.
- En FrontierMath, un conjunto de problemas avanzados de matemáticas, GPT-5.2 Thinking marca un nuevo máximo de la casa en los niveles 1-3.
- En ARC-AGI, pruebas orientadas a medir razonamiento abstracto y capacidad de generalización, los resultados superan con margen a los de GPT-5.1, especialmente en la segunda versión, más exigente y mejor aislada de posibles contaminaciones de entrenamiento.
OpenAI menciona ya casos concretos donde GPT-5.2 Pro habría contribuido a formular pruebas en teoría del aprendizaje estadístico, posteriormente revisadas y validadas por investigadores humanos, como ejemplo de colaboración estrecha entre modelos y científicos.
Seguridad, salud mental y protección de menores
En paralelo a la mejora de capacidades, la compañía insiste en el refuerzo de salvaguardas. GPT-5.2 se apoya en la línea de “finalización segura” introducida en GPT-5, que busca maximizar utilidad sin traspasar límites de seguridad predefinidos.
Según los datos publicados, los nuevos modelos:
- responden mejor en contextos de salud mental, suicidio y autolesión,
- reducen el riesgo de fomentar dependencia emocional del sistema,
- y aplican más filtros en contenidos sensibles.
OpenAI está empezando a desplegar un sistema de predicción de edad para aplicar protecciones adicionales a usuarios menores de 18 años, con el objetivo de limitar la exposición a determinados tipos de contenido, siempre dentro de un esquema de controles parentales.
La propia compañía reconoce, no obstante, que GPT-5.2 sigue siendo imperfecto y recomienda verificar de forma independiente cualquier información crítica antes de tomar decisiones relevantes.
Precios, disponibilidad y posición en el catálogo
Para usuarios de ChatGPT, el acceso a GPT-5.2 no implica cambios de precio: los planes de suscripción se mantienen, pero la disponibilidad de los modelos se irá activando de forma gradual. GPT-5.1 permanecerá accesible durante unos meses en la interfaz antes de ser retirado de los planes de pago.
En la API, el salto generacional sí viene acompañado de un incremento de tarifa:
- GPT-5.2 Thinking / Chat-latest se factura a 1,75 dólares por 1 M de tokens de entrada y 14 dólares por 1 M de salida, con un fuerte descuento en entradas cacheadas.
- GPT-5.2 Pro eleva la cifra hasta 21 dólares por 1 M de tokens de entrada y 168 dólares por 1 M de salida.
GPT-5.1, GPT-5 y GPT-4.1 seguirán disponibles en la API sin cambios inmediatos, lo que permite a empresas y desarrolladores elegir entre coste, rendimiento y latencia en función del caso de uso.
Un mensaje al sector: menos demo, más producción
Con GPT-5.2, OpenAI envía un mensaje directo al ecosistema tecnológico: los grandes modelos ya no se presentan solo con ejemplos llamativos, sino con baterías de métricas pensadas para convencer a departamentos de TI, equipos de datos y responsables de negocio.
La combinación de mejor rendimiento en tareas profesionales, más contexto, mejor integración de herramientas y un empuje adicional en seguridad coloca a GPT-5.2 como candidato natural para proyectos de automatización avanzada, copilotos especializados y asistentes corporativos.
El reto, como siempre, estará fuera del modelo: cómo lo integran las empresas en sus sistemas, qué datos le dan, qué límites definen y cuánto margen dejan a la IA frente al criterio humano en cada decisión. GPT-5.2 amplía el abanico de lo que la tecnología puede hacer; el uso responsable marcará la diferencia entre un salto de productividad real y un simple cambio de número de versión.