OpenAI acelera Codex con Cerebras: 1.000 tokens/segundo y un “plan B” real a NVIDIA

Antonio

OpenAI ha dado un paso que, más allá del titular, puede tener consecuencias de fondo en el mercado de la inferencia: su nuevo gpt-5.3-codex-spark (una variante orientada a “trabajar en el momento”, con respuestas ultrarrápidas) se sirve sobre infraestructura de Cerebras. El mensaje es doble: por un lado, OpenAI pone el foco en la latencia como nueva obsesión del coding AI; por otro, deja caer que ya existe una segunda vía para ejecutar modelos a gran escala sin depender exclusivamente del ecosistema de NVIDIA.

La noticia llega en un momento en el que los asistentes de programación compiten menos por “acertar” y más por sentirse inmediatos: el tiempo hasta el primer token (TTFT), la fluidez del streaming y la capacidad de mantener un diálogo técnico sin pausas se han convertido en la frontera real del producto. Y ahí, OpenAI cree haber encontrado una ventaja tangible con Cerebras.

¿Qué es exactamente Codex-Spark y por qué importa?

Según OpenAI, Codex-Spark está diseñado para tareas de programación con una experiencia más cercana a un pair programmer: respuestas que llegan antes, más continuidad en el streaming y menos “microcortes” cuando el modelo va generando código y explicaciones. La compañía asegura que, con esta variante:

Reduce el tiempo hasta el primer token en torno a un 50% (TTFT).
Puede alcanzar hasta ~1.000 tokens por segundo en salida en escenarios favorables (algo clave para edición rápida y bucles de prueba/corrección).
Mantiene contexto largo (OpenAI lo posiciona para sesiones intensas de programación y herramientas).

En otras palabras: no es solo “otro modelo”, sino una apuesta por interactividad extrema. Esto encaja con el giro del mercado hacia flujos agentic (herramientas, llamadas a funciones, pruebas automáticas, navegación, etc.), donde la latencia mata la productividad más que un pequeño punto de precisión extra.

La pieza clave: ¿qué aporta Cerebras en inferencia?

Cerebras lleva años defendiendo que su enfoque wafer-scale (un chip del tamaño de una oblea completa) no es solo una excentricidad de laboratorio, sino una arquitectura con ventajas prácticas cuando el cuello de botella es memoria y movimiento de datos, no solo FLOPS.

Para el caso de WSE-3 (Wafer-Scale Engine 3), los números que se manejan son llamativos en la parte “in-chip”:

Parámetro	Cerebras WSE-3 (referencias públicas)
Transistores	~4 billones
Núcleos	~900.000
Memoria on-chip	~44 GB
Ancho de banda de memoria	~21 PB/s (según especificaciones del clúster)

Ese diseño apunta a un objetivo: minimizar cuellos de botella internos y sostener una cadencia de tokens muy alta con baja latencia. En modelos orientados a programación —donde hay patrones repetitivos, edición iterativa y necesidad de respuesta inmediata— este tipo de ventaja puede traducirse en una experiencia más “humana”: menos espera y más continuidad.

¿Significa esto que NVIDIA pierde el trono? No tan rápido

Es tentador venderlo como un “sorpasso”, pero lo más probable es que sea —de momento— un movimiento pragmático:

NVIDIA sigue dominando el stack (software, ecosistema, disponibilidad, integración con OEMs, etc.) y la economía de la inferencia a gran escala, especialmente en batching y despliegues generalistas.
Lo que OpenAI parece estar diciendo es otra cosa: para ciertos productos (como un Copilot de código ultrarrápido), el problema principal no es solo el coste por token, sino el tiempo de respuesta y la sensación de inmediatez.

Dicho de forma sencilla: la industria está descubriendo que la inferencia no es un único mercado. Hay inferencia “barata” (alto throughput en lotes) y hay inferencia “instantánea” (baja latencia, interacción constante). Y no siempre gana la misma arquitectura.

Por qué esto puede cambiar el juego en producto (más que en benchmarks)

En programación, cada segundo cuenta, pero no por capricho: un asistente que responde al instante permite:

Iteraciones más cortas: proponer → aplicar → testear → corregir.
Agentes más útiles: si el agente llama herramientas, busca, ejecuta pruebas y vuelve, la latencia acumulada decide si se usa o se abandona.
Menos fricción cognitiva: cuando el flujo se interrumpe, el desarrollador “pierde contexto” y el supuesto aumento de productividad se desinfla.

Si OpenAI logra que Codex-Spark sea consistentemente más ágil, no es solo una mejora técnica: es una mejora psicológica y operativa. Y eso, en producto, suele ser decisivo.

Lectura estratégica: diversificación y poder de negociación

Que OpenAI mencione explícitamente a Cerebras como infraestructura para una pieza visible de su catálogo sugiere también una lectura industrial:

Resiliencia de suministro: menos dependencia de un único proveedor en un mercado donde el stock y la capacidad de cómputo siguen siendo un arma competitiva.
Opciones reales: aunque NVIDIA siga siendo dominante, una segunda plataforma viable en producción mejora la posición de cualquier gran comprador.
Segmentación por workloads: entrenar, servir chat generalista, servir coding interactivo… pueden acabar viviendo en “islas” de hardware distintas.

No es casualidad que el discurso público de la inferencia esté migrando hacia conceptos como TTFT, streaming overhead, “latency-sensitive workloads” y optimización del camino completo (red + runtime + hardware). El valor ya no está solo en el modelo: está en cómo se despliega.

Lo que conviene vigilar a partir de ahora

Si esto se consolida, hay tres señales claras a seguir durante 2026:

Adopción por más productos: si Codex-Spark es un caso aislado o el primero de varios.
Reacción del ecosistema GPU: mejoras específicas para latencia token-a-token y TTFT en escenarios interactivos.
Más “hardware alternativo” en inferencia: ASICs, GPUs no-NVIDIA y arquitecturas especializadas buscando el hueco donde la experiencia de usuario pesa más que el throughput bruto.

vía: wccftech

X (Twitter) LinkedIn Facebook WhatsApp Telegram Email

Cerebras, codex, NVIDIA, OpenAI

Antonio

Escribiendo sobre robótica, cloud computing, inteligencia artificial, y tecnología en general.

encuentra artículos

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

LO ÚLTIMO

13/02/2026
Inteligencia artificial, Noticias

OpenAI acelera Codex con Cerebras: 1.000 tokens/segundo y un “plan B” real a NVIDIA

13/02/2026
Noticias

SK hynix acelera su expansión de HBM4 con una nueva línea de empaquetado y test en Cheongju

13/02/2026
Guías y recursos

Mbox Viewer: el lector macOS que convierte tu backup de Gmail en un archivo consultable al instante

13/02/2026
Noticias

Los centros de datos de Amazon en Europa chocan con un nuevo muro: la cola eléctrica

OpenAI acelera Codex con Cerebras: 1.000 tokens/segundo y un “plan B” real a NVIDIA

¿Qué es exactamente Codex-Spark y por qué importa?

La pieza clave: ¿qué aporta Cerebras en inferencia?

¿Significa esto que NVIDIA pierde el trono? No tan rápido

Por qué esto puede cambiar el juego en producto (más que en benchmarks)

Lectura estratégica: diversificación y poder de negociación

Lo que conviene vigilar a partir de ahora

Antonio

encuentra artículos

newsletter

LO ÚLTIMO

OpenAI acelera Codex con Cerebras: 1.000 tokens/segundo y un “plan B” real a NVIDIA

SK hynix acelera su expansión de HBM4 con una nueva línea de empaquetado y test en Cheongju

Mbox Viewer: el lector macOS que convierte tu backup de Gmail en un archivo consultable al instante

Los centros de datos de Amazon en Europa chocan con un nuevo muro: la cola eléctrica

Las últimas novedades de tecnología y cloud