OpenAI ha dado un paso que, más allá del titular, puede tener consecuencias de fondo en el mercado de la inferencia: su nuevo gpt-5.3-codex-spark (una variante orientada a “trabajar en el momento”, con respuestas ultrarrápidas) se sirve sobre infraestructura de Cerebras. El mensaje es doble: por un lado, OpenAI pone el foco en la latencia como nueva obsesión del coding AI; por otro, deja caer que ya existe una segunda vía para ejecutar modelos a gran escala sin depender exclusivamente del ecosistema de NVIDIA.
La noticia llega en un momento en el que los asistentes de programación compiten menos por “acertar” y más por sentirse inmediatos: el tiempo hasta el primer token (TTFT), la fluidez del streaming y la capacidad de mantener un diálogo técnico sin pausas se han convertido en la frontera real del producto. Y ahí, OpenAI cree haber encontrado una ventaja tangible con Cerebras.
¿Qué es exactamente Codex-Spark y por qué importa?
Según OpenAI, Codex-Spark está diseñado para tareas de programación con una experiencia más cercana a un pair programmer: respuestas que llegan antes, más continuidad en el streaming y menos “microcortes” cuando el modelo va generando código y explicaciones. La compañía asegura que, con esta variante:
- Reduce el tiempo hasta el primer token en torno a un 50% (TTFT).
- Puede alcanzar hasta ~1.000 tokens por segundo en salida en escenarios favorables (algo clave para edición rápida y bucles de prueba/corrección).
- Mantiene contexto largo (OpenAI lo posiciona para sesiones intensas de programación y herramientas).
En otras palabras: no es solo “otro modelo”, sino una apuesta por interactividad extrema. Esto encaja con el giro del mercado hacia flujos agentic (herramientas, llamadas a funciones, pruebas automáticas, navegación, etc.), donde la latencia mata la productividad más que un pequeño punto de precisión extra.
La pieza clave: ¿qué aporta Cerebras en inferencia?
Cerebras lleva años defendiendo que su enfoque wafer-scale (un chip del tamaño de una oblea completa) no es solo una excentricidad de laboratorio, sino una arquitectura con ventajas prácticas cuando el cuello de botella es memoria y movimiento de datos, no solo FLOPS.
Para el caso de WSE-3 (Wafer-Scale Engine 3), los números que se manejan son llamativos en la parte “in-chip”:
| Parámetro | Cerebras WSE-3 (referencias públicas) |
|---|---|
| Transistores | ~4 billones |
| Núcleos | ~900.000 |
| Memoria on-chip | ~44 GB |
| Ancho de banda de memoria | ~21 PB/s (según especificaciones del clúster) |
Ese diseño apunta a un objetivo: minimizar cuellos de botella internos y sostener una cadencia de tokens muy alta con baja latencia. En modelos orientados a programación —donde hay patrones repetitivos, edición iterativa y necesidad de respuesta inmediata— este tipo de ventaja puede traducirse en una experiencia más “humana”: menos espera y más continuidad.
¿Significa esto que NVIDIA pierde el trono? No tan rápido
Es tentador venderlo como un “sorpasso”, pero lo más probable es que sea —de momento— un movimiento pragmático:
- NVIDIA sigue dominando el stack (software, ecosistema, disponibilidad, integración con OEMs, etc.) y la economía de la inferencia a gran escala, especialmente en batching y despliegues generalistas.
- Lo que OpenAI parece estar diciendo es otra cosa: para ciertos productos (como un Copilot de código ultrarrápido), el problema principal no es solo el coste por token, sino el tiempo de respuesta y la sensación de inmediatez.
Dicho de forma sencilla: la industria está descubriendo que la inferencia no es un único mercado. Hay inferencia “barata” (alto throughput en lotes) y hay inferencia “instantánea” (baja latencia, interacción constante). Y no siempre gana la misma arquitectura.
Por qué esto puede cambiar el juego en producto (más que en benchmarks)
En programación, cada segundo cuenta, pero no por capricho: un asistente que responde al instante permite:
- Iteraciones más cortas: proponer → aplicar → testear → corregir.
- Agentes más útiles: si el agente llama herramientas, busca, ejecuta pruebas y vuelve, la latencia acumulada decide si se usa o se abandona.
- Menos fricción cognitiva: cuando el flujo se interrumpe, el desarrollador “pierde contexto” y el supuesto aumento de productividad se desinfla.
Si OpenAI logra que Codex-Spark sea consistentemente más ágil, no es solo una mejora técnica: es una mejora psicológica y operativa. Y eso, en producto, suele ser decisivo.
Lectura estratégica: diversificación y poder de negociación
Que OpenAI mencione explícitamente a Cerebras como infraestructura para una pieza visible de su catálogo sugiere también una lectura industrial:
- Resiliencia de suministro: menos dependencia de un único proveedor en un mercado donde el stock y la capacidad de cómputo siguen siendo un arma competitiva.
- Opciones reales: aunque NVIDIA siga siendo dominante, una segunda plataforma viable en producción mejora la posición de cualquier gran comprador.
- Segmentación por workloads: entrenar, servir chat generalista, servir coding interactivo… pueden acabar viviendo en “islas” de hardware distintas.
No es casualidad que el discurso público de la inferencia esté migrando hacia conceptos como TTFT, streaming overhead, “latency-sensitive workloads” y optimización del camino completo (red + runtime + hardware). El valor ya no está solo en el modelo: está en cómo se despliega.
Lo que conviene vigilar a partir de ahora
Si esto se consolida, hay tres señales claras a seguir durante 2026:
- Adopción por más productos: si Codex-Spark es un caso aislado o el primero de varios.
- Reacción del ecosistema GPU: mejoras específicas para latencia token-a-token y TTFT en escenarios interactivos.
- Más “hardware alternativo” en inferencia: ASICs, GPUs no-NVIDIA y arquitecturas especializadas buscando el hueco donde la experiencia de usuario pesa más que el throughput bruto.
vía: wccftech