OpenAI acelera Codex con Cerebras: 1.000 tokens/segundo y un “plan B” real a NVIDIA
OpenAI ha dado un paso que, más allá del titular, puede tener consecuencias de fondo en el mercado de la inferencia: su nuevo gpt-5.3-codex-spark (una variante orientada a “trabajar en el momento”, con respuestas ultrarrápidas) se sirve sobre infraestructura de Cerebras. El mensaje es doble: por un lado, OpenAI pone el foco en la latencia como nueva obsesión del coding AI; por otro, deja caer que ya existe una segunda vía para ejecutar modelos a gran escala sin depender exclusivamente del ecosistema de NVIDIA. La noticia llega en un momento en el que los asistentes de programación compiten menos por “acertar” y más por sentirse inmediatos: el tiempo hasta el primer token (TTFT), la fluidez del streaming y la capacidad