NVIDIA enfría Rubin CPX y reordena su estrategia de inferencia

NVIDIA parece estar reconsiderando el papel de Rubin CPX, el acelerador de inferencia que presentó en septiembre de 2025 como una pieza importante de la futura plataforma Vera Rubin. Según fuentes de la industria citadas por The Elec, la compañía no habría realizado pedidos ni movimientos de desarrollo vinculados a la memoria GDDR7 ni a los sustratos necesarios para este producto, pese a que inicialmente se esperaba su llegada en la segunda mitad de 2026.

La información no equivale a una cancelación oficial. NVIDIA no ha anunciado públicamente que Rubin CPX desaparezca. Pero la ausencia de pedidos en memoria y sustratos, unida a su desaparición del roadmap mostrado en GTC 2026, alimenta la lectura de que el producto ha sido cancelado, aplazado o rediseñado de forma profunda. En una compañía que planifica la cadena de suministro con mucha antelación, la falta de movimiento a estas alturas es una señal difícil de ignorar.

Rubin CPX tenía una función clara: atacar el mercado de inferencia de largo contexto con una arquitectura distinta a las GPU tradicionales de entrenamiento. En vez de usar HBM, la memoria de alto ancho de banda que domina los aceleradores de IA más caros, NVIDIA había anunciado una configuración con 128 GB de GDDR7. La elección no era casual. La inferencia no siempre necesita el mismo ancho de banda extremo que el entrenamiento, pero sí exige capacidad, coste controlado y menor consumo por operación.

De GDDR7 a SRAM: el cambio de prioridad

Cuando NVIDIA presentó Rubin CPX, lo describió como una nueva clase de GPU optimizada para inferencia de contexto masivo. La compañía hablaba de hasta 30 petaflops en precisión NVFP4, 128 GB de memoria GDDR7 y una mejora de hasta tres veces en capacidades de atención frente a sistemas GB300 NVL72. El mensaje era evidente: la IA agéntica, los contextos de millones de tokens y las aplicaciones de largo recorrido iban a necesitar un acelerador específico para procesar la fase inicial de contexto.

El plan tenía sentido sobre el papel. En una arquitectura de inferencia desagregada, una parte del sistema procesa el contexto de entrada y otra se concentra en la generación de tokens. Rubin CPX debía encargarse de esa primera fase, intensiva en cálculo y memoria, usando GDDR7 como alternativa más barata y fácil de escalar que la HBM.

El problema es que el mercado se ha movido muy rápido. En GTC 2026, NVIDIA colocó en el centro de su narrativa a Groq 3 LPX, una solución de baja latencia basada en LPUs con SRAM integrada. La propia página oficial de NVIDIA presenta Groq 3 LPX como el acelerador de inferencia para Vera Rubin, diseñado para sistemas agénticos con baja latencia, grandes ventanas de contexto y alto volumen de tokens.

ProductoMemoria principalEnfoqueEstado público
Rubin CPX128 GB GDDR7Inferencia de largo contexto y fase de contextoAnunciado en 2025, ausente en GTC 2026
Rubin GPUHBM4Cómputo principal en Vera RubinParte central de la plataforma
Groq 3 LPU / LPXSRAM + DDR5 en rackInferencia de muy baja latencia y alto throughputPromocionado por NVIDIA para Vera Rubin
GB300 NVL72HBM3E / BlackwellEntrenamiento e inferencia a gran escalaPlataforma previa de referencia

La diferencia técnica es importante. GDDR7 es más económica y más fácil de suministrar que HBM, pero sigue siendo memoria externa con más latencia que la SRAM integrada. Groq 3 LPU apuesta por una memoria mucho más pequeña, pero extremadamente rápida. Cada LPU incorpora 500 MB de SRAM con 150 TB/s de ancho de banda, y un rack LPX reúne 256 LPUs, 128 GB de SRAM total, 12 TB de DDR5 y 40 PB/s de ancho de banda de SRAM por rack, según los datos comunicados por NVIDIA.

En inferencia agéntica, donde muchos sistemas deben comunicarse entre sí, producir tokens con baja latencia y sostener interacciones entre agentes, esa arquitectura puede resultar más atractiva que un acelerador basado en GDDR7. No necesariamente para todos los usos, pero sí para el tipo de inferencia en tiempo real que NVIDIA quiere vender como siguiente frontera de las “AI factories”.

La señal de la cadena de suministro

El punto más revelador de la información de The Elec está en la cadena de suministro. Las fuentes consultadas por el medio aseguran que no hay pedidos ni solicitudes de desarrollo relacionadas con memoria GDDR7 para Rubin CPX, ni tampoco movimiento en sustratos. Un proveedor de memoria citado por el medio afirma que NVIDIA había indicado que Rubin CPX usaría GDDR7, pero que ahora no hay conversaciones activas sobre el proyecto.

Para fabricantes de memoria y sustratos, Rubin CPX podía abrir un nuevo mercado. Hoy GDDR7 se usa sobre todo en tarjetas gráficas de alto rendimiento, como las GeForce RTX 5090 y 5080. Un acelerador de inferencia para centros de datos habría ampliado mucho su campo de aplicación, con pedidos de gran volumen y un posicionamiento más allá del gaming o la estación de trabajo.

Si Rubin CPX se queda fuera, esa oportunidad se retrasa. La industria de memoria esperaba que GDDR7 encontrara un papel más amplio en IA, precisamente como alternativa intermedia entre DRAM convencional y HBM. La desaparición del producto del roadmap visible de NVIDIA reduce esa expectativa, al menos a corto plazo.

ImplicaciónPara quién importa
Menos demanda potencial de GDDR7 en IAFabricantes de memoria
Menos volumen para sustratos asociadosProveedores de empaquetado y PCB avanzados
Más peso de SRAM y LPUs en inferenciaNVIDIA y ecosistema Groq
Menos dependencia de un segundo tipo de memoria masivaPlanificación de plataforma Vera Rubin
Posible rediseño futuro de CPXClientes que esperaban una ruta GDDR7

La lectura industrial es sencilla: cuando no aparecen pedidos en memoria ni sustratos a pocos meses de una ventana de lanzamiento prevista, el producto rara vez sigue intacto. Puede haber versiones internas, rediseños, cambios de cliente o piezas fuera del roadmap público, pero el plan original queda en duda.

Inferencia: el nuevo campo de batalla

La posible retirada o revisión de Rubin CPX refleja un cambio más amplio en el mercado de IA. Durante la primera fase del boom, la prioridad fue entrenar modelos gigantes. Ahí las GPU con HBM dominaron con claridad. Ahora, la atención se desplaza hacia la inferencia: ejecutar modelos para millones de usuarios, agentes, asistentes de programación, búsqueda, voz, vídeo y automatización empresarial.

La inferencia tiene una economía distinta. No basta con tener el chip más potente; hay que entregar tokens baratos, rápidos y con baja latencia. Un modelo puede ser brillante, pero si responde tarde, consume demasiada energía o no escala económicamente, se convierte en un problema de negocio.

Por eso NVIDIA está ampliando su arquitectura. Vera Rubin ya no se presenta solo como una GPU más potente. Es una plataforma de varios chips: CPU Vera, GPU Rubin, NVLink, BlueField, ConnectX, Spectrum-X y ahora Groq 3 LPX como acelerador especializado para inferencia. La compañía intenta mantener su control sobre el sistema completo, incluso cuando el cuello de botella se desplaza desde el entrenamiento hacia la generación de tokens en tiempo real.

El movimiento también responde a la presión competitiva. Cerebras, Groq antes de su integración tecnológica con NVIDIA, ASICs de hiperescalares y nuevas arquitecturas especializadas han insistido en que las GPU tradicionales no son siempre la mejor solución para inferencia de baja latencia. NVIDIA parece haber aceptado parte de esa crítica, no abandonando sus GPU, sino rodeándolas de aceleradores complementarios.

Qué significa para clientes y competidores

Para los grandes clientes cloud, la duda sobre Rubin CPX puede tener efectos prácticos. Algunas arquitecturas de inferencia habían empezado a considerar una división entre chips optimizados para contexto y chips optimizados para generación. Si CPX se retrasa o desaparece, la planificación puede girar hacia LPX, Rubin estándar u otros aceleradores internos.

Para los competidores, el mensaje es mixto. Por un lado, la posible cancelación de Rubin CPX muestra que incluso NVIDIA ajusta su hoja de ruta cuando el mercado cambia o cuando una tecnología alternativa encaja mejor. Por otro, la integración de Groq 3 LPX en Vera Rubin refuerza la capacidad de NVIDIA para absorber o incorporar ideas que podrían haber amenazado su dominio.

Para proveedores de memoria, la noticia es menos favorable. La IA ha disparado la demanda de HBM, pero GDDR7 necesitaba una puerta de entrada clara en centros de datos para justificar una expansión más amplia. Rubin CPX parecía esa puerta. Si se cierra, GDDR7 seguirá creciendo en gráficos de alto rendimiento, pero tardará más en convertirse en una memoria relevante para inferencia de IA a gran escala.

NVIDIA puede estar haciendo una elección pragmática. En vez de sostener dos caminos de inferencia en paralelo, uno basado en GDDR7 y otro en SRAM mediante LPUs, parece priorizar la ruta que mejor encaja con baja latencia, agentes y rendimiento por megavatio. Si esa apuesta funciona, Rubin CPX quedará como una transición abortada. Si no funciona del todo, NVIDIA podría recuperar el concepto más adelante con otra forma, otra memoria o una generación posterior.

El mercado de inferencia acaba de entrar en una fase más dura. Ya no se trata solo de ejecutar modelos. Se trata de hacerlo con coste, latencia y eficiencia suficientes para que los agentes puedan funcionar a escala. Rubin CPX prometía ser una respuesta. Groq 3 LPX parece haber ocupado ahora ese lugar.

Preguntas frecuentes

¿NVIDIA ha cancelado oficialmente Rubin CPX?
No. NVIDIA no ha anunciado una cancelación oficial. La duda surge por la ausencia del producto en el roadmap de GTC 2026 y por la falta de pedidos de memoria y sustratos citada por fuentes de la industria.

¿Qué era Rubin CPX?
Era una GPU de inferencia anunciada por NVIDIA para cargas de largo contexto, con 128 GB de memoria GDDR7 y hasta 30 petaflops en precisión NVFP4.

¿Por qué importa el cambio hacia Groq 3 LPX?
Porque LPX usa LPUs con SRAM de muy baja latencia, una arquitectura más enfocada a inferencia agéntica, alto volumen de tokens y sistemas multiagente en tiempo real.

¿Qué impacto tiene para GDDR7?
Si Rubin CPX no llega al mercado como estaba previsto, GDDR7 pierde una oportunidad importante para expandirse más allá de tarjetas gráficas de alto rendimiento hacia centros de datos de IA.

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

Las últimas novedades de tecnología y cloud

Suscríbete gratis al boletín de Revista Cloud. Cada semana la actualidad en tu buzón.

Suscripción boletín
×