NVIDIA Rubin CPX: la nueva GPU que inaugura la era de la inferencia con contextos masivos

Nota de Prensa

La inteligencia artificial no se detiene, y con ella tampoco el desarrollo de hardware capaz de sostener modelos cada vez más complejos y exigentes. NVIDIA ha presentado Rubin CPX, una GPU que no solo supone una evolución respecto a generaciones previas, sino que inaugura una categoría distinta dentro del ecosistema CUDA: los procesadores para inferencia de contexto masivo.

La compañía asegura que Rubin CPX permitirá a los sistemas de IA trabajar con ventanas de contexto de hasta un millón de tokens, algo impensable hace apenas dos años, y que tendrá un impacto directo en dos áreas de alto crecimiento: la asistencia a la programación y la generación de vídeo multimodal.

Una nueva categoría en el hardware de IA

NVIDIA describe a Rubin CPX como el primer GPU CUDA creado para sostener contextos de escala masiva, en los que un modelo no procesa unas pocas miles de unidades de información, sino cientos de miles o incluso millones.

Esto abre la puerta a que los copilotos de programación no se limiten a generar fragmentos de código, sino que comprendan proyectos enteros: repositorios completos, documentación acumulada y hasta históricos de interacciones. En paralelo, aplicaciones de vídeo —desde buscadores semánticos hasta generación cinematográfica— podrán procesar una hora de contenido en un solo contexto, algo que requiere del orden de un millón de tokens.

Para conseguirlo, Rubin CPX integra aceleradores de atención de largo alcance, códecs de vídeo y un diseño de silicio centrado en eficiencia energética y alto rendimiento. Según NVIDIA, la nueva GPU ofrece hasta 30 petaflops en precisión NVFP4, incorpora 128 GB de memoria GDDR7 optimizada en costes y triplica la capacidad de atención de los sistemas GB300 NVL72.

Vera Rubin NVL144 CPX: un rack con 8 exaflops de IA

El lanzamiento no se limita a la GPU. Rubin CPX se estrena dentro de la plataforma NVIDIA Vera Rubin NVL144 CPX, un sistema que combina CPUs Vera, GPUs Rubin y los nuevos procesadores CPX en una configuración capaz de alcanzar 8 exaflops de IA en un solo rack.

A esto se suman 100 TB de memoria rápida y 1,7 petabytes por segundo de ancho de banda de memoria, lo que representa un salto de 7,5 veces más rendimiento frente a generaciones anteriores. Para quienes ya operan sistemas NVL144, NVIDIA ofrecerá también una bandeja de cómputo CPX, pensada para ampliar capacidades sin reemplazar toda la infraestructura.

Jensen Huang: “La IA de contexto masivo marca la próxima frontera”

En la presentación, el consejero delegado de NVIDIA, Jensen Huang, comparó este lanzamiento con otros hitos de la compañía:

“Así como RTX revolucionó los gráficos y la IA física, Rubin CPX es la primera GPU CUDA pensada para la IA contextual masiva. Los modelos ya no trabajan con miles de tokens, sino con millones, y esto exige una arquitectura completamente nueva”.

Con esta estrategia, la empresa busca responder a un mercado que se mueve rápidamente hacia ventanas de contexto de seis o siete cifras, tanto en modelos de lenguaje como en aplicaciones multimodales.

De la investigación al negocio: la métrica del “ingreso por token”

Más allá de las especificaciones técnicas, NVIDIA enfatiza un ángulo económico. La compañía estima que los sistemas basados en Rubin CPX pueden generar 5.000 millones de dólares en ingresos por tokens por cada 100 millones de inversión en infraestructura.

La cifra depende, obviamente, de factores como el precio de mercado por token o el tipo de modelo usado. Sin embargo, envía un mensaje claro: el hardware puede ser un multiplicador directo del negocio en plataformas de IA que facturan en función de tokens procesados, ya sea en copilotos de código, buscadores de vídeo o asistentes multimodales.

Primeros casos de uso: software, cine y agentes autónomos

Distintas empresas han adelantado cómo Rubin CPX impactará en sus productos:

Cursor, un editor de código impulsado por IA, asegura que Rubin CPX les permitirá ofrecer generación de código ultrarrápida y agentes que comprendan bases de software completas, mejorando la colaboración entre humanos y máquinas.
Runway, especializada en IA generativa de vídeo, ve en esta GPU la posibilidad de trabajar con formatos más largos y con flujos agentizados, dotando a los creadores de mayor control y realismo en sus producciones.
Magic, compañía que desarrolla modelos para agentes de ingeniería de software, afirma que con ventanas de 100 millones de tokens sus sistemas pueden acceder a años de histórico de interacciones, librerías y documentación sin necesidad de reentrenar, acercando la idea de agentes autónomos de programación.

Estos ejemplos muestran un patrón común: el salto de escala. Rubin CPX no busca mejorar en un 10 o 20% los flujos existentes, sino habilitar cargas de trabajo que antes eran directamente inviables.

Ecosistema de software: Dynamo, Nemotron y NIM

Como es habitual en NVIDIA, el lanzamiento llega acompañado de una pila de software que facilita la adopción:

NVIDIA Dynamo: plataforma de inferencia escalable para reducir latencias y costes.
Modelos Nemotron™: familia multimodal diseñada para ofrecer razonamiento avanzado en agentes de empresa.
NVIDIA AI Enterprise: distribución que incluye microservicios NIM™, bibliotecas y frameworks listos para producción en nubes, centros de datos y estaciones de trabajo aceleradas.
CUDA-X™: con más de 6 millones de desarrolladores y cerca de 6.000 aplicaciones, sigue siendo la base del ecosistema.

La idea es clara: que los clientes puedan pasar de prototipos a producción sin fricciones, aprovechando las capacidades de Rubin CPX con el software que ya conocen.

Disponibilidad y hoja de ruta

NVIDIA prevé que Rubin CPX esté disponible a finales de 2026. El plazo da margen a los hiperescaladores y grandes corporaciones para planificar su despliegue y ajustar sus arquitecturas de datos.

Mientras tanto, la compañía seguirá ampliando la familia Rubin y reforzando la integración con sus plataformas de red, como Quantum-X800 InfiniBand y Spectrum-X Ethernet, con el objetivo de ofrecer opciones tanto para HPC clásico como para entornos cloud basados en Ethernet.

Implicaciones para la industria

El anuncio de Rubin CPX lanza un doble mensaje al mercado:

Tecnológico: la frontera ya no está en aumentar parámetros, sino en expandir el contexto que un modelo puede manejar en tiempo real.
Económico: el valor se medirá en tokens útiles procesados con latencias competitivas y costes asumibles. Quien logre optimizar esa ecuación tendrá ventaja en el negocio de agentes y asistentes generativos.

Rubin CPX busca ser la pieza central de esa ecuación, ofreciendo tanto el músculo técnico como el marco económico para que los despliegues de IA a gran escala resulten rentables.

Conclusión

Con Rubin CPX, NVIDIA no solo lanza una nueva GPU, sino que propone un cambio de paradigma: pasar de medir el rendimiento en FLOPS a medirlo en tokens procesados dentro de contextos gigantescos.

En un momento en el que la demanda de IA crece de manera exponencial y los casos de uso se vuelven más sofisticados, esta apuesta coloca a la compañía en el centro de la conversación sobre el futuro de la inferencia de IA.

Preguntas frecuentes (FAQ)

¿Qué es NVIDIA Rubin CPX?
Es una nueva GPU diseñada para inferencias con contextos masivos, capaz de manejar hasta millones de tokens en aplicaciones de código y vídeo.

¿Qué especificaciones técnicas destacan?
Rubin CPX alcanza 30 petaflops NVFP4, integra 128 GB de GDDR7, ofrece atención 3 veces más rápida que generaciones previas y forma parte de la plataforma Vera Rubin NVL144 CPX con 8 exaflops de IA en un solo rack.

¿Qué aplicaciones se beneficiarán más?
Los asistentes de programación que necesitan analizar bases de código completas, la generación y búsqueda de vídeo multimodal, y los agentes autónomos que operan sobre grandes volúmenes de información.

¿Cuándo estará disponible?
NVIDIA espera lanzar Rubin CPX a finales de 2026, con soporte completo en su pila de software de IA.

vía: nvidianews.nvidia