NVIDIA ha aprovechado el escaparate de CES en Las Vegas para marcar el inicio de su siguiente gran plataforma de computación para Inteligencia Artificial. Se llama Rubin, en homenaje a la astrónoma Vera Florence Cooper Rubin, y llega con un mensaje que la compañía repite como idea fuerza: la demanda de cómputo para entrenamiento e inferencia “se está disparando” y, con ella, el coste de llevar modelos avanzados a producción. La respuesta, sostiene NVIDIA, es una arquitectura diseñada como un todo: seis chips nuevos que funcionan como un único superordenador de IA.
La plataforma Rubin se apoya en un concepto que la empresa denomina “códiseño extremo”: CPU, GPU, red, seguridad, operaciones y almacenamiento evolucionan de forma coordinada para que el sistema no se rompa por sus cuellos de botella habituales. En la práctica, Rubin reúne la CPU NVIDIA Vera, la GPU NVIDIA Rubin, el switch NVLink 6, la SuperNIC ConnectX-9, la DPU BlueField-4 y el switch Ethernet Spectrum-6. Y lo hace con un objetivo concreto: reducir de forma drástica el tiempo de entrenamiento y, sobre todo, el coste por token en inferencia, justo cuando los modelos se vuelven más largos, más multimodales y más “agénticos”.
Del “GPU-centrismo” a la fábrica de IA
Durante años, la conversación pública sobre infraestructura de IA se ha resumido en una palabra: GPU. Rubin intenta desplazar el foco hacia un enfoque más industrial: la “fábrica de IA”, donde importan tanto los aceleradores como el tejido de red, la seguridad del dato, la resiliencia del sistema y la eficiencia energética.
Jensen Huang, fundador y consejero delegado de NVIDIA, situó el anuncio en ese punto: Rubin llega “en el momento adecuado”, con una cadencia anual de nuevas generaciones de “superordenadores de IA”, y con una integración entre chips que busca dar un salto hacia “la próxima frontera” del sector.
El listón que pone la compañía es ambicioso: hasta 10 veces menos coste por token en inferencia frente a Blackwell y la posibilidad de entrenar modelos Mixture-of-Experts (MoE) con cuatro veces menos GPUs que en la generación anterior, según sus cifras. El enfoque está pensado para cargas que ya son el pan de cada día en laboratorios y grandes plataformas: razonamiento de múltiples pasos, memoria más larga, agentes que ejecutan acciones y generación de vídeo a gran escala.
Dos formatos para distintos perfiles: NVL72 y HGX NVL8
Rubin no se presenta como una pieza aislada, sino como sistemas completos. NVIDIA destaca dos formas principales:
- NVIDIA Vera Rubin NVL72, una solución “rack-scale” que integra 72 GPUs Rubin, 36 CPUs Vera, NVLink 6, ConnectX-9, BlueField-4 y Spectrum-6.
- NVIDIA HGX Rubin NVL8, una plataforma de servidor que enlaza 8 GPUs Rubin mediante NVLink y está orientada a entornos generativos basados en x86, además de cargas de HPC y computación científica.
El mensaje implícito es que no todas las organizaciones entrarán a la era Rubin con el mismo tamaño ni el mismo grado de integración. Para algunas, un diseño de placa con ocho GPUs será el paso razonable; para otras, el objetivo será operar racks como unidades coherentes de memoria y cómputo.
Cinco innovaciones para una IA más cara de “romper”
NVIDIA afirma que Rubin introduce cinco avances clave que apuntan directamente a los problemas que aparecen cuando se escala: comunicación entre GPUs, eficiencia, seguridad, mantenimiento y rendimiento estable en producción.
- NVLink de sexta generación: cada GPU ofrece 3,6 TB/s de ancho de banda y el rack NVL72 llega a 260 TB/s agregados. La compañía lo describe como un volumen de ancho de banda superior al de “todo Internet”, en una comparación pensada para ilustrar magnitudes. Además, el switch NVLink 6 incorpora cómputo “dentro de la red” para acelerar operaciones colectivas, junto con mejoras de servicio y resiliencia.
- CPU NVIDIA Vera: diseñada para razonamiento agéntico y eficiencia energética, con 88 núcleos personalizados Olympus, compatibilidad completa con Armv9.2 y conectividad NVLink-C2C para enlazar CPU y GPU con gran ancho de banda.
- GPU NVIDIA Rubin: incorpora un Transformer Engine de tercera generación con compresión adaptativa acelerada por hardware y entrega 50 petaflops de cómputo NVFP4 para inferencia, según la compañía.
- Confidential Computing de tercera generación: el sistema NVL72 se presenta como el primer despliegue “rack-scale” que extiende esta protección de datos y cargas de trabajo a través de dominios de CPU, GPU y NVLink, una pieza pensada para proteger modelos propietarios y operaciones sensibles.
- RAS Engine de segunda generación: con chequeos de salud en tiempo real, tolerancia a fallos y mantenimiento proactivo. NVIDIA también destaca un diseño modular de bandejas “sin cables” que busca acelerar montaje y servicio respecto a Blackwell.
El conjunto apunta a una obsesión: cuando se trabaja con clusters masivos, el problema rara vez es que falten FLOPS; el problema es que el sistema completo no aguanta el ritmo de operación, ni de despliegue, ni de mantenimiento, ni de seguridad.
El “contexto” como nuevo cuello de botella: almacenamiento nativo para inferencia
Uno de los anuncios más reveladores de Rubin no está en la GPU, sino en el almacenamiento. NVIDIA presentó la Inference Context Memory Storage Platform, una nueva categoría de infraestructura pensada para escalar algo que se ha vuelto crítico con los modelos modernos: el contexto de inferencia.
En modelos de razonamiento y agentes, la conversación no es un único prompt. Son múltiples turnos, sesiones largas, usuarios concurrentes y tareas encadenadas. En ese escenario, cobra peso el key-value cache, que permite reutilizar estados intermedios del modelo y evitar recomputación.
Según NVIDIA, esta plataforma —impulsada por BlueField-4 como “procesador de almacenamiento”— permite compartir y reutilizar ese caché entre infraestructuras, mejorando capacidad de respuesta y rendimiento, y facilitando una escalabilidad más predecible y eficiente en consumo para IA agéntica.
Aquí la DPU juega un papel doble. Además de mover datos, BlueField-4 introduce ASTRA (Advanced Secure Trusted Resource Architecture), un enfoque de “confianza” a nivel de sistema que busca dar a los operadores un punto central para aprovisionar, aislar y gestionar entornos multi-tenant y bare-metal sin sacrificar rendimiento. Es un guiño directo a un mercado que mezcla nubes públicas, “neoclouds” y plataformas corporativas con modelos de despliegue cada vez más fragmentados.
Ethernet fotónico y 800 Gb/s: la red como catalizador, no como freno
Rubin también pone el foco en la red como componente crítico para sostener cargas “east-west” (entre servidores) típicas de IA. El Ethernet Spectrum-6 se presenta como la siguiente generación de conectividad para fábricas de IA, con SerDes de 200G, ópticas co-empaquetadas y tejidos optimizados.
Sobre esa base, NVIDIA destaca Spectrum-X Ethernet Photonics con óptica co-empaquetada: la compañía habla de hasta 10 veces más fiabilidad, hasta 5 veces más tiempo de actividad y hasta 5 veces mejor eficiencia energética que enfoques tradicionales, buscando maximizar el rendimiento por vatio.
El objetivo no es solo velocidad, sino también convertir instalaciones separadas por cientos de kilómetros en un único entorno lógico mediante tecnologías como Spectrum-XGS, de modo que centros de datos distribuidos funcionen como si fuesen una misma fábrica de IA.
Además, NVIDIA describe una suite de conectividad extremo a extremo de 800 Gb/s con dos caminos: Quantum-X800 InfiniBand (para clusters dedicados con latencia mínima) y Spectrum-X Ethernet (para escalar con protocolos Ethernet estándar, optimizados para IA). En InfiniBand, la compañía subraya el uso de SHARP v4 y enrutamiento adaptativo para descargar operaciones colectivas al propio tejido de red.
DGX SuperPOD: el plano para escalar Rubin
Para aterrizar Rubin en un diseño de referencia, NVIDIA refuerza el papel de DGX SuperPOD como “blueprint” de despliegue. La versión basada en DGX Vera Rubin NVL72 unifica ocho sistemas NVL72 para sumar 576 GPUs Rubin, con una cifra de rendimiento declarada de 28,8 exaflops FP4 y 600 TB de memoria rápida. Cada NVL72 integra 36 CPUs Vera, 72 GPUs Rubin y 18 DPUs BlueField-4, y el rack se presenta como un motor coherente que reduce la necesidad de partir modelos.
Existe también una variante con DGX Rubin NVL8: 64 sistemas que reúnen 512 GPUs y que, en palabras de NVIDIA, facilitan una “rampa de acceso” a Rubin con refrigeración líquida y CPUs x86. La empresa afirma que cada DGX Rubin NVL8 ofrece 5,5 veces más FLOPS NVFP4 que sistemas Blackwell equivalentes.
En operación, NVIDIA Mission Control se posiciona como capa de orquestación y gestión para automatizar despliegues, integrar eventos de potencia y refrigeración, mejorar resiliencia y acelerar respuestas, con funciones como detección rápida de fugas y recuperación autónoma.
Ecosistema y calendario: segunda mitad de 2.026
Rubin no se vende como un salto en solitario. NVIDIA listó una amplia base de adopción esperada, desde proveedores de nube y laboratorios de IA hasta fabricantes de servidores. En la nube, la compañía cita despliegues de instancias basadas en Rubin en 2.026 por parte de AWS, Google Cloud, Microsoft y Oracle Cloud Infrastructure, además de socios de nube como CoreWeave, Lambda, Nebius y Nscale.
Microsoft, en particular, aparece como pieza estratégica: sus futuras “superfactorías” de IA Fairwater incluirán sistemas Vera Rubin NVL72 y escalarán a cientos de miles de “superchips”, según NVIDIA. CoreWeave, por su parte, figura entre los primeros en ofrecer Rubin y lo operará mediante Mission Control, con la idea de integrar arquitecturas lado a lado sin interrumpir cargas en producción.
La colaboración también se extiende al software empresarial: Red Hat anunció una ampliación de su trabajo con NVIDIA para ofrecer una pila optimizada para Rubin con Red Hat Enterprise Linux, Red Hat OpenShift y Red Hat AI, apuntando al mercado corporativo que busca industrializar proyectos de IA más allá del laboratorio.
Preguntas frecuentes
¿Qué es NVIDIA Rubin y por qué se describe como “seis chips, un superordenador de IA”?
Rubin es una plataforma “rack-scale” que integra CPU, GPU, interconexión NVLink, red, DPU y SuperNIC como un sistema diseñado de forma conjunta, con el objetivo de reducir costes de inferencia y acelerar entrenamiento a gran escala.
¿Qué diferencia hay entre Vera Rubin NVL72 y HGX Rubin NVL8 para desplegar modelos de IA?
NVL72 es un sistema completo a escala de rack con 72 GPUs y 36 CPUs integrado para operar como un motor coherente; HGX NVL8 es una plataforma de servidor con 8 GPUs enlazadas por NVLink, pensada para integrarse en infraestructuras x86 y escalar de forma más tradicional.
¿Para qué sirve la Inference Context Memory Storage Platform y por qué importa en IA agéntica?
Busca acelerar y escalar el “contexto” de inferencia (como el key-value cache) que se reutiliza en sesiones y razonamiento multi-turno, mejorando capacidad de respuesta y rendimiento al compartir ese estado entre infraestructuras.
¿Cuándo llegarán los sistemas basados en Rubin y qué proveedores planean ofrecerlos en la nube?
NVIDIA indica que Rubin está en producción y que los productos basados en esta plataforma estarán disponibles a través de socios en la segunda mitad de 2.026, incluyendo despliegues previstos por grandes nubes como AWS, Google Cloud, Microsoft y OCI, además de socios como CoreWeave.
vía: nvidianews.nvidia