7 enero 2026
Inteligencia artificial, Noticias
5 minutos de lectura

NVIDIA dibuja su hoja de ruta en CES 2026: Rubin, modelos abiertos y “memoria” para la IA agéntica

Silvia A. Feliz

NVIDIA aprovechó el arranque de CES 2026 en Las Vegas para presentar algo más ambicioso que un catálogo de productos: una visión de plataforma. Jensen Huang subió al escenario del Fontainebleau con un mensaje claro: la inteligencia artificial ya no es una capa más del software, sino el motor que está reconstruyendo el stack completo de computación, desde el silicio y la red hasta el almacenamiento y los modelos.

En ese marco, la compañía desplegó tres pilares que resumen su apuesta para los próximos años: Rubin, su nueva plataforma de IA “extreme-codesigned”; una estrategia de modelos abiertos por dominios; y una infraestructura pensada para la IA agéntica, donde el contexto —la “memoria” operativa— se convierte en un recurso crítico.

Rubin: la plataforma de seis chips que quiere abaratar el “precio por token”

El anuncio central fue NVIDIA Rubin, sucesora de Blackwell y presentada como la primera plataforma de IA de seis chips diseñada en codesign extremo. La idea es directa: cuando la IA escala a “gigascale”, ya no basta con fabricar una GPU más rápida; hay que diseñar de forma coordinada GPU, CPU, interconexión, red, DPUs, almacenamiento y software, porque los cuellos de botella se mueven.

Rubin se describe como una plataforma “construida desde el data center hacia fuera” y, en su composición, NVIDIA sitúa:

Rubin GPUs con 50 petaflops de inferencia en NVFP4.
Vera CPUs, orientadas al movimiento de datos y al procesamiento asociado a sistemas agénticos.
NVLink 6 para escala “scale-up”.
Spectrum-X Ethernet Photonics para “scale-out”.
ConnectX-9 SuperNICs y BlueField-4 DPUs como base de la conectividad y la aceleración de infraestructura.

El objetivo declarado por Huang es reducir drásticamente el coste de desplegar IA a gran escala: la plataforma, en conjunto, promete entregar tokens a aproximadamente una décima parte del coste de la generación anterior, empujando la economía de la IA hacia un terreno más “industrial” que experimental.

El nuevo problema de moda: el contexto y el KV cache

La lectura que hace NVIDIA de 2026 es que la IA va camino de dejar atrás el chatbot de “una respuesta” y abrazar sistemas que mantienen conversaciones largas, encadenan tareas, consultan herramientas y sostienen un historial —lo que hoy se entiende como IA agéntica.

Ahí aparece un cuello de botella que la industria está empezando a tratar como infraestructura de primer orden: el KV cache (key-value cache), esa memoria de contexto que permite a los modelos razonar sobre múltiples turnos sin perder coherencia.

NVIDIA insiste en un punto: el KV cache no puede vivir indefinidamente en la GPU sin penalizar la inferencia en tiempo real. Por eso, en paralelo a Rubin, la compañía presentó un concepto de almacenamiento nativo para IA: una capa específica para el contexto.

“AI-native storage”: una tier de memoria de contexto fuera de la GPU

Bajo el paraguas de BlueField-4, NVIDIA introdujo la Inference Context Memory Storage Platform, definida como una tier de KV cache para inferencia de contexto largo y agentes multi-turno.

La promesa —en cifras— es agresiva:

Hasta 5× más tokens por segundo,
hasta 5× mejor rendimiento por dólar de TCO,
y hasta 5× mejor eficiencia energética frente a almacenamiento tradicional.

Más allá de los multiplicadores, el mensaje estratégico es claro: si los agentes van a necesitar “memoria” compartida entre nodos y persistencia de contexto, el almacenamiento deja de ser un repositorio pasivo y pasa a convertirse en una pieza activa del rendimiento.

Modelos abiertos por dominios: Clara, Earth-2, Nemotron, Cosmos, GR00T y Alpamayo

La otra gran línea de la keynote fue la insistencia de NVIDIA en un catálogo de modelos abiertos entrenados sobre sus propios supercomputadores, organizados por dominios y pensados como una “base” reutilizable por empresas e индустрias.

La cartera citada abarca seis áreas:

Clara (salud)
Earth-2 (clima)
Nemotron (razonamiento y multimodalidad)
Cosmos (robótica y simulación)
GR00T (inteligencia “embodied”)
Alpamayo (conducción autónoma)

La narrativa que sostiene esta estrategia es que los modelos evolucionan con ciclos cada vez más cortos y que el ecosistema —descargas, adaptaciones, evaluación, “guardrails”— es parte del producto. NVIDIA se posiciona como “constructor de modelos de frontera”, pero con un enfoque “abierto” para que terceros puedan ajustar, evaluar y desplegar.

Alpamayo: razonamiento para la cola larga de la conducción autónoma

En el terreno de la automoción, Alpamayo se presenta como una familia de modelos VLA (visión-lenguaje-acción) con razonamiento orientados a resolver el gran enemigo del vehículo autónomo: la long tail, esos escenarios raros y difíciles que no aparecen con frecuencia en los datos.

Dentro del anuncio, NVIDIA destacó:

Alpamayo R1, como primer modelo VLA de razonamiento “abierto” para conducción autónoma.
AlpaSim, como blueprint de simulación abierta para pruebas de alta fidelidad.

En una de las afirmaciones más llamativas, Huang vinculó esta línea con una implementación en automoción de consumo: el primer vehículo de pasajeros con Alpamayo basado en la plataforma completa NVIDIA DRIVE aparecerá “pronto” en la carretera, en el nuevo Mercedes-Benz CLA, con “conducción definida por IA” llegando a EE. UU. este mismo año, y mencionando su reciente calificación de cinco estrellas en EuroNCAP.

La IA se “personaliza”: DGX Spark, agentes locales y robots de escritorio

Otra parte del guion buscó alejar la IA del imaginario exclusivo del centro de datos. Huang defendió que el futuro también es local y personal, con demos de agentes ejecutándose en el DGX Spark, “encarnados” en un robot (Reachy Mini) y utilizando modelos de Hugging Face.

NVIDIA añadió que DGX Spark ofrece hasta 2,6× de rendimiento para modelos grandes, con soporte para LTX-2 y FLUX en generación de imagen, y con disponibilidad futura de NVIDIA AI Enterprise para ese formato.

Gaming y creación: DLSS 4.5 y el ecosistema RTX como escaparate

Aunque CES es también show, NVIDIA no dejó fuera el escaparate clásico: juegos y creación. La compañía presentó DLSS 4.5, con Dynamic Multi Frame Generation, un nuevo modo 6X Multi Frame Generation y un transformer de segunda generación para DLSS Super Resolution.

También subrayó que más de 250 juegos y apps ya soportan DLSS 4, y citó varios títulos que lo incorporarán desde el lanzamiento (entre ellos 007 First Light, Phantom Blade Zero, PRAGMATA o Resident Evil Requiem). Hubo además menciones a RTX Remix Logic, a demostraciones de NVIDIA ACE y a nuevos despliegues de GeForce NOW en más dispositivos.

Preguntas frecuentes (FAQ)

¿Qué significa que Rubin sea una plataforma “extreme-codesigned” de seis chips?
Que NVIDIA diseña como un conjunto coordinado GPU, CPU, red, DPUs e interconexión para reducir cuellos de botella a escala de rack y bajar el coste total de entrenamiento e inferencia.

¿Por qué el KV cache se ha convertido en un problema de infraestructura?
Porque los agentes y los contextos largos generan grandes volúmenes de memoria de estado. Mantenerlo siempre en GPU limita la inferencia en tiempo real y encarece la operación, especialmente en sistemas multi-turno y multi-agente.

¿Qué pretende resolver el “AI-native storage” de NVIDIA?
Crear una capa específica para almacenar y compartir contexto (KV cache) fuera de la GPU con alta velocidad, orientada a aumentar tokens por segundo y mejorar eficiencia energética en inferencia de gran escala.

¿Qué es Alpamayo y por qué importa para el vehículo autónomo?
Es una familia de modelos y herramientas (incluida simulación y datasets) enfocada a razonamiento en escenarios raros (“long tail”), el gran reto para escalar la conducción autónoma con seguridad.

NVIDIA Live with CEO Jensen Huang

vía: Nvidia

X (Twitter) LinkedIn Facebook WhatsApp Telegram Email

CES 2026, jensen huang, NVIDIA, rubin

Silvia A. Feliz

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

LO ÚLTIMO

22/02/2026
Noticias

Intel recorta el soporte telefónico y apuesta por “Ask Intel”, un asistente con IA basado en Copilot Studio

22/02/2026
Inteligencia artificial, Noticias

GB300 acelera DeepSeek en contexto largo: LMSYS mide hasta un 1,53× más rendimiento que GB200

22/02/2026
Informes, Inteligencia artificial, Noticias

La Inteligencia Artificial ya está en la empresa… pero aún no se nota en la productividad

21/02/2026
Empresas, Noticias

Liberty Latin America firma una alianza de 5 años con AWS para acelerar nube, IA y edge con soberanía de datos