En plena carrera por escalar la IA agéntica (modelos capaces de encadenar tareas, razonar durante más tiempo y mantener conversaciones con contexto), NVIDIA ha puesto el foco en un problema muy concreto: la memoria de contexto. En CES, la compañía anunció que su BlueField-4 (un procesador de datos/DPU) será la pieza que impulse la NVIDIA Inference Context Memory Storage Platform, una propuesta de “almacenamiento nativo para IA” diseñada para inferencia a gran escala y para compartir contexto de forma rápida entre nodos.
El cuello de botella: el KV cache, la “memoria” que no cabe para siempre en la GPU
A medida que los modelos aumentan tamaño y, sobre todo, alargan el contexto (más turnos, más documentos, más pasos de razonamiento), crece el volumen de datos que el sistema necesita mantener “a mano” para responder con coherencia. Ese estado suele representarse como key-value cache (KV cache), esencial para continuidad, latencia y experiencia de usuario.
El problema, según NVIDIA, es que no es viable guardar ese KV cache en GPU a largo plazo sin convertir la inferencia en un atasco: la memoria de GPU es un recurso demasiado caro y limitado para convertirse también en almacén persistente del historial de múltiples agentes y sesiones.
La propuesta: “almacenamiento de memoria de contexto” para clusters de IA
La Inference Context Memory Storage Platform se presenta como una nueva capa de infraestructura para:
- Extender la “capacidad” de memoria útil más allá de la GPU (en términos de contexto).
- Compartir contexto a alta velocidad entre nodos dentro de clusters de sistemas “rack-scale”.
- Mejorar tokens por segundo y eficiencia energética “hasta 5x” frente a enfoques de almacenamiento tradicionales, siempre según estimaciones de la compañía.
En el discurso de NVIDIA, esto se traduce en agentes capaces de sostener conversaciones largas y trabajo multi-turno sin “olvidar” y sin penalizar tanto el rendimiento del clúster cuando hay muchos usuarios, muchos hilos o muchos agentes concurrentes.
Qué pinta BlueField-4 en todo esto (y por qué no es “solo red”)
BlueField no es una NIC convencional: NVIDIA lo encuadra en la categoría de DPUs y lo asocia al framework DOCA, con la idea de descargar, acelerar y aislar servicios de infraestructura (red, seguridad, almacenamiento) para entregar datos “a velocidad de cable” a las cargas de trabajo.
En esta plataforma concreta, NVIDIA afirma que BlueField-4 permite, entre otras cosas:
- Gestionar el “placement” del KV cache con aceleración por hardware para reducir sobrecargas de metadatos y movimiento de datos.
- Aislar accesos y reforzar controles de seguridad/segmentación en entornos multi-tenant.
- Integrarse con el software de la casa para exprimir latencia y throughput en inferencia agéntica.
La “tubería” software y el papel de Spectrum-X
El anuncio también liga la plataforma a componentes del stack de NVIDIA:
- DOCA como base de programación y aceleración.
- Integración con NIXL y Dynamo para maximizar tokens/segundo, reducir el time-to-first-token y mejorar la respuesta multi-turno.
- Spectrum-X Ethernet como tejido de red para acceso tipo RDMA a esa “memoria de contexto”.
La lectura entre líneas es clara: si la próxima ola de aplicaciones no va de “una pregunta, una respuesta”, sino de sistemas de agentes con memoria de corto y largo plazo, entonces el almacenamiento deja de ser un repositorio pasivo y pasa a convertirse en un componente activo del rendimiento.
Ecosistema: fabricantes y ‘storage players’ ya se están alineando
NVIDIA asegura que múltiples actores del mundo del almacenamiento y la infraestructura están construyendo plataformas de nueva generación alrededor de BlueField-4. En la lista aparecen nombres como Dell Technologies, HPE, IBM, Nutanix, Pure Storage, Supermicro, VAST Data, WEKA, además de especialistas como DDN o Cloudian, entre otros. La disponibilidad de BlueField-4 para este enfoque se sitúa en la segunda mitad de 2026.
Preguntas frecuentes (FAQ)
¿Qué es el KV cache y por qué se ha vuelto crítico en la IA agéntica?
El KV cache es el estado que el modelo mantiene para responder con continuidad y baja latencia en contextos largos y multi-turno. A medida que crecen los contextos y los agentes, ese estado se dispara y tensiona la memoria de GPU.
¿Qué aporta una DPU como NVIDIA BlueField frente a una arquitectura clásica con CPU + almacenamiento?
La idea es descargar y acelerar funciones de infraestructura (red/seguridad/almacenamiento) para reducir sobrecarga, mejorar aislamiento y mover datos con menos latencia hacia los nodos que ejecutan inferencia.
¿Esto sustituye a los sistemas de almacenamiento empresariales actuales?
Más que sustituirlos, NVIDIA lo plantea como una clase nueva orientada a un caso de uso específico: memoria de contexto para inferencia a gran escala (especialmente multi-agente y long-context).
¿Cuándo llegará al mercado la plataforma basada en BlueField-4?
NVIDIA sitúa la disponibilidad en la segunda mitad de 2026, con partners ya trabajando en productos alrededor del enfoque.
vía: nvidianews.nvidia