NVIDIA quiere convertir los centros de datos en fábricas de IA

NVIDIA está intentando cambiar el lenguaje de toda la industria del centro de datos. Ya no habla solo de GPU, servidores o clústeres acelerados, sino de “AI factories”: fábricas de inteligencia artificial diseñadas para producir tokens de forma continua, como una planta industrial produce electricidad, acero o componentes. La metáfora es comercial, pero ayuda a entender un cambio real: la IA ya no puede tratarse como una capa de software que se ejecuta sobre infraestructura genérica.

En la visión de NVIDIA, una fábrica de IA convierte energía en inteligencia. La unidad de producción no es una pieza física, sino el token que genera un modelo al razonar, responder, escribir código, coordinar agentes o ejecutar una tarea. Por eso las métricas que importan empiezan a parecerse más a las de una industria pesada que a las de una aplicación SaaS: tokens por segundo, tokens por vatio, coste por token, utilización de la infraestructura y disponibilidad.

La inferencia ya no es una consulta aislada

El gran cambio está en la carga de trabajo. La IA generativa empezó para muchos usuarios como una caja de texto: se escribe una pregunta, el modelo responde y la interacción termina. La IA agéntica rompe ese esquema. Un agente puede planificar, buscar información, llamar a herramientas, leer documentos, escribir código, consultar bases de datos, crear subagentes y tomar decisiones encadenadas.

Eso convierte la inferencia en un proceso más largo, más interactivo y más difícil de orquestar. Ya no basta con tener una GPU potente esperando una petición. Hay que coordinar memoria, almacenamiento, red, CPU, software, colas de trabajo y servicios externos para que todo el flujo avance sin esperas innecesarias.

NVIDIA lo plantea como un problema de pila completa. Los modelos necesitan cómputo acelerado, pero también memoria rápida, almacenamiento para contexto, red de baja latencia para coordinar servicios y software capaz de mantener alta la utilización de todo el sistema. Si una capa se queda atrás, el coste por token sube y la experiencia empeora.

MétricaQué mide en una fábrica de IA
Tokens por segundoCapacidad de producir respuestas y acciones
Tokens por vatioEficiencia energética del sistema
Coste por tokenViabilidad económica de la inferencia a escala
UtilizaciónGrado de aprovechamiento de GPU, CPU, memoria y red
UptimeContinuidad de la producción de IA
LatenciaTiempo de respuesta en agentes y aplicaciones interactivas

Esta lectura tiene consecuencias para cualquier empresa que quiera desplegar IA en serio. El debate ya no se limita a elegir un modelo. Hay que decidir dónde se ejecuta, cuánto cuesta cada interacción, qué latencia se acepta, cómo se mantiene el contexto, qué datos se recuperan y cuánta energía consume la infraestructura.

Los datos que explican la nueva economía del token

NVIDIA sitúa a Blackwell Ultra y los sistemas GB300 NVL72 como una respuesta a esa nueva economía. Según la compañía, estos sistemas pueden generar 50 veces más tokens por megavatio que la generación Hopper y reducir el coste por token 35 veces. Son cifras facilitadas por NVIDIA y deben leerse dentro de su propio marco comparativo, pero muestran hacia dónde se mueve la competencia: producir más inteligencia con menos energía.

La compañía también destaca NVIDIA Dynamo, un framework orientado a orquestar inferencia de largo contexto y grandes volúmenes de solicitudes. En una fábrica de IA, el software decide buena parte de la economía. Debe enrutar peticiones, gestionar memoria, equilibrar latencia y throughput, coordinar servicios y evitar que el hardware caro quede esperando.

Dato relevanteCifra comunicadaPor qué importa
GB300 NVL72 frente a Hopper50 veces más tokens por megavatioMide la mejora de producción de IA por unidad de energía
GB300 NVL72 frente a Hopper35 veces menor coste por tokenImpacta directamente en la rentabilidad de la inferencia
Vera Rubin con LPXHasta 35 veces más rendimiento por vatioApunta a la siguiente generación de IA agéntica y razonamiento
Vera CPU88 núcleos OlympusRefuerza el papel de la CPU en agentes, runtimes y orquestación
Ancho de banda de memoria de VeraHasta 1,2 TB/sAyuda a sostener cargas con mucha presión sobre memoria
Vera frente a Grace, según Phoronix1,6 veces más rendimiento medio geométricoMuestra un salto generacional relevante en CPU de centro de datos
Vera frente a un x86 de 128 núcleos, según NVIDIA1,5 veces más rendimiento globalSitúa a ARM como rival más serio en infraestructura de IA
Compilación de kernel Linux en Vera20 segundosEjemplo práctico de rendimiento en cargas de desarrollo

La siguiente etapa es Vera Rubin. NVIDIA afirma que esta plataforma, junto con LPX, está diseñada para elevar de nuevo el rendimiento por vatio en cargas de razonamiento e IA agéntica. El mensaje es claro: la empresa quiere que la conversación pase de “qué GPU compro” a “qué fábrica de IA puedo operar al menor coste por token”.

Esta estrategia también protege a NVIDIA frente a una competencia cada vez más especializada. ASICs, chips de inferencia, LPUs, TPUs y aceleradores a medida intentan atacar zonas concretas del mercado con mejores costes o latencias. NVIDIA responde ampliando el campo: no vende solo el chip, sino la arquitectura completa.

La CPU vuelve al centro de la infraestructura de IA

La fábrica de IA no se construye solo con GPU. NVIDIA está empujando también Vera, su nueva CPU de centro de datos basada en núcleos Olympus propios y arquitectura Armv9.2. El mensaje técnico es interesante porque los agentes no solo ejecutan operaciones matriciales sobre aceleradores. También compilan código, lanzan entornos aislados, procesan datos, gestionan runtimes, coordinan herramientas, ejecutan Python o Java y consultan bases de datos.

Según los primeros resultados publicados por Phoronix y recogidos por NVIDIA, Vera ofrece 88 núcleos Olympus, 176 hilos, hasta 1,2 TB/s de ancho de banda de memoria LPDDR5X, 164 MB de caché L3 unificada, soporte PCIe Gen 6 y CXL 3.1. El chip probado tenía un TDP máximo de 450 W y la memoria LPDDR5X se mueve en torno a 50 W o menos, según Phoronix.

Característica de NVIDIA VeraDato técnico
ArquitecturaArmv9.2
Núcleos88 Olympus
Hilos176
Ancho de banda de memoriaHasta 1,2 TB/s
Caché L22 MB por núcleo
Caché L3 unificada164 MB
ConectividadPCIe Gen 6 y CXL 3.1
TDP del socket probado450 W
Consumo de memoria indicado en pruebasEn torno a 50 W o menos
Disponibilidad previstaSegunda mitad del año, a través de socios

El dato de memoria es especialmente importante. Las cargas agénticas no se limitan al número de núcleos. Necesitan mantener muchos procesos paralelos con buen acceso a memoria y latencias consistentes. NVIDIA afirma que Vera sostiene el 90 % de su pico de ancho de banda en la prueba STREAM TRIAD y que ofrece más de 4 veces el ancho de banda por núcleo frente a CPUs x86 tradicionales. Es una forma clara de atacar uno de los cuellos de botella clásicos del centro de datos: mover datos rápido sin disparar el consumo.

Diseñar antes de construir

Las fábricas de IA no se pueden improvisar. Un centro de datos tradicional podía escalar añadiendo servidores, más almacenamiento o nuevas cabinas. En IA, la densidad de potencia, la refrigeración líquida, las interconexiones, el reparto de cargas y la alimentación eléctrica obligan a diseñar el sistema como una unidad.

NVIDIA habla de codiseño extremo: hardware, red, memoria, almacenamiento, software, energía y refrigeración pensados juntos desde el inicio. También menciona sus diseños de referencia DSX y el uso de gemelos digitales con Omniverse DSX Blueprint para modelar instalaciones, equipos, refrigeración y operaciones antes del despliegue real.

Esto es especialmente relevante en proyectos de cientos de megavatios o incluso gigavatios. Un error en el diseño eléctrico o térmico puede limitar durante años la capacidad de crecimiento de una instalación. La IA no perdona malgastar energía, espacio o refrigeración, porque cada ineficiencia se traduce en tokens más caros.

Capa de la fábrica de IAPor qué importa
Cómputo aceleradoEjecuta modelos, razonamiento e inferencia
CPUCoordina agentes, runtimes, procesos y servicios
RedConecta miles de aceleradores y sistemas
MemoriaAlimenta modelos, contextos largos y cargas paralelas
AlmacenamientoMantiene datos, vectores, checkpoints y estado
SoftwareOrquesta cargas y maximiza utilización
EnergíaLimita el tamaño económico del despliegue
RefrigeraciónPermite operar densidades altas sin degradación

NVIDIA también quiere llevar esta arquitectura más allá de los hiperescalares. Cita colaboraciones con Cisco, Dell, HPE, Lenovo y Supermicro para acercar infraestructuras de IA a centros de datos empresariales. La idea es que una fábrica de IA pueda empezar con una carga concreta de negocio y escalar después hacia usos más amplios.

Empresas que construyen o alquilan inteligencia

La afirmación más ambiciosa de NVIDIA es que toda organización necesitará construir o alquilar una fábrica de IA. No todas lo harán con infraestructura propia. Muchas recurrirán a cloud, neoclouds, proveedores de colocation o plataformas gestionadas. Pero la tesis tiene sentido si la IA pasa de ser una herramienta ocasional a convertirse en una capa permanente de trabajo.

Una entidad financiera puede usar agentes para análisis de riesgo, cumplimiento, atención interna y desarrollo de software. Una farmacéutica puede apoyarse en IA para simulación, documentación científica y descubrimiento de moléculas. Una industria puede usar agentes para mantenimiento, planificación, robótica y diseño. En todos esos casos, la pregunta de fondo será la misma: cómo producir inteligencia de forma segura, eficiente y constante.

La parte menos cómoda de esta visión es su dimensión energética. Si una fábrica de IA convierte electricidad en tokens, la energía se convierte en materia prima de la inteligencia artificial. Eso obliga a mirar el coste, el origen de la electricidad, la eficiencia térmica y la disponibilidad de potencia con la misma seriedad que antes se miraban las licencias de software.

La próxima etapa de la IA no se decidirá solo por modelos más capaces. También por quién pueda servirlos con menor coste por token, menor consumo por respuesta y mayor disponibilidad. NVIDIA quiere que esa batalla se juegue en una arquitectura que controla de extremo a extremo: GPU, CPU, red, software, sistemas, socios y diseño de centros de datos.

La nube prometía abstraer la infraestructura. La IA la vuelve a hacer visible. Detrás de cada agente que razona, cada asistente que programa y cada modelo que responde hay una fábrica física produciendo tokens sin descanso.

Preguntas frecuentes

¿Qué entiende NVIDIA por fábrica de IA?
Una infraestructura diseñada para producir tokens de forma continua mediante modelos, agentes, cómputo acelerado, CPU, red, memoria, almacenamiento, software, energía y refrigeración coordinados como un único sistema.

¿Por qué el coste por token es tan importante?
Porque determina si una empresa puede escalar IA de forma rentable. Cuanto menor sea el coste por token, más viable resulta usar modelos y agentes en procesos masivos.

¿Qué papel tiene la CPU Vera?
Vera está pensada para las tareas CPU-heavy de la IA agéntica: compilar código, coordinar agentes, ejecutar runtimes, procesar datos, consultar bases de datos y mantener servicios funcionando en paralelo.

¿Todas las empresas tendrán que construir su propia fábrica de IA?
No. Algunas la construirán por escala, seguridad o soberanía. Otras alquilarán capacidad en cloud, neoclouds o proveedores especializados. Lo importante será controlar coste, rendimiento, seguridad y disponibilidad.

vía: phoronix y blogs.nvidia

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

Las últimas novedades de tecnología y cloud

Suscríbete gratis al boletín de Revista Cloud. Cada semana la actualidad en tu buzón.

Suscripción boletín
×