NVIDIA está intentando cambiar el lenguaje de toda la industria del centro de datos. Ya no habla solo de GPU, servidores o clústeres acelerados, sino de “AI factories”: fábricas de inteligencia artificial diseñadas para producir tokens de forma continua, como una planta industrial produce electricidad, acero o componentes. La metáfora es comercial, pero ayuda a entender un cambio real: la IA ya no puede tratarse como una capa de software que se ejecuta sobre infraestructura genérica.
En la visión de NVIDIA, una fábrica de IA convierte energía en inteligencia. La unidad de producción no es una pieza física, sino el token que genera un modelo al razonar, responder, escribir código, coordinar agentes o ejecutar una tarea. Por eso las métricas que importan empiezan a parecerse más a las de una industria pesada que a las de una aplicación SaaS: tokens por segundo, tokens por vatio, coste por token, utilización de la infraestructura y disponibilidad.
La inferencia ya no es una consulta aislada
El gran cambio está en la carga de trabajo. La IA generativa empezó para muchos usuarios como una caja de texto: se escribe una pregunta, el modelo responde y la interacción termina. La IA agéntica rompe ese esquema. Un agente puede planificar, buscar información, llamar a herramientas, leer documentos, escribir código, consultar bases de datos, crear subagentes y tomar decisiones encadenadas.
Eso convierte la inferencia en un proceso más largo, más interactivo y más difícil de orquestar. Ya no basta con tener una GPU potente esperando una petición. Hay que coordinar memoria, almacenamiento, red, CPU, software, colas de trabajo y servicios externos para que todo el flujo avance sin esperas innecesarias.
NVIDIA lo plantea como un problema de pila completa. Los modelos necesitan cómputo acelerado, pero también memoria rápida, almacenamiento para contexto, red de baja latencia para coordinar servicios y software capaz de mantener alta la utilización de todo el sistema. Si una capa se queda atrás, el coste por token sube y la experiencia empeora.
| Métrica | Qué mide en una fábrica de IA |
|---|---|
| Tokens por segundo | Capacidad de producir respuestas y acciones |
| Tokens por vatio | Eficiencia energética del sistema |
| Coste por token | Viabilidad económica de la inferencia a escala |
| Utilización | Grado de aprovechamiento de GPU, CPU, memoria y red |
| Uptime | Continuidad de la producción de IA |
| Latencia | Tiempo de respuesta en agentes y aplicaciones interactivas |
Esta lectura tiene consecuencias para cualquier empresa que quiera desplegar IA en serio. El debate ya no se limita a elegir un modelo. Hay que decidir dónde se ejecuta, cuánto cuesta cada interacción, qué latencia se acepta, cómo se mantiene el contexto, qué datos se recuperan y cuánta energía consume la infraestructura.
Los datos que explican la nueva economía del token
NVIDIA sitúa a Blackwell Ultra y los sistemas GB300 NVL72 como una respuesta a esa nueva economía. Según la compañía, estos sistemas pueden generar 50 veces más tokens por megavatio que la generación Hopper y reducir el coste por token 35 veces. Son cifras facilitadas por NVIDIA y deben leerse dentro de su propio marco comparativo, pero muestran hacia dónde se mueve la competencia: producir más inteligencia con menos energía.
La compañía también destaca NVIDIA Dynamo, un framework orientado a orquestar inferencia de largo contexto y grandes volúmenes de solicitudes. En una fábrica de IA, el software decide buena parte de la economía. Debe enrutar peticiones, gestionar memoria, equilibrar latencia y throughput, coordinar servicios y evitar que el hardware caro quede esperando.
| Dato relevante | Cifra comunicada | Por qué importa |
|---|---|---|
| GB300 NVL72 frente a Hopper | 50 veces más tokens por megavatio | Mide la mejora de producción de IA por unidad de energía |
| GB300 NVL72 frente a Hopper | 35 veces menor coste por token | Impacta directamente en la rentabilidad de la inferencia |
| Vera Rubin con LPX | Hasta 35 veces más rendimiento por vatio | Apunta a la siguiente generación de IA agéntica y razonamiento |
| Vera CPU | 88 núcleos Olympus | Refuerza el papel de la CPU en agentes, runtimes y orquestación |
| Ancho de banda de memoria de Vera | Hasta 1,2 TB/s | Ayuda a sostener cargas con mucha presión sobre memoria |
| Vera frente a Grace, según Phoronix | 1,6 veces más rendimiento medio geométrico | Muestra un salto generacional relevante en CPU de centro de datos |
| Vera frente a un x86 de 128 núcleos, según NVIDIA | 1,5 veces más rendimiento global | Sitúa a ARM como rival más serio en infraestructura de IA |
| Compilación de kernel Linux en Vera | 20 segundos | Ejemplo práctico de rendimiento en cargas de desarrollo |
La siguiente etapa es Vera Rubin. NVIDIA afirma que esta plataforma, junto con LPX, está diseñada para elevar de nuevo el rendimiento por vatio en cargas de razonamiento e IA agéntica. El mensaje es claro: la empresa quiere que la conversación pase de “qué GPU compro” a “qué fábrica de IA puedo operar al menor coste por token”.
Esta estrategia también protege a NVIDIA frente a una competencia cada vez más especializada. ASICs, chips de inferencia, LPUs, TPUs y aceleradores a medida intentan atacar zonas concretas del mercado con mejores costes o latencias. NVIDIA responde ampliando el campo: no vende solo el chip, sino la arquitectura completa.
La CPU vuelve al centro de la infraestructura de IA
La fábrica de IA no se construye solo con GPU. NVIDIA está empujando también Vera, su nueva CPU de centro de datos basada en núcleos Olympus propios y arquitectura Armv9.2. El mensaje técnico es interesante porque los agentes no solo ejecutan operaciones matriciales sobre aceleradores. También compilan código, lanzan entornos aislados, procesan datos, gestionan runtimes, coordinan herramientas, ejecutan Python o Java y consultan bases de datos.
Según los primeros resultados publicados por Phoronix y recogidos por NVIDIA, Vera ofrece 88 núcleos Olympus, 176 hilos, hasta 1,2 TB/s de ancho de banda de memoria LPDDR5X, 164 MB de caché L3 unificada, soporte PCIe Gen 6 y CXL 3.1. El chip probado tenía un TDP máximo de 450 W y la memoria LPDDR5X se mueve en torno a 50 W o menos, según Phoronix.
| Característica de NVIDIA Vera | Dato técnico |
|---|---|
| Arquitectura | Armv9.2 |
| Núcleos | 88 Olympus |
| Hilos | 176 |
| Ancho de banda de memoria | Hasta 1,2 TB/s |
| Caché L2 | 2 MB por núcleo |
| Caché L3 unificada | 164 MB |
| Conectividad | PCIe Gen 6 y CXL 3.1 |
| TDP del socket probado | 450 W |
| Consumo de memoria indicado en pruebas | En torno a 50 W o menos |
| Disponibilidad prevista | Segunda mitad del año, a través de socios |
El dato de memoria es especialmente importante. Las cargas agénticas no se limitan al número de núcleos. Necesitan mantener muchos procesos paralelos con buen acceso a memoria y latencias consistentes. NVIDIA afirma que Vera sostiene el 90 % de su pico de ancho de banda en la prueba STREAM TRIAD y que ofrece más de 4 veces el ancho de banda por núcleo frente a CPUs x86 tradicionales. Es una forma clara de atacar uno de los cuellos de botella clásicos del centro de datos: mover datos rápido sin disparar el consumo.
Diseñar antes de construir
Las fábricas de IA no se pueden improvisar. Un centro de datos tradicional podía escalar añadiendo servidores, más almacenamiento o nuevas cabinas. En IA, la densidad de potencia, la refrigeración líquida, las interconexiones, el reparto de cargas y la alimentación eléctrica obligan a diseñar el sistema como una unidad.
NVIDIA habla de codiseño extremo: hardware, red, memoria, almacenamiento, software, energía y refrigeración pensados juntos desde el inicio. También menciona sus diseños de referencia DSX y el uso de gemelos digitales con Omniverse DSX Blueprint para modelar instalaciones, equipos, refrigeración y operaciones antes del despliegue real.
Esto es especialmente relevante en proyectos de cientos de megavatios o incluso gigavatios. Un error en el diseño eléctrico o térmico puede limitar durante años la capacidad de crecimiento de una instalación. La IA no perdona malgastar energía, espacio o refrigeración, porque cada ineficiencia se traduce en tokens más caros.
| Capa de la fábrica de IA | Por qué importa |
|---|---|
| Cómputo acelerado | Ejecuta modelos, razonamiento e inferencia |
| CPU | Coordina agentes, runtimes, procesos y servicios |
| Red | Conecta miles de aceleradores y sistemas |
| Memoria | Alimenta modelos, contextos largos y cargas paralelas |
| Almacenamiento | Mantiene datos, vectores, checkpoints y estado |
| Software | Orquesta cargas y maximiza utilización |
| Energía | Limita el tamaño económico del despliegue |
| Refrigeración | Permite operar densidades altas sin degradación |
NVIDIA también quiere llevar esta arquitectura más allá de los hiperescalares. Cita colaboraciones con Cisco, Dell, HPE, Lenovo y Supermicro para acercar infraestructuras de IA a centros de datos empresariales. La idea es que una fábrica de IA pueda empezar con una carga concreta de negocio y escalar después hacia usos más amplios.
Empresas que construyen o alquilan inteligencia
La afirmación más ambiciosa de NVIDIA es que toda organización necesitará construir o alquilar una fábrica de IA. No todas lo harán con infraestructura propia. Muchas recurrirán a cloud, neoclouds, proveedores de colocation o plataformas gestionadas. Pero la tesis tiene sentido si la IA pasa de ser una herramienta ocasional a convertirse en una capa permanente de trabajo.
Una entidad financiera puede usar agentes para análisis de riesgo, cumplimiento, atención interna y desarrollo de software. Una farmacéutica puede apoyarse en IA para simulación, documentación científica y descubrimiento de moléculas. Una industria puede usar agentes para mantenimiento, planificación, robótica y diseño. En todos esos casos, la pregunta de fondo será la misma: cómo producir inteligencia de forma segura, eficiente y constante.
La parte menos cómoda de esta visión es su dimensión energética. Si una fábrica de IA convierte electricidad en tokens, la energía se convierte en materia prima de la inteligencia artificial. Eso obliga a mirar el coste, el origen de la electricidad, la eficiencia térmica y la disponibilidad de potencia con la misma seriedad que antes se miraban las licencias de software.
La próxima etapa de la IA no se decidirá solo por modelos más capaces. También por quién pueda servirlos con menor coste por token, menor consumo por respuesta y mayor disponibilidad. NVIDIA quiere que esa batalla se juegue en una arquitectura que controla de extremo a extremo: GPU, CPU, red, software, sistemas, socios y diseño de centros de datos.
La nube prometía abstraer la infraestructura. La IA la vuelve a hacer visible. Detrás de cada agente que razona, cada asistente que programa y cada modelo que responde hay una fábrica física produciendo tokens sin descanso.
Preguntas frecuentes
¿Qué entiende NVIDIA por fábrica de IA?
Una infraestructura diseñada para producir tokens de forma continua mediante modelos, agentes, cómputo acelerado, CPU, red, memoria, almacenamiento, software, energía y refrigeración coordinados como un único sistema.
¿Por qué el coste por token es tan importante?
Porque determina si una empresa puede escalar IA de forma rentable. Cuanto menor sea el coste por token, más viable resulta usar modelos y agentes en procesos masivos.
¿Qué papel tiene la CPU Vera?
Vera está pensada para las tareas CPU-heavy de la IA agéntica: compilar código, coordinar agentes, ejecutar runtimes, procesar datos, consultar bases de datos y mantener servicios funcionando en paralelo.
¿Todas las empresas tendrán que construir su propia fábrica de IA?
No. Algunas la construirán por escala, seguridad o soberanía. Otras alquilarán capacidad en cloud, neoclouds o proveedores especializados. Lo importante será controlar coste, rendimiento, seguridad y disponibilidad.
vía: phoronix y blogs.nvidia