NVIDIA quiere convertir los centros de datos en fábricas de IA

Antonio

NVIDIA está intentando cambiar el lenguaje de toda la industria del centro de datos. Ya no habla solo de GPU, servidores o clústeres acelerados, sino de “AI factories”: fábricas de inteligencia artificial diseñadas para producir tokens de forma continua, como una planta industrial produce electricidad, acero o componentes. La metáfora es comercial, pero ayuda a entender un cambio real: la IA ya no puede tratarse como una capa de software que se ejecuta sobre infraestructura genérica.

En la visión de NVIDIA, una fábrica de IA convierte energía en inteligencia. La unidad de producción no es una pieza física, sino el token que genera un modelo al razonar, responder, escribir código, coordinar agentes o ejecutar una tarea. Por eso las métricas que importan empiezan a parecerse más a las de una industria pesada que a las de una aplicación SaaS: tokens por segundo, tokens por vatio, coste por token, utilización de la infraestructura y disponibilidad.

La inferencia ya no es una consulta aislada

El gran cambio está en la carga de trabajo. La IA generativa empezó para muchos usuarios como una caja de texto: se escribe una pregunta, el modelo responde y la interacción termina. La IA agéntica rompe ese esquema. Un agente puede planificar, buscar información, llamar a herramientas, leer documentos, escribir código, consultar bases de datos, crear subagentes y tomar decisiones encadenadas.

Eso convierte la inferencia en un proceso más largo, más interactivo y más difícil de orquestar. Ya no basta con tener una GPU potente esperando una petición. Hay que coordinar memoria, almacenamiento, red, CPU, software, colas de trabajo y servicios externos para que todo el flujo avance sin esperas innecesarias.

NVIDIA lo plantea como un problema de pila completa. Los modelos necesitan cómputo acelerado, pero también memoria rápida, almacenamiento para contexto, red de baja latencia para coordinar servicios y software capaz de mantener alta la utilización de todo el sistema. Si una capa se queda atrás, el coste por token sube y la experiencia empeora.

Métrica	Qué mide en una fábrica de IA
Tokens por segundo	Capacidad de producir respuestas y acciones
Tokens por vatio	Eficiencia energética del sistema
Coste por token	Viabilidad económica de la inferencia a escala
Utilización	Grado de aprovechamiento de GPU, CPU, memoria y red
Uptime	Continuidad de la producción de IA
Latencia	Tiempo de respuesta en agentes y aplicaciones interactivas

Esta lectura tiene consecuencias para cualquier empresa que quiera desplegar IA en serio. El debate ya no se limita a elegir un modelo. Hay que decidir dónde se ejecuta, cuánto cuesta cada interacción, qué latencia se acepta, cómo se mantiene el contexto, qué datos se recuperan y cuánta energía consume la infraestructura.

Blackwell, Vera Rubin y la economía del token

NVIDIA sitúa a Blackwell Ultra y los sistemas GB300 NVL72 como una respuesta a esa nueva economía. Según la compañía, estos sistemas pueden generar 50 veces más tokens por megavatio que la generación Hopper y reducir el coste por token 35 veces. Son cifras facilitadas por NVIDIA y deben leerse dentro de su propio marco comparativo, pero muestran hacia dónde se mueve la competencia: producir más inteligencia con menos energía.

La compañía también destaca NVIDIA Dynamo, un framework orientado a orquestar inferencia de largo contexto y grandes volúmenes de solicitudes. En una fábrica de IA, el software decide buena parte de la economía. Debe enrutar peticiones, gestionar memoria, equilibrar latencia y throughput, coordinar servicios y evitar que el hardware caro quede esperando.

La siguiente etapa es Vera Rubin. NVIDIA afirma que esta plataforma, junto con LPX, está diseñada para elevar de nuevo el rendimiento por vatio en cargas de razonamiento e IA agéntica. El mensaje es claro: la empresa quiere que la conversación pase de “qué GPU compro” a “qué fábrica de IA puedo operar al menor coste por token”.

Esta estrategia también protege a NVIDIA frente a una competencia cada vez más especializada. ASICs, chips de inferencia, LPUs, TPUs y aceleradores a medida intentan atacar zonas concretas del mercado con mejores costes o latencias. NVIDIA responde ampliando el campo: no vende solo el chip, sino la arquitectura completa.

Diseñar antes de construir

Las fábricas de IA no se pueden improvisar. Un centro de datos tradicional podía escalar añadiendo servidores, más almacenamiento o nuevas cabinas. En IA, la densidad de potencia, la refrigeración líquida, las interconexiones, el reparto de cargas y la alimentación eléctrica obligan a diseñar el sistema como una unidad.

NVIDIA habla de codiseño extremo: hardware, red, memoria, almacenamiento, software, energía y refrigeración pensados juntos desde el inicio. También menciona sus diseños de referencia DSX y el uso de gemelos digitales con Omniverse DSX Blueprint para modelar instalaciones, equipos, refrigeración y operaciones antes del despliegue real.

Esto es especialmente relevante en proyectos de cientos de megavatios o incluso gigavatios. Un error en el diseño eléctrico o térmico puede limitar durante años la capacidad de crecimiento de una instalación. La IA no perdona malgastar energía, espacio o refrigeración, porque cada ineficiencia se traduce en tokens más caros.

Capa de la fábrica de IA	Por qué importa
Cómputo acelerado	Ejecuta modelos, razonamiento e inferencia
Red	Coordina miles de aceleradores y servicios
Memoria	Alimenta modelos y contextos largos
Almacenamiento	Mantiene datos, vectores y estado
Software	Orquesta cargas y maximiza utilización
Energía	Limita el tamaño económico del despliegue
Refrigeración	Permite operar densidades altas sin degradación

NVIDIA también quiere llevar esta arquitectura más allá de los hiperescalares. Cita colaboraciones con Cisco, Dell, HPE, Lenovo y Supermicro para acercar infraestructuras de IA a centros de datos empresariales. La idea es que una fábrica de IA pueda empezar con una carga concreta de negocio y escalar después hacia usos más amplios.

Empresas que construyen o alquilan inteligencia

La afirmación más ambiciosa de NVIDIA es que toda organización necesitará construir o alquilar una fábrica de IA. No todas lo harán con infraestructura propia. Muchas recurrirán a cloud, neoclouds, proveedores de colocation o plataformas gestionadas. Pero la tesis tiene sentido si la IA pasa de ser una herramienta ocasional a convertirse en una capa permanente de trabajo.

Una entidad financiera puede usar agentes para análisis de riesgo, cumplimiento, atención interna y desarrollo de software. Una farmacéutica puede apoyarse en IA para simulación, documentación científica y descubrimiento de moléculas. Una industria puede usar agentes para mantenimiento, planificación, robótica y diseño. En todos esos casos, la pregunta de fondo será la misma: cómo producir inteligencia de forma segura, eficiente y constante.

NVIDIA asegura que ya opera su propia fábrica empresarial de IA, con cientos de agentes autónomos asistiendo a equipos de ingeniería, software y operaciones. Es una forma de demostrar que la idea no se limita a vender infraestructura, sino a reorganizar cómo se trabaja dentro de una compañía.

La parte menos cómoda de esta visión es su dimensión energética. Si una fábrica de IA convierte electricidad en tokens, la energía se convierte en materia prima de la inteligencia artificial. Eso obliga a mirar el coste, el origen de la electricidad, la eficiencia térmica y la disponibilidad de potencia con la misma seriedad que antes se miraban las licencias de software.

La próxima etapa de la IA no se decidirá solo por modelos más capaces. También por quién pueda servirlos con menor coste por token, menor consumo por respuesta y mayor disponibilidad. NVIDIA quiere que esa batalla se juegue en una arquitectura que controla de extremo a extremo: GPU, red, software, sistemas, socios y diseño de centros de datos.

La nube prometía abstraer la infraestructura. La IA la vuelve a hacer visible. Detrás de cada agente que razona, cada asistente que programa y cada modelo que responde hay una fábrica física produciendo tokens sin descanso.

Preguntas frecuentes

¿Qué entiende NVIDIA por fábrica de IA?
Una infraestructura diseñada para producir tokens de forma continua mediante modelos, agentes, cómputo acelerado, red, memoria, almacenamiento, software, energía y refrigeración coordinados como un único sistema.

¿Por qué el coste por token es tan importante?
Porque determina si una empresa puede escalar IA de forma rentable. Cuanto menor sea el coste por token, más viable resulta usar modelos y agentes en procesos masivos.

¿Qué cambia con la IA agéntica?
Los agentes hacen tareas largas y encadenadas: buscan, razonan, usan herramientas, llaman a servicios y ejecutan acciones. Eso exige más coordinación de infraestructura que una simple consulta a un chatbot.

¿Todas las empresas tendrán que construir su propia fábrica de IA?
No. Algunas la construirán por escala, seguridad o soberanía. Otras alquilarán capacidad en cloud, neoclouds o proveedores especializados. Lo importante será controlar coste, rendimiento, seguridad y disponibilidad.

Fuente: Blog Nvidia y Noticias Inteligencia Artificial