Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

NVIDIA reimagina la inferencia en IA: grandes clústeres, silicio fotónico y redes ultraeficientes para un futuro dominado por modelos de razonamiento

La compañía apuesta por infraestructuras centralizadas de alto rendimiento como respuesta al auge de modelos generativos avanzados y carga inferencial creciente, mientras su tecnología de óptica co-integrada redefine los límites de eficiencia energética en centros de datos

Durante años, la narrativa sobre cómo construir un clúster de IA ha sido clara: agrupar tantas GPU como sea posible, conectarlas con redes ultrarrápidas y alimentarlas con cantidades ingentes de datos. Sin embargo, el salto de la inteligencia artificial generativa desde la fase de entrenamiento hacia su despliegue masivo en inferencia está modificando los principios fundamentales del diseño de centros de datos. Y NVIDIA quiere liderar esa transición.

En declaraciones a DataCenterDynamics, Kevin Deierling, vicepresidente sénior de redes en NVIDIA, explica que la era de la inferencia «liviana» ha llegado a su fin. En su lugar, la nueva generación de modelos —especialmente los modelos de razonamiento y cargas agénticas— está impulsando una recentralización de la infraestructura en torno a clústeres masivos y cada vez más eficientes.


Inferencia ya no significa bajo consumo: test-time scaling y razonamiento complejo

Según Deierling, el mercado ha evolucionado hacia tres grandes fases:

  1. Preentrenamiento, con el desarrollo de modelos fundacionales sobre volúmenes iniciales de datos.
  2. Postentrenamiento, donde se refinan modelos utilizando cientos de petabytes e incluso trillones de parámetros.
  3. Test-time scaling, en la que el modelo, ya entrenado, despliega recursos computacionales adicionales durante la inferencia para simular múltiples resultados posibles y seleccionar la mejor respuesta.

Este último paso representa un cambio de paradigma: la inferencia ya no es una consulta-respuesta directa, sino un proceso iterativo y computacionalmente intensivo. Modelos como DeepSeek R1 (671.000 millones de parámetros) requieren docenas de GPUs en paralelo, incluso para tareas de inferencia, alejando la posibilidad de ejecutarlos en el edge o dispositivos individuales.


Los clústeres de entrenamiento se reutilizan para inferencia

NVIDIA detecta una tendencia clara en sus clientes más avanzados: reutilizar los clústeres de entrenamiento para tareas de inferencia. Aunque originalmente se pensó que la inferencia se ejecutaría en máquinas aisladas, hoy es evidente que los modelos de mayor valor económico —por ejemplo, en agentes autónomos o motores de búsqueda multimodales— requieren arquitecturas de red complejas y de alta densidad.


Co-Packaged Optics (CPO): la apuesta energética de NVIDIA

Con centros de datos que fácilmente pueden albergar cientos de miles de GPUs, el principal límite para escalar ya no es el coste del hardware, sino el presupuesto energético. Para resolverlo, NVIDIA ha apostado por la integración de óptica co-empaquetada (CPO): switches con fotónica integrada directamente en el silicio.

Ventajas clave del CPO:

  • Hasta un 50 % menos de consumo energético en interconexión.
  • Reducción masiva de transceptores: se eliminan cientos de miles de componentes ópticos externos.
  • Mayor fiabilidad operativa: menos piezas móviles, menor riesgo de error humano en entornos de alta densidad.
  • Incremento de capacidad por rack, liberando espacio y potencia para más GPUs.

Redes ópticas entre centros y latencia ultra baja

La visión de NVIDIA no se limita a optimizar racks individuales. En los centros de datos más grandes del mundo ya se están desplegando interconexiones ópticas entre campus enteros, conectando múltiples edificios para ejecutar tareas de entrenamiento multiclúster y cargas de inferencia distribuidas.

Aunque el impacto de la latencia en usuarios humanos es limitado (200 ms es tolerable), no ocurre lo mismo con la inferencia agéntica, en la que varios modelos autónomos interactúan entre sí en tiempo real. Aquí, la latencia submilisegundo es crítica, y solo puede garantizarse dentro de un mismo centro de datos o mediante enlaces ópticos de muy baja latencia.


Más allá del hardware: una arquitectura para la nueva IA

La transición desde inferencias rápidas y simples hacia procesos de razonamiento complejos y distribuidos implica reimaginar todo el stack de infraestructura: desde la red hasta el consumo, desde el empaquetado óptico hasta la colocación física de racks. Según NVIDIA, las arquitecturas del futuro no dependerán de separar edge y nube, sino de cómo gestionar el cómputo, la red y la energía de forma integral.

Fuente: noticias inteligencia artificial y DCD

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO