La carrera por la Inteligencia Artificial de nueva generación no solo se libra en los modelos, sino en la infraestructura que los hace posibles. Con la llegada de los modelos de razonamiento —capaces de realizar tareas complejas en varios pasos, analizar datos y actuar como agentes autónomos— el cuello de botella ya no está en la precisión, sino en la latencia y el rendimiento de inferencia.
CoreWeave ha anunciado que sus nuevas instancias aceleradas con NVIDIA GB300 NVL72, basadas en las GPUs Blackwell Ultra, han logrado un rendimiento 6,5 veces superior en inferencia sobre el modelo DeepSeek R1 en comparación con un clúster de GPUs H100.
De los modelos generativos a los de razonamiento
La transición de modelos generativos básicos a modelos de razonamiento como DeepSeek R1 marca un salto cualitativo: ya no basta con predecir la siguiente palabra, sino que se requieren procesos de “chain-of-thought” que implican múltiples iteraciones y cálculos más pesados.
El problema: estos modelos son extremadamente sensibles a la latencia. Un retraso en la inferencia puede hacerlos inservibles en aplicaciones en tiempo real, como copilotos de programación, agentes financieros o asistentes científicos.
La prueba de CoreWeave
CoreWeave comparó dos configuraciones:
- 16 GPUs NVIDIA H100 ejecutando el modelo con tensor parallelism 16-way (TP16).
- 4 GPUs NVIDIA GB300 en la infraestructura NVL72, usando tensor parallelism 4-way (TP4) gracias a la mayor memoria y ancho de banda.
El resultado: con solo una cuarta parte de GPUs, la configuración con GB300 alcanzó 6,5x más tokens por segundo de throughput, reduciendo drásticamente la sobrecarga de comunicación entre GPUs.
Para los clientes, esto se traduce en generación de tokens más rápida, menor latencia y un uso más eficiente de recursos.
Dentro del NVIDIA GB300 NVL72
El salto de rendimiento se debe a un rediseño radical de la arquitectura:
- Memoria masiva: hasta 37–40 TB de memoria total en un sistema, lo que permite ejecutar modelos de billones de parámetros sin fragmentación ni penalización.
- Interconexiones ultrarrápidas: la quinta generación de NVLink ofrece 130 TB/s de ancho de banda para 72 GPUs Blackwell Ultra interconectadas, reduciendo la dependencia del PCIe tradicional.
- Red optimizada end-to-end: con NVIDIA Quantum-X800 InfiniBand, los datos fluyen de manera eficiente en todo el clúster, eliminando los cuellos de botella que sufren las nubes generalistas.
La ventaja CoreWeave
El hardware no lo es todo. CoreWeave ha desarrollado una pila de IA en la nube que maximiza el potencial del GB300 NVL72:
- Rack LifeCycle Controller: automatiza verificación, firmware e imagen del sistema para garantizar la estabilidad de cada rack.
- Integración con Kubernetes (CKS) y Slurm on Kubernetes (SUNK) con un scheduler consciente de la topología NVLink, que asegura que los trabajos se ejecuten dentro del mismo dominio NVL72 para no perder rendimiento.
- Monitorización avanzada con Grafana dashboards que ofrecen visibilidad en tiempo real de la utilización de GPU, tráfico NVLink y disponibilidad de racks.
Impacto para las empresas
La eficiencia lograda por CoreWeave no es solo un hito técnico, sino un cambio de paradigma empresarial:
- Acelerar la innovación: entrenar modelos más grandes en menos tiempo.
- Reducir costes (TCO): más rendimiento por GPU y menos sobrecarga de comunicación.
- Confianza en producción: una nube diseñada específicamente para cargas de IA, con resiliencia y fiabilidad de nivel empresarial.
Conclusión
El NVIDIA GB300 NVL72, desplegado a escala por CoreWeave, demuestra que los modelos de razonamiento ya no son un sueño de laboratorio, sino una realidad operativa. La combinación de mayor memoria, ancho de banda extremo y una nube optimizada permite ejecutar modelos de próxima generación en tiempo real, con costes más bajos y escalabilidad más eficiente que nunca.
En un momento en que la industria se encamina hacia los modelos de billones de parámetros, este benchmark sugiere que el futuro de la IA a gran escala pasa por arquitecturas como la del GB300 NVL72, donde hardware y software trabajan en perfecta sintonía.
Preguntas frecuentes (FAQ)
¿Qué diferencia a los modelos de razonamiento de los generativos?
Los de razonamiento no solo generan texto, sino que realizan procesos en varios pasos (chain-of-thought), analizan datos y actúan como agentes.
Qué ventaja clave ofrece el GB300 frente al H100?
La capacidad de usar menos GPUs gracias a mayor memoria y ancho de banda, reduciendo la sobrecarga de comunicación y aumentando el throughput.
Qué significa para las empresas en la práctica?
Menor latencia en inferencia, mayor escalabilidad y mejor relación coste-rendimiento en cargas de IA críticas.
Por qué CoreWeave y no una nube genérica?
Porque su infraestructura está diseñada específicamente para IA, con optimización de racks, scheduling consciente de NVLink y monitorización avanzada que maximizan el rendimiento.
vía: coreweave