La compañía logra una velocidad sin precedentes en inferencia de modelos LLM, combinando optimización de hardware, software y técnicas avanzadas de decodificación especulativa
NVIDIA ha establecido un nuevo hito en el rendimiento de modelos de lenguaje de gran escala (LLM). Un único nodo NVIDIA DGX B200, equipado con ocho GPUs Blackwell, ha alcanzado una velocidad de más de 1.000 tokens por segundo por usuario con Llama 4 Maverick, el modelo más grande de la colección Llama 4, con 400.000 millones de parámetros. La marca fue verificada de forma independiente por el servicio de benchmarking Artificial Analysis.
Este logro convierte a Blackwell en la plataforma de hardware óptima para ejecutar Llama 4, tanto si el objetivo es maximizar el rendimiento por servidor como minimizar la latencia en escenarios de usuario único. En configuración máxima, el sistema alcanza los 72.000 tokens por segundo por servidor.
Optimización total: de CUDA a TensorRT-LLM
El éxito se debe a una combinación de innovaciones arquitectónicas y mejoras profundas a nivel de software. NVIDIA utilizó el entorno TensorRT-LLM para afinar cada aspecto de la inferencia, e implementó optimizaciones de kernel en CUDA para operaciones críticas como GEMM, MoE y atención.
Destacan las fusiones de kernel (como la unión de AllReduce con RMSNorm) y el uso de Programmatic Dependent Launch (PDL), una función de CUDA que permite solapar la ejecución de kernels consecutivos, eliminando tiempos muertos y mejorando la utilización del hardware. Además, se recurrió a operaciones en formato FP8 que, gracias a los Tensor Cores de Blackwell, permiten mantener la precisión con un menor coste computacional.
Decodificación especulativa: velocidad sin sacrificar calidad
Uno de los factores clave fue el uso de una decodificación especulativa personalizada, basada en la arquitectura EAGLE-3. Esta técnica permite a un modelo rápido generar borradores de texto que luego son verificados en paralelo por el modelo principal, lo que multiplica la velocidad de inferencia.
En este caso, se logró un equilibrio óptimo usando secuencias de borrador de tres tokens, lo que llevó a un factor de aceleración de más de 2x sin comprometer la calidad. El modelo borrador se ejecuta directamente en GPU mediante torch.compile(), reduciendo su sobrecarga del 25 % al 18 %.
Impacto real: hacia una IA más rápida y útil
La necesidad de reducir la latencia es crucial para aplicaciones de inteligencia artificial generativa en tiempo real, como asistentes virtuales, copilotos de software o agentes autónomos. Gracias a estas mejoras, NVIDIA demuestra que es posible ofrecer una experiencia fluida y responsiva incluso con modelos masivos.
Este rendimiento no es solo un avance técnico: es la base de la próxima generación de agentes de IA capaces de interactuar con seres humanos de forma instantánea y eficaz, desde interfaces conversacionales hasta simulaciones complejas en la nube.
Conclusión
Con esta hazaña, NVIDIA no solo refuerza su liderazgo en infraestructura para inteligencia artificial, sino que marca el camino hacia una nueva era de rendimiento extremo en IA, donde la combinación de hardware especializado como Blackwell, técnicas de inferencia avanzadas y optimización a bajo nivel permitirán desplegar modelos cada vez más potentes en escenarios críticos y de alta demanda.
vía: Nvidia blog técnico