
NVIDIA bate récord mundial con Llama 4 Maverick: más de 1.000 tokens por segundo por usuario gracias a Blackwell
La compañía logra una velocidad sin precedentes en inferencia de modelos LLM, combinando optimización de hardware, software y técnicas avanzadas de decodificación especulativa NVIDIA ha establecido un nuevo hito en el rendimiento de modelos de lenguaje de gran escala (LLM). Un único nodo NVIDIA DGX B200, equipado con ocho GPUs Blackwell, ha alcanzado una velocidad de más de 1.000 tokens por segundo por usuario con Llama 4 Maverick, el modelo más grande de la colección Llama 4, con 400.000 millones de parámetros. La marca fue verificada de forma independiente por el servicio de benchmarking Artificial Analysis. Este logro convierte a Blackwell en la plataforma de hardware óptima para ejecutar Llama 4, tanto si el objetivo es maximizar el rendimiento por