NVIDIA ha vuelto a convertir los benchmarks de MLPerf en una demostración de fuerza. En la nueva ronda de MLPerf Inference v6.0, la compañía asegura haber logrado los mejores resultados en el mayor número de pruebas y escenarios, apoyándose en su plataforma Blackwell Ultra, en el sistema GB300 NVL72 y en una combinación muy afinada de hardware, interconexión y software. La publicación coincide con un momento en el que la inferencia ya no se mide solo en teraflops o en especificaciones de chip, sino en algo mucho más directo para el negocio: cuántos tokens puede producir una infraestructura y a qué coste.
La relevancia de esta ronda va más allá del habitual titular de “récord de rendimiento”. MLCommons, el consorcio responsable de MLPerf, ha presentado v6.0 como la actualización más importante hasta la fecha del benchmark de inferencia, con cinco de las once pruebas de centro de datos nuevas o actualizadas y una batería más representativa del despliegue real de cargas de IA. Entre las novedades figuran un benchmark basado en GPT-OSS 120B, una ampliación de DeepSeek-R1 con escenario interactivo, un nuevo test de recomendación DLRMv3, la primera prueba de texto a vídeo del conjunto y un benchmark de modelo visión-lenguaje.
NVIDIA sostiene que fue la única plataforma que presentó resultados en todos esos nuevos modelos y escenarios, y que además logró la mayor tasa de procesamiento en todos ellos. En su blog técnico, la compañía detalla cifras llamativas: 2.494.310 tokens por segundo en DeepSeek-R1 en modo offline, 1.555.110 tokens por segundo en servidor para ese mismo modelo, 1.046.150 tokens por segundo en GPT-OSS-120B en offline, 1.096.770 tokens por segundo en servidor, 79 muestras por segundo en Qwen3-VL, y 104.637 muestras por segundo en DLRMv3. En el caso de WAN 2.2, el modelo de texto a vídeo, la métrica más visible es la latencia en single stream, con 21 segundos por petición.
Ahora bien, conviene introducir una cautela importante. MLPerf no es una simulación exacta de todas las cargas de producción, sino un benchmark estandarizado y auditable diseñado para comparar plataformas en condiciones definidas. Su valor está precisamente en esa reproducibilidad, pero eso no significa que cada cifra se traslade sin más al comportamiento de una aplicación comercial concreta, a un servicio API real o a un entorno con mezcla de modelos, usuarios y limitaciones operativas. El propio MLCommons insiste en que estos resultados ofrecen una base rigurosa para comparar sistemas, no una predicción automática de rendimiento universal.
Blackwell Ultra no solo gana por hardware
Uno de los aspectos más interesantes del anuncio de NVIDIA no está en el chip, sino en el software. La compañía afirma que el mismo sistema GB300 NVL72, presentado hace apenas seis meses, ha mejorado de forma muy notable en varias pruebas gracias a optimizaciones de TensorRT-LLM y del framework distribuido Dynamo. Según NVIDIA, el rendimiento por GPU en DeepSeek-R1, en escenario de servidor, pasó de 2.907 tokens por segundo por GPU en MLPerf v5.1 a 8.064 tokens por segundo por GPU en v6.0, lo que equivale a una mejora de 2,77 veces. En el mismo periodo, Llama 3.1 405B también mejoró un 52 % en servidor sobre la misma infraestructura.
Ese mensaje es importante porque refuerza la narrativa estratégica de NVIDIA: la ventaja competitiva ya no está solo en vender GPU, sino en controlar una pila completa de inferencia. La compañía atribuye estas mejoras a kernels más rápidos, fusiones de kernels, mejor equilibrio en Attention Data Parallel, disaggregated serving, Wide Expert Parallel, Multi-Token Prediction y KV-aware routing. Dicho de otra forma, la carrera ya no se gana únicamente con silicio, sino con una integración muy fina entre modelo, runtime, memoria, red y técnicas de servicio.
Además, NVIDIA ha querido subrayar el papel de su ecosistema. Esta ronda contó, según la propia compañía, con 14 socios presentando resultados sobre su plataforma, el mayor número de partners en cualquier plataforma de esta edición. Entre ellos aparecen ASUS, Cisco, CoreWeave, Dell, Google Cloud, HPE, Lenovo, Nebius, QCT, Red Hat y Supermicro. Ese dato no es menor: indica que buena parte del mercado sigue viendo a NVIDIA como el entorno más seguro para construir y afinar infraestructura de IA de gran escala.
La inferencia ya se mide a escala de fábrica
Otro detalle relevante de MLPerf v6.0 es el crecimiento de los sistemas multinodo. MLCommons explica que esta edición registró un nuevo máximo de sistemas a gran escala, con un aumento del 30 % frente a v5.1. Además, el 10 % de todos los sistemas presentados superó los diez nodos, frente al 2 % de la ronda anterior. El sistema más grande de toda la edición utilizó 72 nodos y 288 aceleradores, cuadruplicando el tamaño del mayor sistema presentado en la versión previa.
NVIDIA encaja perfectamente en esa tendencia. Para DeepSeek-R1 presentó resultados con cuatro sistemas GB300 NVL72 conectados mediante Quantum-X800 InfiniBand, alcanzando esos 2,49 millones de tokens por segundo en offline y 1,55 millones en servidor. En la práctica, el mensaje es claro: la empresa quiere que el mercado deje de pensar en GPU sueltas y empiece a pensar en AI factories, esto es, infraestructuras completas donde el valor no lo marca solo el procesador, sino la capacidad de producir inferencia rentable a gran escala.
Esa visión también explica por qué NVIDIA insiste tanto en modelos muy distintos dentro de la misma suite: razonamiento avanzado, visión-lenguaje, recomendación generativa y vídeo. La compañía quiere demostrar que Blackwell Ultra no solo sirve para LLM puros, sino como plataforma transversal para diferentes tipos de inferencia. Y eso tiene una lectura comercial evidente: si una misma infraestructura puede atender más workloads y más perfiles de cliente, su amortización potencial mejora.
Una victoria importante, pero no definitiva
La foto general favorece claramente a NVIDIA. La compañía afirma acumular ya 291 victorias en benchmarks MLPerf de entrenamiento e inferencia desde 2018, unas nueve veces más que el resto de participantes combinados. Pero el dato quizá más interesante no sea ese, sino el contexto competitivo. MLPerf v6.0 recibió envíos de 24 organizaciones, entre ellas AMD, Intel, Oracle, Google, Dell, Lenovo, HPE, Supermicro y otras firmas del ecosistema. Es decir, la competencia existe, está presente y sigue tratando de medirse en el mismo terreno.
Con todo, NVIDIA sale reforzada de esta ronda por dos razones. La primera es que mantiene el liderazgo en el benchmark más influyente del sector. La segunda es que logra vincular ese liderazgo a una historia muy clara para inversores, hyperscalers y operadores de centros de datos: no vende solo aceleradores, vende una plataforma completa optimizada para producir tokens, reducir coste por inferencia y seguir mejorando mediante software incluso sobre el mismo hardware. En la economía actual de la IA, ese argumento pesa casi tanto como los números brutos del benchmark.
Preguntas frecuentes
¿Qué es MLPerf Inference v6.0 y por qué importa tanto?
Es la última edición del benchmark de inferencia de MLCommons, una suite estandarizada y reproducible que compara el rendimiento de sistemas de IA en cargas representativas. Importa porque se ha convertido en una referencia industrial para medir plataformas de inferencia en condiciones comparables.
¿Qué logró exactamente NVIDIA en esta edición?
NVIDIA afirma haber sido la única plataforma que presentó resultados en todos los nuevos benchmarks y escenarios añadidos en v6.0, y asegura haber obtenido el mejor rendimiento en todos ellos con sistemas Blackwell Ultra y GB300 NVL72.
¿Significa esto que NVIDIA es automáticamente la mejor opción para cualquier despliegue de IA?
No necesariamente. MLPerf ofrece una comparación muy valiosa, pero no sustituye una evaluación real de coste, software, disponibilidad, consumo, integración y necesidades concretas de cada organización.
¿Qué novedad técnica destaca más en esta ronda?
Probablemente la combinación de nuevos benchmarks más realistas con la mejora de rendimiento obtenida por NVIDIA en el mismo hardware gracias a software como TensorRT-LLM y Dynamo, algo que refuerza la idea de que la inferencia ya depende tanto del stack como del chip.
Fuente: developer.nvidia