NVIDIA GB300 dispara el rendimiento de la IA agéntica frente a Hopper

Nota de Prensa

La inteligencia artificial agéntica está obligando a medir los centros de datos de otra manera. Ya no basta con saber cuántos tokens por segundo entrega un modelo en una petición aislada. Los nuevos agentes trabajan durante más tiempo, encadenan pasos, llaman a herramientas, mantienen contexto, editan código, ejecutan pruebas y vuelven a razonar con la información que reciben. Esa forma de uso cambia por completo la presión sobre la infraestructura.

NVIDIA ha publicado sus primeros resultados en AA-AgentPerf, un nuevo benchmark de Artificial Analysis diseñado para medir cuántos agentes de IA puede sostener una plataforma de inferencia bajo cargas realistas. El resultado favorece con claridad a Blackwell Ultra: el sistema NVIDIA GB300 NVL72 alcanza hasta 20 veces más capacidad por megavatio que una plataforma HGX H200 basada en Hopper en cargas de agentes de programación.

La cifra resume bien el salto. Según los datos publicados, GB300 NVL72 soporta 61.400 agentes concurrentes por MW frente a los 2.600 de H200. En capacidad por GPU, la diferencia también es amplia: 57,5 agentes concurrentes por acelerador frente a 1,4 en la generación anterior. Son resultados vinculados a pruebas con DeepSeek V4 Pro, un modelo Mixture-of-Experts usado como representación de las cargas modernas de agentes.

Qué mide AA-AgentPerf y por qué importa

AA-AgentPerf no intenta medir una conversación sencilla con un chatbot. Su objetivo es evaluar el comportamiento de la infraestructura cuando muchos agentes trabajan al mismo tiempo sobre tareas largas y variables, parecidas a las que ya se ven en entornos de desarrollo asistido por IA.

El benchmark utiliza trayectorias reales de agentes de programación. Esas trayectorias incluyen sesiones con múltiples turnos, razonamiento intercalado, llamadas a herramientas, edición de código y longitudes de contexto muy variables. Según Artificial Analysis, las secuencias de entrada pueden superar los 100.000 tokens, con una media cercana a los 27.000 tokens en el conjunto descrito.

Esto es importante porque las cargas agénticas castigan partes distintas del sistema. Un agente no solo genera texto. Lee contexto, espera resultados de herramientas, retoma la sesión, reutiliza caché KV, alterna prefilling y decoding, y mantiene muchas solicitudes vivas durante bastante tiempo. En producción, esa mezcla afecta al planificador, al uso de memoria, a la interconexión entre GPUs y a la capacidad de mantener baja la latencia.

Métrica de AA-AgentPerf	Qué indica
TTFT	Tiempo hasta recibir el primer token
Velocidad de salida	Tokens por segundo una vez iniciado el output
Throughput del sistema	Tokens agregados por segundo con agentes concurrentes
Agentes concurrentes por MW	Capacidad útil por presupuesto energético
Agentes concurrentes por GPU	Capacidad útil por acelerador

La métrica más relevante para operadores de infraestructura es la de agentes concurrentes por megavatio. En un centro de datos de IA, la energía se ha convertido en una limitación tan importante como el precio de las GPUs. Saber cuántos agentes puede ejecutar una instalación por cada MW disponible ayuda a estimar capacidad, coste operativo y retorno de una inversión en hardware.

GB300 NVL72 frente a H200: el salto de Blackwell Ultra

Los datos publicados por NVIDIA muestran una diferencia muy amplia entre GB300 NVL72 y HGX H200 en cargas agénticas de programación. La comparación no se limita al rendimiento bruto de una GPU, sino a la capacidad de toda la plataforma para sostener agentes simultáneos bajo objetivos de servicio.

Benchmark	NVIDIA GB300 NVL72	NVIDIA H200
Agentes concurrentes por MW	61.400	2.600
Agentes concurrentes por GPU	57,5	1,4
Diferencia aproximada por MW	Hasta 20 veces más	Referencia

La ventaja no se explica por un único componente. NVIDIA atribuye el resultado al diseño conjunto de hardware, software e interconexión. GB300 NVL72 conecta 72 GPUs en un dominio NVLink de alta capacidad, algo especialmente útil para modelos MoE como DeepSeek V4 Pro, donde la ejecución debe repartirse entre expertos y mantenerse coordinada sin que la comunicación se coma el rendimiento.

También entran en juego optimizaciones de inferencia como TensorRT LLM, SGLang o vLLM, junto con técnicas para separar prefilling y decoding, mejorar el aprovechamiento de la caché KV y mantener alta la utilización de las GPUs cuando crece el número de sesiones activas. En IA agéntica, el objetivo no es solo responder rápido a un usuario, sino sostener miles de agentes vivos sin que la latencia y la velocidad caigan por debajo de los niveles acordados.

Este punto cambia la conversación para proveedores cloud, hiperescalares, laboratorios de IA y empresas que planean desplegar agentes internos a gran escala. La pregunta deja de ser “qué GPU es más rápida” y pasa a ser “cuántos agentes útiles puedo ejecutar con mi energía, mi espacio y mi presupuesto”. Ahí el rendimiento por MW se vuelve una métrica de planificación.

Centros de datos para agentes, no solo para modelos

El crecimiento de los agentes de IA está haciendo que la infraestructura se parezca cada vez más a una fábrica de procesos largos. Un asistente de programación puede recibir una incidencia, inspeccionar archivos, proponer cambios, ejecutar pruebas, corregir errores y repetir el ciclo varias veces. Cada paso genera nuevas llamadas al modelo y mantiene contexto acumulado.

Esto obliga a diseñar centros de datos con una visión distinta. La memoria, la red interna, la refrigeración, la eficiencia energética y el software de orquestación pesan más que en pruebas clásicas de inferencia. Un sistema mal equilibrado puede tener GPUs muy potentes y aun así ofrecer mala experiencia si el cuello de botella aparece en la caché, la interconexión, el planificador o el almacenamiento de contexto.

AA-AgentPerf intenta capturar precisamente esa nueva realidad. No reemplaza a otros benchmarks de inferencia, pero añade una capa más cercana al uso que muchas empresas esperan de la IA en los próximos años. Si los agentes pasan de ser herramientas individuales a flotas de procesos autónomos trabajando en paralelo, la infraestructura tendrá que medirse por capacidad sostenida, eficiencia y predictibilidad.

También conviene mantener cierta prudencia. Los resultados iniciales proceden de configuraciones concretas, con modelos, SLO y optimizaciones determinadas. No todas las cargas empresariales se comportarán igual. Un agente de programación no tiene el mismo perfil que uno financiero, jurídico, de atención al cliente o de análisis científico. Aun así, el benchmark marca una dirección clara: medir la IA agéntica exige pruebas más largas, más variables y más próximas a producción.

Rubin ya asoma como siguiente salto

El momento elegido para publicar estos resultados no es casual. NVIDIA ya está preparando la transición hacia Vera Rubin, su siguiente plataforma para grandes instalaciones de IA. La compañía ha anunciado que Vera Rubin está entrando en producción para lo que denomina “AI factories”, con una arquitectura que combina CPU Vera, GPUs Rubin, NVLink 6, BlueField-4, Spectrum-6 y nuevos sistemas de red y almacenamiento orientados a cargas agénticas.

Según NVIDIA, la GPU Rubin alcanzará 50 PFLOPS de cómputo NVFP4 para inferencia, mientras que NVLink 6 ofrecerá 3,6 TB/s de ancho de banda por GPU y 260 TB/s por rack Vera Rubin NVL72. La compañía también presenta Vera como una CPU diseñada para cargas agénticas, con foco en movimiento de datos, eficiencia y aceleración de flujos donde las llamadas a herramientas y el contexto compartido pesan cada vez más.

NVIDIA asegura que Vera Rubin puede ofrecer hasta 10 veces más throughput de agentes a escala frente a la generación Grace Blackwell. Es una promesa de fabricante que tendrá que contrastarse con despliegues reales y benchmarks independientes, pero encaja con la dirección del mercado: más agentes, más contexto, más concurrencia y más presión sobre el consumo energético.

La lectura para el sector cloud es directa. La ventaja competitiva en IA no dependerá solo de tener acceso a las últimas GPUs. Hará falta diseñar racks, redes, software de inferencia, seguridad, aislamiento multiinquilino, almacenamiento de contexto y operación energética como un sistema completo. Las empresas que desplieguen agentes a gran escala no comprarán únicamente “potencia”, sino capacidad útil por megavatio, por rack y por euro invertido.

Blackwell Ultra ya muestra cómo cambia esa lógica. Hopper fue una generación decisiva para la explosión de la IA generativa, pero las cargas agénticas están elevando el listón. GB300 NVL72 no gana solo por ser más nuevo: gana porque está diseñado para mantener muchos agentes trabajando en paralelo con mayor eficiencia.

La IA agéntica todavía está en una fase temprana de adopción empresarial, pero su impacto sobre la infraestructura ya se puede medir. Si los agentes se convierten en una capa habitual dentro del desarrollo de software, la atención al cliente, la analítica, las operaciones IT o la automatización industrial, los centros de datos tendrán que dimensionarse para millones de procesos inteligentes y persistentes. El benchmark de Artificial Analysis no cierra la discusión, pero sí pone una métrica sobre la mesa: cuántos agentes reales puede sostener una plataforma sin romper la experiencia de uso.

Preguntas frecuentes

¿Qué es AA-AgentPerf?

AA-AgentPerf es un benchmark de Artificial Analysis que mide cuántos agentes de IA puede sostener una plataforma de inferencia bajo cargas realistas, manteniendo objetivos de velocidad de salida y tiempo hasta el primer token.

¿Qué resultado ha logrado NVIDIA GB300 NVL72?

NVIDIA GB300 NVL72 alcanza 61.400 agentes concurrentes por MW y 57,5 agentes por GPU en los resultados publicados, frente a 2.600 agentes por MW y 1,4 por GPU en NVIDIA H200.

¿Por qué las cargas agénticas son distintas a la inferencia tradicional?

Porque un agente no hace una sola petición. Puede razonar durante muchos turnos, llamar a herramientas, leer y editar archivos, ejecutar pruebas y mantener contextos largos. Eso exige más memoria, mejor planificación y mayor eficiencia del sistema completo.

¿Qué papel tendrá NVIDIA Vera Rubin?

Vera Rubin será la siguiente plataforma de NVIDIA para grandes fábricas de IA. La compañía afirma que incorporará GPUs Rubin con 50 PFLOPS NVFP4, CPU Vera y NVLink 6 para mejorar el rendimiento de cargas agénticas a gran escala.

vía: Nvidia