Blackwell Ultra aprieta el acelerador: 50 veces más rendimiento por megavatio para la era de los agentes de IA

La inferencia —y no solo el entrenamiento— se está convirtiendo en el auténtico cuello de botella de la nueva ola de Inteligencia Artificial. Y el motivo es simple: los agentes y los asistentes de programación están devorando tokens a un ritmo que obliga a replantear la economía del cómputo. Según el informe State of AI de OpenRouter, las consultas relacionadas con programación pasaron de representar alrededor del 11% del volumen total de tokens a superar el 50% en semanas recientes. Ese cambio no es solo estadístico: marca una transición desde usos exploratorios hacia tareas aplicadas como depuración, generación de código, scripting y flujos con herramientas integradas.

En ese contexto, NVIDIA ha publicado nuevos datos que buscan poner números a una pregunta que preocupa tanto a sysadmins como a equipos de plataforma: ¿cuánto cuesta servir IA en tiempo real cuando cada milisegundo y cada vatio cuentan? La compañía se apoya en mediciones del benchmark SemiAnalysis InferenceX para afirmar que sus sistemas GB300 NVL72 (plataforma Blackwell Ultra) pueden ofrecer hasta 50 veces más rendimiento por megavatio y, como consecuencia, hasta 35 veces menos coste por token frente a la generación Hopper, especialmente en escenarios de baja latencia típicos de aplicaciones “agentic” (multi-paso, iterativas y con interacción continua).

Por qué estos números importan en un CPD (y no solo en marketing)

En un entorno real, el rendimiento bruto ya no basta. La obsesión se ha desplazado hacia tokens por vatio, coste por millón de tokens, densidad por rack y complejidad operativa. Cuando una plataforma promete multiplicar el rendimiento “por megavatio”, el mensaje implícito es que el límite no es la demanda, sino la energía, la refrigeración y la capacidad de desplegar a escala sin que el coste operativo se dispare.

Para un medio orientado a administración de sistemas, lo relevante no es solo el “hasta 50 veces”, sino el camino: NVIDIA insiste en su enfoque de codesign extremo (chip + sistema + software) y pone el foco en que la mejora no llega únicamente por hardware, sino por optimización continua del stack. En su comunicación se citan avances en equipos y librerías como TensorRT-LLM, NVIDIA Dynamo, Mooncake y SGLang, orientados a mejorar el rendimiento en inferencia Mixture-of-Experts (MoE) a lo largo de distintos objetivos de latencia.

En otras palabras: en la guerra de la inferencia, el ganador no es quien tiene más FLOPS teóricos, sino quien entrega más tokens útiles con menos vatios y con una latencia que no rompa la experiencia del usuario.

El papel del software: del “kernel” a la economía del token

Uno de los detalles más concretos del anuncio es que las mejoras de biblioteca no son puntuales. NVIDIA señala que cambios en TensorRT-LLM habrían logrado hasta 5 veces más rendimiento en cargas de baja latencia sobre GB200 en comparación con solo cuatro meses atrás. Eso apunta a una realidad que ya conocen muchos equipos SRE/infra: el rendimiento de inferencia en producción es una mezcla de runtime, planificación, kernels, comunicación entre GPUs y uso eficiente de memoria.

En esa línea, la compañía destaca tres ingredientes técnicos que, en términos prácticos, interesan a cualquiera que opere infraestructura de IA:

  • Kernels de mayor rendimiento optimizados para eficiencia y baja latencia, para exprimir la GPU cuando el objetivo no es “batch enorme”, sino respuesta inmediata.
  • NVLink Symmetric Memory, que habilita acceso directo GPU-a-GPU para comunicar mejor y reducir penalizaciones.
  • Programmatic dependent launch, orientado a recortar tiempos muertos lanzando la fase de preparación del siguiente kernel antes de que termine el anterior.

Son piezas de ingeniería que no suelen protagonizar titulares generalistas, pero que acaban definiendo si un clúster sirve asistentes interactivos con latencias estables… o si se queda en demos.

Long context: cuando el agente “lee” el repositorio entero

La otra batalla es el contexto largo. Si los agentes deben razonar sobre bases de código completas, el coste de atención y memoria se dispara. NVIDIA afirma que, en escenarios con 128.000 tokens de entrada y 8.000 tokens de salida —un perfil muy representativo para asistentes de programación que recorren grandes repositorios—, GB300 NVL72 puede ofrecer hasta 1,5 veces menos coste por token frente a GB200 NVL72.

Aquí entra lo que interesa a desarrolladores: la plataforma Blackwell Ultra, según la compañía, aporta 1,5 veces más rendimiento de cómputo NVFP4 y 2 veces más velocidad en el procesamiento de atención, lo que ayudaría a sostener sesiones largas sin que el “precio del contexto” se coma la viabilidad del producto.

Quién lo está desplegando y qué significa para la operación

NVIDIA sostiene que proveedores cloud y de inferencia ya están moviendo ficha. Cita adopción de Blackwell por parte de proveedores de inferencia como Baseten, DeepInfra, Fireworks AI y Together AI, con reducciones de coste por token de hasta 10 veces en generaciones previas. Y, para Blackwell Ultra, afirma que Microsoft, CoreWeave y Oracle Cloud Infrastructure están desplegando GB300 NVL72 para casos de baja latencia y contexto largo orientados a agentic coding y asistentes interactivos.

Para el día a día de un equipo de plataforma, esto implica que la conversación deja de ser “qué GPU comprar” y pasa a “qué arquitectura operar”: integración con el stack de serving, observabilidad de latencias, colas, límites por usuario, planificación de capacidad, y una verdad incómoda: a igualdad de demanda, el coste ya no lo dictan solo las GPUs, sino la suma de energía + refrigeración + eficiencia del runtime.

La siguiente parada: Rubin (y otra vuelta de tuerca al coste)

En el mismo anuncio, NVIDIA mira al futuro y menciona su plataforma Rubin, con la que promete hasta 10 veces más rendimiento por megavatio que Blackwell en inferencia MoE, lo que se traduciría en una décima parte del coste por millón de tokens. Además, sostiene que Rubin podría entrenar grandes modelos MoE con una cuarta parte del número de GPUs frente a Blackwell. Es una declaración ambiciosa, pero coherente con la tendencia del mercado: cada generación busca convertir la IA en un servicio más barato, más ubicuo y más “industrial”.

Preguntas frecuentes

¿Qué significa “coste por token” para un sysadmin o un equipo de plataforma?
Es una forma práctica de traducir la infraestructura a dinero: cuánto cuesta generar o procesar tokens considerando energía, hardware, refrigeración y eficiencia del software. Sirve para comparar plataformas y dimensionar presupuestos de inferencia.

¿Por qué “tokens por megavatio” se está volviendo una métrica clave en centros de datos de IA?
Porque muchos despliegues ya no están limitados por demanda, sino por potencia disponible y capacidad de refrigeración. Mejorar el rendimiento por megavatio permite servir más usuarios o más agentes sin ampliar tanto el footprint energético.

¿En qué casos importa más el “long context” que la baja latencia?
Cuando el asistente necesita comprender grandes volúmenes de información (repositorios, documentación extensa, historial de incidencias). En esos escenarios, el coste de atención y memoria puede dominar el total, y la plataforma que lo gestione mejor suele ganar en coste final por respuesta.

¿Qué debería monitorizarse en producción si se despliegan asistentes agentic?
Además de latencia p95/p99, conviene vigilar colas, tokens por segundo por usuario, ratio de reintentos, tiempos por fase (retrieval, tool calls, generación), y correlacionarlo con consumo energético y saturación de interconexión GPU-a-GPU.

vía: blogs.nvidia

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

Las últimas novedades de tecnología y cloud

Suscríbete gratis al boletín de Revista Cloud. Cada semana la actualidad en tu buzón.

Suscripción boletín
×