NVIDIA Groq 3 LPX: el nuevo motor para la inferencia de baja latencia

Nota de Prensa

La gran pelea de la IA ya no está solo en entrenar modelos más grandes. Cada vez más, el cuello de botella real aparece en la inferencia: cuánto tarda un sistema en empezar a responder, cuánta latencia acumula cuando varios agentes interactúan entre sí y cuánto cuesta mantener esa velocidad a escala. En ese contexto, NVIDIA ha presentado Groq 3 LPX, un nuevo acelerador rack-scale para la plataforma Vera Rubin pensado específicamente para cargas de inferencia de baja latencia y contextos muy largos, dos ingredientes cada vez más importantes en la llamada IA agéntica.

La compañía lo plantea como una pieza complementaria de Vera Rubin NVL72, no como un sustituto de sus GPUs generalistas. La idea es repartir el trabajo: las GPUs Rubin seguirán siendo el motor flexible para entrenamiento, prefill, atención y serving de alto throughput, mientras que LPX se ocupará de la parte más sensible a la latencia dentro del decode, allí donde cada milisegundo empieza a notarse en asistentes de código, copilotos, agentes con uso de herramientas o sistemas multiagente.

Sobre el papel, las cifras son llamativas. NVIDIA habla de un sistema basado en 256 aceleradores Groq 3 LPU, con 315 PFLOPS de inferencia FP8, 128 GB de SRAM total, 40 PB/s de ancho de banda de SRAM on-chip y 640 TB/s de scale-up bandwidth por rack. También lo describe como el “séptimo chip” de la plataforma Vera Rubin, una forma de dejar claro que no estamos ante una simple variante de GPU, sino ante una nueva clase de procesador dentro de su arquitectura de fábrica de IA.

Una arquitectura pensada para la IA interactiva

Lo más interesante del anuncio no está tanto en el volumen bruto de cómputo como en el tipo de uso que NVIDIA quiere atacar. Su tesis es que la inferencia se está bifurcando en dos mundos. Por un lado, están las cargas orientadas a throughput, como embeddings, moderación, pipelines batch o servicios masivos donde importa más maximizar tokens por GPU o por vatio. Por otro, crecen los escenarios donde la latencia manda: asistentes conversacionales, agentes autónomos, voz, traducción, razonamiento interactivo o sistemas que encadenan inferencia, recuperación, herramientas y nuevas llamadas a modelo.

En esos casos, optimizar todo el pipeline para un solo régimen obliga a sacrificar algo. El hardware afinado para sacar mucho throughput con grandes lotes no siempre es el mejor para generar tokens de forma rápida y estable con lotes pequeños. Y el hardware muy orientado a respuesta instantánea tampoco es necesariamente el más eficiente para las fases más intensivas del pipeline. NVIDIA propone resolver ese dilema con una arquitectura heterogénea: Rubin para el trabajo más pesado y LPX para el decode más sensible a la latencia, especialmente en componentes como FFN y MoE.

Ese reparto también se apoya en un diseño muy distinto al de una GPU clásica. El núcleo de LPX, el Groq 3 LPU, prioriza ejecución determinista, memoria SRAM-first, movimiento explícito de datos y coordinación estrecha entre cómputo y comunicación bajo control del compilador. NVIDIA detalla que cada LPU integra 500 MB de SRAM on-chip, 150 TB/s de ancho de banda interno y enlaces chip-to-chip de alta velocidad para reducir jitter y hacer más predecible el tiempo por token. En otras palabras, el producto no se vende por su flexibilidad, sino por su capacidad para mantener tiempos de respuesta estables cuando la experiencia del usuario depende de ello.

Más tokens útiles, no solo más tokens

NVIDIA conecta esta apuesta con un cambio más amplio en la economía de la IA. La empresa sostiene que, a medida que los modelos se acercan a velocidades de 1.000 tokens por segundo por usuario, las interacciones dejan de parecer un chat por turnos y se acercan más a una colaboración continua, con agentes que razonan, simulan, consultan herramientas y reaccionan en tiempo real. Esa es la narrativa con la que justifica Groq 3 LPX: abrir una nueva categoría de inferencia donde no basta con servir más peticiones, sino que hay que servirlas con más inmediatez y menos variabilidad.

Para hacer operativa esa heterogeneidad, NVIDIA apoya el despliegue en Dynamo, su software de orquestación para inferencia distribuida. La compañía lo presenta como la capa que clasifica peticiones, enruta el prefill a GPU, coordina el intercambio de activaciones entre Rubin y LPX durante el decode y ayuda a mantener la latencia de cola bajo control en condiciones de tráfico variable. También plantea a LPX como una pieza muy adecuada para decodificación especulativa, actuando como motor draft mientras las GPUs Rubin verifican y aceptan tokens con el modelo principal.

Las cifras más agresivas del anuncio, sin embargo, conviene leerlas con prudencia. NVIDIA asegura que la combinación de Vera Rubin NVL72 + LPX puede ofrecer hasta 35 veces más throughput de inferencia por megavatio y hasta 10 veces más oportunidad de ingresos para modelos del orden del billón de parámetros frente a sistemas anteriores, especialmente en servicios premium muy interactivos. Son métricas del fabricante, útiles para entender el posicionamiento del producto, pero que todavía necesitarán validación práctica cuando esta arquitectura llegue a despliegues reales.

Lo que sí deja claro Groq 3 LPX es la dirección estratégica de NVIDIA. La compañía no quiere que la próxima generación de infraestructura de IA se mida solo por cuántos tokens puede producir un rack, sino por cómo combina throughput, latencia y valor económico por megavatio. En ese escenario, la IA agéntica deja de ser solo una cuestión de modelos y pasa a depender también de una nueva capa de hardware especializado para inferencia interactiva.

Preguntas frecuentes

¿Qué es exactamente NVIDIA Groq 3 LPX?
Es un nuevo acelerador rack-scale de inferencia que NVIDIA ha presentado para su plataforma Vera Rubin, orientado a cargas de baja latencia, contextos largos y sistemas agénticos.

¿Qué papel tendrá frente a Vera Rubin NVL72?
NVIDIA lo plantea como un complemento. Rubin seguirá manejando entrenamiento, prefill, decode attention y serving generalista, mientras LPX acelera partes del decode más sensibles a la latencia, como FFN y MoE.

¿Qué especificaciones ha anunciado NVIDIA para LPX?
La compañía habla de 256 LPUs por rack, 315 PFLOPS FP8, 128 GB de SRAM total, 40 PB/s de ancho de banda de SRAM on-chip y 640 TB/s de scale-up bandwidth.

¿Por qué este lanzamiento importa para la IA agéntica?
Porque la IA agéntica exige respuestas más rápidas, latencia más estable y mejor comportamiento en bucles de inferencia, herramientas y razonamiento. NVIDIA quiere posicionar LPX justo en ese punto del mercado.

vía: Presentación Nvidia Groq3