
NVIDIA Groq 3 LPX: el nuevo motor para la inferencia de baja latencia
La gran pelea de la IA ya no está solo en entrenar modelos más grandes. Cada vez más, el cuello de botella real aparece en la inferencia: cuánto tarda un sistema en empezar a responder, cuánta latencia acumula cuando varios agentes interactúan entre sí y cuánto cuesta mantener esa velocidad a escala. En ese contexto, NVIDIA ha presentado Groq 3 LPX, un nuevo acelerador rack-scale para la plataforma Vera Rubin pensado específicamente para cargas de inferencia de baja latencia y contextos muy largos, dos ingredientes cada vez más importantes en la llamada IA agéntica. La compañía lo plantea como una pieza complementaria de Vera Rubin NVL72, no como un sustituto de sus GPUs generalistas. La idea es repartir el trabajo:

