UC San Diego refuerza su investigación en inferencia de LLM con un sistema NVIDIA DGX B200

La carrera por servir modelos de lenguaje con baja latencia ya no se decide solo en papers y benchmarks: cada vez más, se gana (o se pierde) en el laboratorio de sistemas, donde el cuello de botella suele estar en cómo se “sirve” el modelo en producción. En ese contexto, el Hao AI Lab de la University of California San Diego (UC San Diego) ha incorporado un sistema NVIDIA DGX B200 para acelerar su trabajo en inferencia de grandes modelos, una pieza de infraestructura que también queda disponible para la comunidad universitaria a través del San Diego Supercomputer Center.

La noticia tiene interés más allá del titular de “nuevo hardware”: varios enfoques que hoy se consideran estándar —o, como mínimo, inevitables— en plataformas de inferencia a gran escala se apoyan en ideas nacidas en este grupo. NVIDIA subraya que conceptos de investigación desarrollados en el Hao AI Lab han influido en soluciones actuales de inferencia en producción, incluyendo líneas de trabajo como DistServe, centradas en mejorar la eficiencia sin sacrificar la experiencia del usuario.

De “más tokens por segundo” a “buen rendimiento con la latencia que el usuario exige”

Durante años, la métrica dominante para comparar motores de inferencia fue el throughput: cuántos tokens por segundo genera el sistema. El problema es que esa cifra, por sí sola, no explica lo que percibe una persona esperando la respuesta del modelo. En la práctica, exigir menor latencia suele implicar renunciar a parte del throughput.

Ahí es donde entra el concepto de goodput, una métrica que busca capturar el rendimiento “útil”: el throughput que se mantiene cumpliendo objetivos de latencia (SLO). La idea, popularizada en esta línea de investigación, resulta especialmente relevante a medida que los LLM pasan de demos a productos con compromisos de servicio reales: no basta con generar mucho, hay que generar rápido cuando toca, de forma consistente, y con costes controlados.

Separar prefill y decode: una decisión de arquitectura con impacto real

En un flujo típico de inferencia, el sistema primero realiza el prefill (procesar el prompt para generar el primer token) y después entra en decode (generar tokens de salida secuencialmente). Históricamente, ambas fases se ejecutaban en la misma GPU, lo que introduce competencia por recursos: el prefill suele ser más intensivo en cómputo, mientras que el decode tiende a estar más condicionado por memoria y acceso eficiente a cachés.

La estrategia de “disagregación” —separar prefill y decode en distintos grupos de GPU— apunta a reducir esa interferencia y mejorar el goodput. NVIDIA lo enmarca como una vía para escalar sin renunciar a baja latencia, y lo relaciona con NVIDIA Dynamo, su propuesta open source para llevar este tipo de inferencia disgregada a entornos que buscan eficiencia operativa.

¿Por qué DGX B200 aquí, y por qué ahora?

Para un laboratorio que trabaja en servir modelos en tiempo real, un sistema DGX B200 no es solo “más GPU”: es una forma de iterar antes, probar más hipótesis y validar con menos fricción. El equipo de UC San Diego lo plantea en esos términos: poder prototipar y experimentar “mucho más rápido” que con generaciones previas.

A nivel técnico, DGX B200 se concibe como un sistema de propósito general para entrenamiento e inferencia, construido sobre ocho GPUs NVIDIA B200 y con una configuración pensada para altas exigencias de memoria y comunicación interna. En la documentación y materiales de NVIDIA se destaca que el sistema integra 1.440 GB de memoria total en GPU y una interconexión de alta velocidad con NVLink/NVSwitch, precisamente el tipo de base que ayuda cuando se buscan latencias consistentes y alto rendimiento sostenido bajo carga. En otras palabras: si el trabajo consiste en exprimir el “serving” y no solo el “modelo”, la plataforma importa.

FastVideo y Lmgame-bench: vídeo generativo en tiempo real y juegos como banco de pruebas

La llegada del DGX B200 también se conecta con proyectos concretos del Hao AI Lab. Uno de ellos es FastVideo, que persigue entrenar modelos de generación de vídeo capaces de producir clips de cinco segundos a partir de un prompt en un tiempo comparable: cinco segundos. El objetivo apunta a un umbral psicológico importante para producto: pasar de “esperar” a “interactuar”.

FastWan2.1-1.3B Demo

El segundo es Lmgame-bench, un conjunto de pruebas que evalúa modelos usando videojuegos populares como Tetris o Super Mario Bros. Más allá del guiño cultural, el enfoque tiene lógica ingenieril: los juegos obligan a tomar decisiones secuenciales, adaptarse a estados cambiantes y responder con rapidez, condiciones que se parecen bastante a lo que luego se exige a un agente en producción cuando “vive” dentro de un sistema.

La lectura para el sector: inferencia como disciplina propia

Que un laboratorio académico reciba una plataforma DGX de última generación suele leerse como un hito de capacidad de cómputo. Pero el trasfondo es otro: la inferencia se está consolidando como una disciplina propia, con métricas (como goodput), arquitecturas (disagregación prefill/decode) y herramientas que buscan industrializar la latencia baja sin convertir el coste en un problema existencial.

Y eso, para el ecosistema, es una señal clara: la próxima ventaja competitiva no vendrá solo de “entrenar modelos más grandes”, sino de servirlos mejor, con más control sobre experiencia, eficiencia y escalado.

Fuente: Noticias inteligencia artificial

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×