La conversación sobre infraestructura de Inteligencia Artificial está dejando de girar solo alrededor del “rendimiento bruto” y empieza a obsesionarse con algo mucho más prosaico: cuánto cuesta servir cada token cuando el usuario exige respuestas rápidas, a escala y con buena “sensación” de interacción. En ese terreno, los modelos MoE (Mixture of Experts / Mezcla de Expertos) están empujando a la industria hacia un problema incómodo: la comunicación entre nodos y la latencia interna se vuelve casi tan importante como la potencia de cálculo.
En ese contexto, la firma Signal65 ha publicado un análisis centrado en lo que llama “la nueva economía de la inferencia” para MoE, comparando plataformas de NVIDIA y AMD con una idea base: el coste relativo por token depende del coste de la plataforma y de los tokens por segundo que realmente entrega a un objetivo de interactividad concreto. La conclusión —con matices importantes— es llamativa: en una configuración orientada a MoE, un rack NVIDIA GB200 NVL72 puede ofrecer hasta 28× más throughput por GPU que AMD MI355X a un nivel alto de interactividad (75 tokens/segundo/usuario), y eso se traduce en hasta 15× más “performance por dólar” en ese punto.
Por qué MoE cambia las reglas: el cuello de botella ya no es solo “computar”
Los MoE funcionan activando “expertos” (subredes especializadas) de forma dinámica, lo que permite eficiencia frente a modelos densos… pero introduce un precio: muchísimo intercambio de datos. En la práctica, cuando se escala un MoE, aparecen patrones tipo “all-to-all” que castigan la latencia y presionan el ancho de banda interno. Dicho de forma sencilla: puedes tener GPUs rapidísimas, pero si la coordinación entre expertos se atasca, la experiencia interactiva se hunde.
Ahí es donde NVIDIA apuesta por el concepto rack-scale: un gran dominio de cómputo y memoria de alta velocidad, diseñado para minimizar esos peajes al mover datos dentro del sistema. Signal65 vincula buena parte de la ventaja observada a esa arquitectura de “co-diseño” (hardware + interconexión + software) y a una configuración de gran escala con memoria compartida rápida.
Qué es (a grandes rasgos) un GB200 NVL72 y por qué importa
En el mercado se ha popularizado la referencia “NVL72” para describir racks de NVIDIA con 72 aceleradores unidos por una interconexión interna de muy alta velocidad, pensados para comportarse como un “supernodo” para IA. En el caso de GB200, esa familia se asocia a la plataforma Grace-Blackwell; en piezas divulgativas y de industria se describe como un sistema a escala de rack que combina CPU Grace y GPUs Blackwell en una arquitectura de alto acoplamiento.
La idea detrás de esto no es nueva en el fondo, pero sí extrema en ejecución: en MoE, el valor no está solo en cuántos TFLOPS tienes, sino en cuántos tokens útiles produces con latencia aceptable, sin que el sistema se pase el día “hablando consigo mismo”.
Qué pone AMD sobre la mesa con MI355X
AMD, por su parte, empuja la gama Instinct con un argumento que en IA pesa muchísimo: memoria y ancho de banda. En su ficha oficial, AMD posiciona MI355X como un acelerador basado en su 4.ª generación de AMD CDNA, con 288 GB de HBM3E y hasta 8 TB/s de ancho de banda de memoria, entre otros rasgos orientados a cargas de IA.
En otras palabras: en densidad de memoria y músculo para escenarios muy exigentes, AMD tiene un producto claramente agresivo. El debate es si, en MoE altamente interactivo y a escala, la ventaja se desplaza hacia quien domina mejor el “tejido conectivo” del sistema.
Los números del informe: coste por token y “performance por dólar”
Signal65 explica que utiliza mediciones de rendimiento de terceros y separa el cálculo económico para que el lector entienda las suposiciones. En su tabla comparativa (citando precios públicos de Oracle Cloud para estas plataformas), fija un enfoque de “coste relativo” donde el coste por token deriva de:
- coste por GPU-hora,
- dividido por los tokens por segundo por GPU al objetivo de interactividad,
- escalado a millones de tokens.
En ese marco, y para MoE:
- A 25 tokens/segundo/usuario:
- Price ratio (GB200 vs MI355X): 1,86×
- Performance delta (por GPU): 5,85×
- Performance por dólar: 3,1×
- Coste relativo por token: 1/3 (aprox.) frente a MI355X
- A 75 tokens/segundo/usuario:
- Price ratio (GB200 vs MI355X): 1,86×
- Performance delta (por GPU): 28×
- Performance por dólar: 15×
- Coste relativo por token: 1/15 frente a MI355X
Para aterrizarlo en una tabla rápida:
| Objetivo de interactividad | Plataforma (referencia Signal65) | Ratio precio (vs MI355X) | Delta rendimiento (vs MI355X) | Ventaja rendimiento/$ | Coste relativo por token |
|---|---|---|---|---|---|
| 25 tokens/s/usuario | GB200 NVL72 | 1,86× | 5,85× | 3,1× | 1/3 |
| 25 tokens/s/usuario | MI355X | 1,0× | 1,0× | 1,0× | 1,0× |
| 75 tokens/s/usuario | GB200 NVL72 | 1,86× | 28× | 15× | 1/15 |
| 75 tokens/s/usuario | MI355X | 1,0× | 1,0× | 1,0× | 1,0× |
Además, Signal65 remarca que, en su análisis, la referencia de precios públicos para MI355X en nube que puede contrastar proviene de Oracle, y Oracle también ha comunicado disponibilidad de MI355X en OCI con precio desde 8,60 $/hora (según su publicación).
Lo que no dice el titular: por qué hay que leer la letra pequeña
Estos resultados no son “la verdad universal” del rendimiento NVIDIA vs AMD. Son, más bien, una fotografía de un escenario muy concreto:
- MoE, donde la comunicación interna y la latencia mandan.
- Un objetivo de interactividad explícito (25 vs 75 tokens/s/usuario), que cambia radicalmente el punto de operación.
- Pilas de software concretas (Signal65 menciona combinaciones como TensorRT-LLM, vLLM y una configuración asociada a “Dynamo” en sus gráficas), lo que puede alterar mucho la comparativa en la práctica.
- Precios “listados” en nube, que rara vez reflejan lo que paga un hiperescala real con compromisos de consumo, descuentos, reservas o acuerdos de capacidad.
También hay un punto casi filosófico: si la industria se mueve hacia experiencias “chat” cada vez más interactivas, la métrica de tokens/s a objetivos estrictos de latencia puede volverse el KPI dominante. Si, en cambio, el foco es throughput bruto en lotes, otros modelos densos, o cargas que priorizan memoria por encima de todo, el mapa puede cambiar.
Aun así, el mensaje de fondo sí parece sólido: en MoE a escala, la arquitectura del sistema completo (interconexión + memoria + software) puede marcar diferencias enormes en economía de inferencia, incluso cuando el rival ofrece aceleradores muy capaces sobre el papel.
Preguntas frecuentes
¿Por qué “tokens por segundo por usuario” es una métrica clave en IA generativa?
Porque aproxima la experiencia real: no solo cuántos tokens produce la GPU, sino si puede hacerlo manteniendo una respuesta fluida para muchos usuarios simultáneos.
¿Qué diferencia práctica hay entre un modelo denso y un MoE en costes de inferencia?
El MoE puede ser más eficiente en cómputo, pero suele exigir más coordinación y tráfico interno: si la interconexión se convierte en cuello de botella, sube el coste por token “útil” en escenarios interactivos.
¿Por qué el “coste por token” puede diferir tanto entre proveedores cloud y centros de datos propios?
En cloud influyen tarifas, disponibilidad, cuotas y descuentos; on-prem importan amortización, energía, refrigeración y utilización media. La misma plataforma puede salir “cara” o “barata” según el nivel de ocupación y el patrón de demanda.
¿Puedo extrapolar un benchmark MoE a mi caso (atención al cliente, RAG, copilots internos)?
Solo con cuidado: la mezcla de modelos, cuantización, longitud de contexto, concurrencia y objetivos de latencia cambia el resultado. Lo útil es la metodología: medir TPS a tu interactividad objetivo y convertirlo a coste por millón de tokens con tus precios reales.