AMD pone contra las cuerdas a Vera Rubin: los Instinct MI455X y MI430X prometen paridad en FP4/FP8, mismo ancho de banda… y el doble de memoria HBM4

AMD ha trazado una hoja de ruta agresiva para 2026–2027 que apunta directamente al corazón del dominio de NVIDIA en IA. La nueva serie Instinct MI400 —con los MI455X y MI430X previstos para 2026— y la futura familia MI500 en 2027 representan, en palabras y cifras de la propia compañía, un giro de timón: igualar el rendimiento bruto en FP4 y FP8 frente a Vera Rubin, equiparar el ancho de banda por acelerador y superar la capacidad de memoria con HBM4. El mensaje es claro: la batalla se traslada del chip al rack y del FLOP al flujo de datos.

La clave no es solo “correr más”; es mover más y mejor: más VRAM por GPU, más ancho de banda interno, más escalado de rack y más estandarización para acoplar CPU, GPU y memoria de manera coherente. Si AMD consigue materializar en tiempo su plan —y si el mercado acompaña— 2026 puede inaugurar una competencia real a escala de sistema, no solo de silicio.


MI455X y MI430X: los dos frentes de la familia MI400

AMD divide la próxima generación en dos perfiles complementarios:

  • Instinct MI455X: pensado para entrenamiento e inferencia a gran escala, con foco en rendimiento de IA y expansión horizontal a nivel de rack y de centro de datos.
  • Instinct MI430X: orientado a IA soberana y HPC, donde el FP64 por hardware y la coherencia numérica pesan tanto como la velocidad en formatos de baja precisión.

Ambos aceleradores comparten una arquitectura chiplet con packaging 3,5D (CoWoS-L) y HBM4. Esa combinación —más área efectiva de cómputo, latencias inter-die más bajas y bus de memoria extremo— sitúa a AMD entre los pocos fabricantes capaces de integrar a esta escala de complejidad.

Las cifras que marcan el salto

Según los objetivos presentados por AMD, la serie MI450 (núcleo de la familia MI400) apunta, en términos generales, a:

  • Hasta 40 PFLOP en FP4 y 20 PFLOP en FP8 por acelerador.
  • 432 GB de HBM4 por GPU con un ancho de banda de 19,6 TB/s, casi el doble de la generación MI300.
  • 3,6 TB/s de scale-up (intranodo) y 300 GB/s de scale-out (internodo) como anchos de banda efectivos.

AMD acompaña estas métricas con una comparación de rack: un MI450 “Helios” de 72 GPU ofrecería 1,5 veces más memoria total y 1,5 veces más ancho de banda de scale-out que un rack equivalente con Vera Rubin “Oberon” —manteniendo, dice, paridad de rendimiento bruto en FP4/FP8. De confirmarse, sería un golpe directo a una de las palancas con las que NVIDIA ha dominado el mercado: capacidad de memoria y red de interconexión a gran escala.


Del acelerador al rack: Helios, SerDes de nueva generación y coherencia con CXL

El rendimiento de IA ya no depende solo del FLOP por chip. La red del rack manda. AMD juega esa partida con tres cartas:

  1. Helios: una arquitectura de rack centrada en coherencia unificada entre GPU, CPU y memoria CXL, diseñada para minimizar los cuellos de botella cuando los modelos dejan de caber en memoria local y necesitan sharding agresivo o mixtura de memoria (GPU + CXL).
  2. SerDes y PCIe: enlaces SerDes de 224 GB/s junto a PCIe 7.0 para las próximas generaciones, más Infinity Fabric de quinta generación que homologa el escalado _scale-in/scale-up/scale-out y suma estándares.
  3. Ecosistema abierto: compatibilidad con UALink, CXL 3.1 y UCIe sobre PCIe 6.0, lo que, en teoría, permite mezclar y ensanchar el sistema sin atarse a soluciones propietarias. La promesa: evitar bloqueos de proveedor, reducir costes y habilitar arquitecturas híbridas (CPU + GPU + memoria expandida vía CXL) con coherencia fina.

De fondo late una idea sencilla: si el dato fluye mejor, el FLOP cunde más. Ese es el terreno que AMD quiere disputar a NVIDIA, que con NVLink/NVSwitch ha defendido hasta ahora el liderazgo de rack.


Formatos FP4/FP8 y “memoria para todos”: por qué importan

La paridad reclamada frente a Vera Rubin en FP4/FP8 tiene menos que ver con la precisión per se y más con la eficiencia: el FP4 empuja la inferencia de LLM masivos con consumos contenidos, y el FP8 acelera tanto pre-entrenamiento como tuning y inferencia con un buen balance rendimiento/precisión. Si a esa “igualdad” en cómputo se le añade más VRAM por acelerador (432 GB) y mayor ancho de banda efectivo, el batch crece y las colas se vacían antes: menos offload, menos pagos a memoria cold (CXL o disco), más tokens/s reales.

Para modelos memoria-limitados —que ya empiezan a ser mayoría— la memoria es soberana. Y para cargas que combinan RAG, vector DB y generación, los 19,6 TB/s por GPU son gasolina de alto octanaje: alimentar el cómputo sin estrangularlo.


Software y disponibilidad: el otro “50 %” de la historia

Ni AMD ni nadie gana solo con hardware. La compañía presume de un ROCm en rampa 10× interanual en descargas y de mejoras de rendimiento y funciones en cada versión. En paralelo, sitúa en 3T 2026 el inicio de Helios con MI450 a escala de rack, y 2027 para MI500, la generación descrita como “next-gen compute, memory e interconnect”.

Quienes compran y operan IA a escala mirarán aquí dos líneas en rojo:

  • Time-to-production de software: compatibilidad con PyTorch y ecosistema, velocidad de kernels críticos, calidad del compilador, depuradores, profilers y soporte de bibliotecas (atención a atención, matmul, comms y operadores de vanguardia).
  • Fechas y suministro: poner en la calle HBM4, CoWoS-L 3,5D, SerDes 224 GB/s y PCIe 7.0 a ritmo de cliente es una hazaña industrial. El calendario de 2026–2027 es ambicioso y el mercado es sensible a retrasos.

¿Y la MI500 de 2027?

AMD la pinta como un salto fuerte en cómputo, memoria e interconexión, amparado por nueva generación de HBM y topologías más estandarizadas. No hay cifras públicas, pero el patrón ya está dibujado: empaquetado 3,5D al límite, más memoria por GPU, coherencia extendida y estándares en la red. La jugada estratégica no cambia: del acelerador al rack y del FLOP al flujo.


Lo que significa para arquitectos y capacity planners

  1. Planificar por memoria y por red. El “cómputo suficiente” se logra antes que la memoria suficiente y el network budget. Con 432 GB y 19,6 TB/s por GPU, los batch sizes realistas pueden subir, pero el rack es ahora la unidad de diseño.
  2. Abrazar la coherencia (CXL + UALink + UCIe). Si AMD cumple, mezclar CPU que sumen memoria CXL a los LLM y construir pools coherentes deja de ser un “truco” y pasa a ser topología canónica en hyperscalers y enterprises.
  3. TCO cambia de sitio. Menos offload y menos host round-trips reducen latencias y picos térmicos; más VRAM por GPU sube el coste por acelerador, pero baja el coste por token o por iteración al evitar paradas de datos.
  4. Estandarización real. Si UALink, CXL 3.1 y UCIe aterrizan operativos, la capa de red y la capa de memoria se abren a elecciones multivendedor. Eso presiona a NVIDIA a hacer su stack más permeable, sobre todo en la periferia del GPU.

Dónde sigue estando la pelota en el tejado

  • Ecosistema de software. CUDA sigue siendo el estándar de facto; ROCm crece, pero la “portabilidad mental” de millones de desarrolladores tarda en moverse. La paridad FP4/FP8 en paper no vale si los modelos no rinden idénticos en producción.
  • Suministro HBM. HBM4 en volumen es el cuello de botella que puede decidir qué rack se entrega primero.
  • Energía y refrigeración. Paridad de cómputo con más VRAM sube el perfil térmico. El CAPEX térmico por rack (líquida directa, rear-door, inmersión) será parte de la comparación real con Vera Rubin.
  • Calendario. 2026 está a la vuelta de la esquina para contratos que hoy se negocian. Demoras cambian despliegues enteros.

El veredicto provisional

AMD no promete “ganar el FLOP”; promete igualarlo en los formatos que importan (FP4/FP8) y superar a su rival donde más duelen los cuellos de botella actuales: memoria y red de rack. Lo hace con empaquetado 3,5D y HBM4, empujando coherencia (CXL, UALink) y apertura en interconexión (UCIe, PCIe 6.0/7.0). Si Helios y MI450 llegan a tiempo y con software a la altura, 2026 será la primera campaña en años donde los grandes operadores puedan comparar de tú a tú racks AMD y NVIDIA por capacidad total y coste por token/iteración, no solo por TFLOP de ficha técnica.

El MI500 de 2027 prolonga esa apuesta: del chip al sistema. Y si el mercado termina juzgando por flujo de datos y topologías abiertas, AMD habrá movido el partido al terreno que más le favorece.


Preguntas frecuentes

¿Qué diferencia práctica aporta “432 GB de HBM4 por GPU y 19,6 TB/s” frente a las generaciones anteriores?
Más memoria local significa menos offload y batch más grandes, lo que se traduce en más tokens/s o pasos de entrenamiento sin parones. El ancho de banda reduce la probabilidad de que el cómputo espere datos; en modelos memoria-limitados es decisivo para la eficiencia real.

¿Por qué es importante la compatibilidad con UALink, CXL 3.1 y UCIe?
Porque habilita coherencia entre GPU, CPU y memoria CXL, y modulariza la interconexión a nivel de chiplet y rack. En la práctica, abre la puerta a arquitecturas híbridas y multivendedor, con menor bloqueo y mejor TCO a medio plazo.

Si hay paridad en FP4/FP8, ¿es suficiente para elegir AMD?
No por sí sola. La decisión real combina paridad de cómputo, capacidad de memoria, ancho de banda de scale-out, software (ROCm vs CUDA), entregas y TCO térmico. Donde AMD saca ventaja es en memoria y estándares de red; cada operador ponderará esos factores según su carga.

¿Cuándo estarán disponibles los sistemas Helios con MI450 y qué pasa con MI500?
El plan de AMD sitúa Helios + MI450 en 3T 2026 y MI500 en 2027. Son objetivos de hoja de ruta; los calendarios industriales (HBM4, packaging, PCIe 7.0) pueden variar por oferta y certificaciones.

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×