AMD ha trazado una hoja de ruta agresiva para 2026–2027 que apunta directamente al corazón del dominio de NVIDIA en IA. La nueva serie Instinct MI400 —con los MI455X y MI430X previstos para 2026— y la futura familia MI500 en 2027 representan, en palabras y cifras de la propia compañía, un giro de timón: igualar el rendimiento bruto en FP4 y FP8 frente a Vera Rubin, equiparar el ancho de banda por acelerador y superar la capacidad de memoria con HBM4. El mensaje es claro: la batalla se traslada del chip al rack y del FLOP al flujo de datos.
La clave no es solo “correr más”; es mover más y mejor: más VRAM por GPU, más ancho de banda interno, más escalado de rack y más estandarización para acoplar CPU, GPU y memoria de manera coherente. Si AMD consigue materializar en tiempo su plan —y si el mercado acompaña— 2026 puede inaugurar una competencia real a escala de sistema, no solo de silicio.
MI455X y MI430X: los dos frentes de la familia MI400
AMD divide la próxima generación en dos perfiles complementarios:
- Instinct MI455X: pensado para entrenamiento e inferencia a gran escala, con foco en rendimiento de IA y expansión horizontal a nivel de rack y de centro de datos.
- Instinct MI430X: orientado a IA soberana y HPC, donde el FP64 por hardware y la coherencia numérica pesan tanto como la velocidad en formatos de baja precisión.
Ambos aceleradores comparten una arquitectura chiplet con packaging 3,5D (CoWoS-L) y HBM4. Esa combinación —más área efectiva de cómputo, latencias inter-die más bajas y bus de memoria extremo— sitúa a AMD entre los pocos fabricantes capaces de integrar a esta escala de complejidad.
Las cifras que marcan el salto
Según los objetivos presentados por AMD, la serie MI450 (núcleo de la familia MI400) apunta, en términos generales, a:
- Hasta 40 PFLOP en FP4 y 20 PFLOP en FP8 por acelerador.
- 432 GB de HBM4 por GPU con un ancho de banda de 19,6 TB/s, casi el doble de la generación MI300.
- 3,6 TB/s de scale-up (intranodo) y 300 GB/s de scale-out (internodo) como anchos de banda efectivos.
AMD acompaña estas métricas con una comparación de rack: un MI450 “Helios” de 72 GPU ofrecería 1,5 veces más memoria total y 1,5 veces más ancho de banda de scale-out que un rack equivalente con Vera Rubin “Oberon” —manteniendo, dice, paridad de rendimiento bruto en FP4/FP8. De confirmarse, sería un golpe directo a una de las palancas con las que NVIDIA ha dominado el mercado: capacidad de memoria y red de interconexión a gran escala.
Del acelerador al rack: Helios, SerDes de nueva generación y coherencia con CXL
El rendimiento de IA ya no depende solo del FLOP por chip. La red del rack manda. AMD juega esa partida con tres cartas:
- Helios: una arquitectura de rack centrada en coherencia unificada entre GPU, CPU y memoria CXL, diseñada para minimizar los cuellos de botella cuando los modelos dejan de caber en memoria local y necesitan sharding agresivo o mixtura de memoria (GPU + CXL).
- SerDes y PCIe: enlaces SerDes de 224 GB/s junto a PCIe 7.0 para las próximas generaciones, más Infinity Fabric de quinta generación que homologa el escalado _scale-in/scale-up/scale-out y suma estándares.
- Ecosistema abierto: compatibilidad con UALink, CXL 3.1 y UCIe sobre PCIe 6.0, lo que, en teoría, permite mezclar y ensanchar el sistema sin atarse a soluciones propietarias. La promesa: evitar bloqueos de proveedor, reducir costes y habilitar arquitecturas híbridas (CPU + GPU + memoria expandida vía CXL) con coherencia fina.
De fondo late una idea sencilla: si el dato fluye mejor, el FLOP cunde más. Ese es el terreno que AMD quiere disputar a NVIDIA, que con NVLink/NVSwitch ha defendido hasta ahora el liderazgo de rack.
Formatos FP4/FP8 y “memoria para todos”: por qué importan
La paridad reclamada frente a Vera Rubin en FP4/FP8 tiene menos que ver con la precisión per se y más con la eficiencia: el FP4 empuja la inferencia de LLM masivos con consumos contenidos, y el FP8 acelera tanto pre-entrenamiento como tuning y inferencia con un buen balance rendimiento/precisión. Si a esa “igualdad” en cómputo se le añade más VRAM por acelerador (432 GB) y mayor ancho de banda efectivo, el batch crece y las colas se vacían antes: menos offload, menos pagos a memoria cold (CXL o disco), más tokens/s reales.
Para modelos memoria-limitados —que ya empiezan a ser mayoría— la memoria es soberana. Y para cargas que combinan RAG, vector DB y generación, los 19,6 TB/s por GPU son gasolina de alto octanaje: alimentar el cómputo sin estrangularlo.
Software y disponibilidad: el otro “50 %” de la historia
Ni AMD ni nadie gana solo con hardware. La compañía presume de un ROCm en rampa 10× interanual en descargas y de mejoras de rendimiento y funciones en cada versión. En paralelo, sitúa en 3T 2026 el inicio de Helios con MI450 a escala de rack, y 2027 para MI500, la generación descrita como “next-gen compute, memory e interconnect”.
Quienes compran y operan IA a escala mirarán aquí dos líneas en rojo:
- Time-to-production de software: compatibilidad con PyTorch y ecosistema, velocidad de kernels críticos, calidad del compilador, depuradores, profilers y soporte de bibliotecas (atención a atención, matmul, comms y operadores de vanguardia).
- Fechas y suministro: poner en la calle HBM4, CoWoS-L 3,5D, SerDes 224 GB/s y PCIe 7.0 a ritmo de cliente es una hazaña industrial. El calendario de 2026–2027 es ambicioso y el mercado es sensible a retrasos.
¿Y la MI500 de 2027?
AMD la pinta como un salto fuerte en cómputo, memoria e interconexión, amparado por nueva generación de HBM y topologías más estandarizadas. No hay cifras públicas, pero el patrón ya está dibujado: empaquetado 3,5D al límite, más memoria por GPU, coherencia extendida y estándares en la red. La jugada estratégica no cambia: del acelerador al rack y del FLOP al flujo.
Lo que significa para arquitectos y capacity planners
- Planificar por memoria y por red. El “cómputo suficiente” se logra antes que la memoria suficiente y el network budget. Con 432 GB y 19,6 TB/s por GPU, los batch sizes realistas pueden subir, pero el rack es ahora la unidad de diseño.
- Abrazar la coherencia (CXL + UALink + UCIe). Si AMD cumple, mezclar CPU que sumen memoria CXL a los LLM y construir pools coherentes deja de ser un “truco” y pasa a ser topología canónica en hyperscalers y enterprises.
- TCO cambia de sitio. Menos offload y menos host round-trips reducen latencias y picos térmicos; más VRAM por GPU sube el coste por acelerador, pero baja el coste por token o por iteración al evitar paradas de datos.
- Estandarización real. Si UALink, CXL 3.1 y UCIe aterrizan operativos, la capa de red y la capa de memoria se abren a elecciones multivendedor. Eso presiona a NVIDIA a hacer su stack más permeable, sobre todo en la periferia del GPU.
Dónde sigue estando la pelota en el tejado
- Ecosistema de software. CUDA sigue siendo el estándar de facto; ROCm crece, pero la “portabilidad mental” de millones de desarrolladores tarda en moverse. La paridad FP4/FP8 en paper no vale si los modelos no rinden idénticos en producción.
- Suministro HBM. HBM4 en volumen es el cuello de botella que puede decidir qué rack se entrega primero.
- Energía y refrigeración. Paridad de cómputo con más VRAM sube el perfil térmico. El CAPEX térmico por rack (líquida directa, rear-door, inmersión) será parte de la comparación real con Vera Rubin.
- Calendario. 2026 está a la vuelta de la esquina para contratos que hoy se negocian. Demoras cambian despliegues enteros.
El veredicto provisional
AMD no promete “ganar el FLOP”; promete igualarlo en los formatos que importan (FP4/FP8) y superar a su rival donde más duelen los cuellos de botella actuales: memoria y red de rack. Lo hace con empaquetado 3,5D y HBM4, empujando coherencia (CXL, UALink) y apertura en interconexión (UCIe, PCIe 6.0/7.0). Si Helios y MI450 llegan a tiempo y con software a la altura, 2026 será la primera campaña en años donde los grandes operadores puedan comparar de tú a tú racks AMD y NVIDIA por capacidad total y coste por token/iteración, no solo por TFLOP de ficha técnica.
El MI500 de 2027 prolonga esa apuesta: del chip al sistema. Y si el mercado termina juzgando por flujo de datos y topologías abiertas, AMD habrá movido el partido al terreno que más le favorece.
Preguntas frecuentes
¿Qué diferencia práctica aporta “432 GB de HBM4 por GPU y 19,6 TB/s” frente a las generaciones anteriores?
Más memoria local significa menos offload y batch más grandes, lo que se traduce en más tokens/s o pasos de entrenamiento sin parones. El ancho de banda reduce la probabilidad de que el cómputo espere datos; en modelos memoria-limitados es decisivo para la eficiencia real.
¿Por qué es importante la compatibilidad con UALink, CXL 3.1 y UCIe?
Porque habilita coherencia entre GPU, CPU y memoria CXL, y modulariza la interconexión a nivel de chiplet y rack. En la práctica, abre la puerta a arquitecturas híbridas y multivendedor, con menor bloqueo y mejor TCO a medio plazo.
Si hay paridad en FP4/FP8, ¿es suficiente para elegir AMD?
No por sí sola. La decisión real combina paridad de cómputo, capacidad de memoria, ancho de banda de scale-out, software (ROCm vs CUDA), entregas y TCO térmico. Donde AMD saca ventaja es en memoria y estándares de red; cada operador ponderará esos factores según su carga.
¿Cuándo estarán disponibles los sistemas Helios con MI450 y qué pasa con MI500?
El plan de AMD sitúa Helios + MI450 en 3T 2026 y MI500 en 2027. Son objetivos de hoja de ruta; los calendarios industriales (HBM4, packaging, PCIe 7.0) pueden variar por oferta y certificaciones.