Oracle y AMD han anunciado una expansión “de calado” de su colaboración multigeneracional para escalar capacidades de inteligencia artificial (IA) en la nube. Oracle Cloud Infrastructure (OCI) será socio de lanzamiento del primer superclúster público de IA basado en AMD Instinct™ MI450 Series, con un despliegue inicial de 50.000 GPU a partir del tercer trimestre de 2026 y crecimiento previsto a lo largo de 2027 y años siguientes. El movimiento llega en un momento en el que la demanda de capacidad de IA a gran escala se acelera y los modelos de nueva generación superan los límites de los clústeres actuales.
La iniciativa se sustenta en la plataforma rack-scale “Helios” presentada por AMD en el OCP Global Summit, y en un stack vertical de nueva generación que combina GPU Instinct MI450, CPU AMD EPYC™ “Venice” y red avanzada AMD Pensando™ “Vulcano”, todo ello integrado con fábricas abiertas —UALink/UALoE para scale-up entre GPU y **Ethernet alineado con el Ultra Ethernet Consortium (UEC) para scale-out—, así como con refrigeración líquida y densidad de 72 GPU por rack para maximizar rendimiento y eficiencia energética.
“Nuestros clientes están construyendo algunas de las aplicaciones de IA más ambiciosas del mundo, y eso exige una infraestructura robusta, escalable y de alto rendimiento”, afirmó Mahesh Thiagarajan, vicepresidente ejecutivo de Oracle Cloud Infrastructure. “Al unir las últimas innovaciones de AMD con la plataforma segura y flexible de OCI —y red avanzada con Oracle Acceleron—, pueden empujar los límites con confianza. Tras una década de colaboración, seguimos ofreciendo la mejor relación precio-rendimiento en una nube abierta, segura y escalable”.
“AMD y Oracle siguen marcando el ritmo de la innovación de IA en la nube”, apuntó Forrest Norrod, vicepresidente ejecutivo y director general del Data Center Solutions Business Group de AMD. “Con AMD Instinct, EPYC y Pensando, los clientes de Oracle obtienen nuevas capacidades para entrenar, ajustar y desplegar la próxima generación de IA en centros de datos masivos”.
Qué se ha anunciado (y cuándo)
- Superclúster público de IA en OCI con AMD Instinct MI450: 50.000 GPU desde Q3 2026, con expansión en 2027+.
- Arquitectura “Helios” (rack-scale abierta) con 72 GPU por rack, líquida, UALoE para scale-up y Ethernet UEC-aligned para scale-out.
- CPU AMD EPYC “Venice” como nodo de cabecera para orquestación y datos, con confidential computing end-to-end.
- Red convergente acelerada por DPU AMD Pensando “Vulcano” (hasta 3 AI-NIC de 800 Gbps por GPU) con conectividad sin pérdidas, programable y soporte avanzado RoCE/UEC.
- HBM4 en MI450: hasta 432 GB por GPU y 20 TB/s de ancho de banda, para entrenar e inferir modelos un 50 % más grandes que en la generación previa enteramente en memoria.
- Software abierto AMD ROCm™ y particionado/virtualización fina: SR-IOV, multi-tenencia y reparto seguro de GPU y pods.
- General availability en OCI de Compute con AMD Instinct MI355X dentro del superclúster zettascale (escala hasta 131.072 GPU), como oferta de valor y compatibilidad open-source.
Por qué importa: los modelos superan a los clústeres… y la infraestructura responde
El anuncio refleja una realidad que los equipos de IA viven a pie de clúster: los modelos frontera y sus variantes (multimodales, mixtures of experts, context lengths crecientes) desbordan las arquitecturas actuales en memoria, ancho de banda y tejidos de interconexión. El salto a HBM4 —con hasta 432 GB por GPU y 20 TB/s— combinado con fábricas abiertas (intra-rack UALink/UALoE y inter-rack UEC) apunta a tres cuellos de botella clásicos:
- Capacidad y caudal de memoria: menos partición forzada, fewer checkpoints, y pipelines más simples.
- Escala eficiente: menos hops y latencia entre GPU, colectivas optimizadas y tejidos observables (telemetría, congestion control).
- Operación sostenible: líquida con desconexión rápida, densidad razonable por rack, serviciabilidad y eficiencia energética.
El posicionamiento combinado de OCI (capa de control, seguridad, acceleron networking) y AMD (GPU, CPU, DPU y rack-scale abierto) busca capturar ese triángulo rendimiento-escala-eficiencia con una nube pública que, en esta ola, no solo alquila cómputo: entrega clústeres listos para trabajo extremo con controles de aislamiento y confianza para cargas sensibles.
Bajo el capó: “Helios” + MI450 + Venice + Vulcano
GPU AMD Instinct MI450 (HBM4)
- Hasta 432 GB HBM4 por GPU, 20 TB/s de ancho de banda.
- Modelos un 50 % más grandes que en la generación anterior, en memoria (menos partición, menos sobrecarga de sincronización).
- Formas (shapes) diseñadas para LLM avanzados, GenAI y HPC en entornos abiertos (ROCm).
Rack Helios (ORW) con scale-up/scale-out abiertos
- 72 GPU por rack, líquida y acoples rápidos, doble ancho (servicio y flujo térmico).
- UALoE como transporte del protocolo UALink: coherencia hardware y memoria compartida entre GPU dentro del rack sin pasar por CPU.
- Ethernet UEC-aligned para scale-out: alto rendimiento, multi-path y programabilidad entre pods y racks.
CPU AMD EPYC “Venice” (nodo de cabecera)
- Orquestación de trabajos a gran escala, ingesta y preprocesado de datos a alta velocidad.
- Confidential computing y seguridad integrada para E2E en flujos con datos sensibles.
Red convergente acelerada por DPU AMD Pensando “Vulcano”
- Hasta 3 AI-NIC de 800 Gbps por GPU: conectividad sin pérdidas, programable, RoCE/UEC avanzado.
- Ingesta line-rate, aislamiento y políticas de seguridad desde la propia DPU.
Software y multi-tenencia
- ROCm™: stack abierto (frameworks, librerías, compiladores, runtimes), pensado para portabilidad y libertad de proveedor.
- Particionado fino de GPU y pods, SR-IOV, multi-tenant robusto: compartir con seguridad y ajustar GPU a la necesidad real de la carga.
OCI Supercluster: de MI300X/MI355X a MI450
El anuncio se apoya en una senda que arrancó en 2024 con Instinct MI300X en OCI y continuó con la disponibilidad general de OCI Compute con MI355X, ya en el superclúster zettascale (hasta 131.072 GPU). MI450 es el escalón siguiente: HBM4, ancho de banda y un tejido pensado para modelos trillion-scale y moat lengths extensos con menor penalización por sharding.
Para clientes, esto se traduce en un menú que combina valor y escala: MI355X para ratio precio-rendimiento y compatibilidad open-source; MI450 para los límites de vanguardia cuando memoria y tejido marcan la diferencia.
Qué resuelve este stack (y para quién)
Entrenamiento frontera (pre-train multimillonario, MoE, contextos largos):
- Menos particionado, más tokens/s redituables, colectivas más estables, observabilidad del tejido.
Ajuste fino e inferencia masiva (RAG, agents, copilots):
- Latencia menor en scale-out, memoria suficiente para orquestaciones más complejas sin offloading constante.
HPC con workflows mixtos (simulación + ML):
- Head node “Venice” acelera ingesta y orquestación; DPU libera a CPU/GPU de tareas de red/seguridad.
Sectores regulados (salud, finanzas, sector público):
- Confidential computing y controles multi-tenant; seguridad integrada y trazabilidad para auditoría.
Lectura de mercado: estándares abiertos y verticalización inteligente
El valor estratégico no está solo en la cifra (50.000 GPU): está en el cómo. Oracle y AMD apuestan por estándares abiertos (ORW/Helios, UALink/UALoE, UEC, ROCm) con una verticalización donde cada capa aporta eficiencia:
- Rack abierto (servicio, térmica, potencia) → densidad sostenible.
- Fábrica intra-rack (coherencia, memoria compartida) → menos latencia y más throughput sin CPU.
- Fábrica inter-rack (Ethernet UEC) → scale-out observable y programable.
- Nodo de cabecera con confidential → seguridad y utilización al alza.
- DPU → ingesta y postura de seguridad alineadas a line-rate.
- ROCm → portabilidad real y menor vendor lock-in.
En conjunto, el superclúster de OCI quiere ser algo más que “GPU en la nube”: pretende ser la arquitectura de referencia para la IA a escala, abierta y operable.
Disponibilidad y cautelas
Oracle y AMD sitúan el inicio del despliegue en Q3 2026 (con expansión en 2027+). Como en toda hoja de ruta de infraestructura, hay disclaimers: plazos, especificaciones y precios pueden variar; algunos detalles (p. ej., porcentajes de particionado, SKUs definitivos, capas de software) llegarán conforme avancen pilotos y validaciones. MI355X en el zetta-superclúster de OCI está ya en disponibilidad general para cargas que necesiten escala masiva hoy mismo.
Conclusión: un “paso de gigante” hacia la IA a escala con estándares abiertos
La ampliación de la alianza Oracle-AMD cristaliza en un superclúster público que, sobre el papel, empuja los límites de la IA desde la nube: 50.000 MI450 como punto de partida, HBM4 en cada GPU, tejidos UALink/UEC, EPYC “Venice” y Pensando “Vulcano” bajo el paraguas rack-scale Helios. La apuesta es doble: potencia y apertura. Para los equipos que viven la brecha entre ambición de modelo y capacidad de clúster, es una señal nítida: la infraestructura está evolucionando para acompañarles.
La incógnita, como siempre, estará en la ejecución: latencias reales, colectivas en escenarios “difíciles”, costes totales y SLO de plataforma. Pero la dirección es clara: más memoria, más tejido, más eficiencia… y menos fricción para llevar la IA del prototipo a la producción a escala.
Preguntas frecuentes (FAQ)
¿Qué ventajas prácticas aporta AMD Instinct MI450 (HBM4 432 GB, 20 TB/s) frente a generaciones previas?
La combinación de 432 GB HBM4 por GPU y 20 TB/s reduce el particionado y la comunicación inter-GPU en entrenamientos de gran tamaño. En la práctica, se pueden entrenar e inferir modelos un 50 % más grandes enteramente en memoria, simplificando pipelines y mejorando tokens/s útiles.
¿Qué es Helios y cómo se integra en OCI?
Helios es la plataforma rack-scale abierta de AMD, basada en el Open Rack Wide (ORW) de OCP. En OCI se usa para construir racks de 72 GPU, refrigerados por líquido, con UALoE (transporte del protocolo UALink) para scale-up dentro del rack y Ethernet UEC-aligned para scale-out entre racks.
¿En qué se diferencian MI355X y MI450 en OCI y cuándo debo elegir uno u otro?
MI355X ya está en GA en el superclúster zettascale de OCI (escala hasta 131.072 GPU) y prioriza valor, flexibilidad cloud y compatibilidad open-source. MI450 (desde Q3 2026) aporta HBM4 y tejidos de nueva generación para modelos frontera con exigencias máximas de memoria y ancho de banda.
¿Qué significan UALink/UALoE y el alineamiento con el Ultra Ethernet Consortium (UEC)?
UALink es una interconexión abierta de alta velocidad entre GPU pensada para IA; UALoE es su transporte en la fábrica intra-rack. Para scale-out, OCI adopta Ethernet con características alineadas al UEC (control de congestión, multi-path, telemetría, offloads), creando un tejido abierto y observables entre pods y racks.
¿Cómo protege OCI cargas sensibles en estos clústeres masivos?
El nodo de cabecera con EPYC “Venice” integra confidential computing y funciones de seguridad; la DPU Pensando “Vulcano” añade seguridad programable a nivel de red; y el plano de control de OCI suma aislamiento multi-tenant, SR-IOV, particionado fino de GPU/pods y políticas corporativas para proteger datos y trabajo end-to-end.
vía: amd