AMD presenta “Helios”: plataforma rack-scale abierta sobre Open Rack Wide (OCP) para la próxima ola de centros de datos de IA

Noticias Cloud

En el marco del OCP Global Summit 2025, AMD mostró por primera vez en público —en exposición estática— su plataforma “Helios”, un diseño rack-scale de referencia para infraestructura de inteligencia artificial construido sobre el nuevo estándar Open Rack Wide (ORW), contribuido al Open Compute Project por Meta. El anuncio no es un producto aislado: encaja en una estrategia declarada de AMD de llevar su filosofía de hardware abierto “del silicio al sistema y hasta el rack”, con el objetivo de acelerar la adopción de arquitecturas abiertas, interoperables y escalables en la era de los centros de datos de gigavatios.

La propuesta combina GPU de la familia AMD Instinct™, CPU EPYC™ y red avanzada AMD Pensando™ sobre un chasis ORW doble ancho, preparado para las exigencias de potencia, refrigeración y mantenibilidad de los sistemas de IA de nueva generación. Además, integra estándares que están marcando el paso en la industria: OCP DC-MHS (Data Center – Modular Hardware System), UALink (interconexión abierta para aceleradores) y arquitecturas del Ultra Ethernet Consortium (UEC), con soporte para fábricas abiertas de escala vertical (scale-up) y horizontal (scale-out). Todo ello, con refrigeración líquida mediante acoples rápidos, tendido Ethernet estandarizado y una disposición doble que mejora la serviciabilidad en operación.

“La colaboración abierta es clave para escalar la IA de forma eficiente”, subrayó Forrest Norrod, vicepresidente ejecutivo y director general del Data Center Solutions Group de AMD. “Con Helios, transformamos estándares abiertos en sistemas reales y desplegables: combinamos AMD Instinct, EPYC y fábricas abiertas para ofrecer a la industria una plataforma flexible y de alto rendimiento hecha para la próxima generación de cargas de IA”.

ORW: un “doble ancho” pensado para la IA que viene

El Open Rack Wide (ORW), propuesto por Meta y acogido por OCP, define un rack abierto de doble anchura optimizado para las necesidades eléctricas y térmicas de la nueva hornada de servidores de IA. En la práctica, ORW amplía la envolvente física para:

Alojar sistemas de aceleración densos con planos de potencia más robustos.
Simplificar la refrigeración líquida (colectores, retorno, acoples rápidos) y sostener rendimiento térmico de forma continuada.
Mejorar la serviciabilidad (acceso frontal/posterior, blind-mate, sustitución de módulos) y reducir tiempos de intervención.

AMD adopta ORW como base estructural de Helios y lo combina con un catálogo OCP ya maduro (canalizaciones de potencia, busbars, sleds y trays modulares) para fijar un suelo común que OEM, ODM e hiperescaladores puedan tomar, extender y personalizar sin rehacer cada pieza desde cero.

Del chip al rack: piezas abiertas, de scale-up y scale-out

A nivel de fábricas de interconexión, Helios está diseñado para convivir con dos grandes patrones de escalado:

Scale-up (aceleradores fuertemente acoplados en chasis, node-level), donde UALink aspira a estandarizar la interconexión de GPU —con baja latencia y alta banda— en topologías coherentes para entrenamiento e inferencia a gran escala.
Scale-out (varios nodos/racks cooperando en red), donde el UEC (Ultra Ethernet Consortium) empuja Ethernet de nueva generación (congestion control, path diversity, telemetría, NIC offloads) para convertir la red en un tejido de alto rendimiento y multi-camino capaz de transportar tráfico de IA con eficiencia end-to-end.

El alineamiento con OCP DC-MHS —la especificación modular de hardware para data center— añade otra capa de interoperabilidad: sleds y módulos con interfaces comunes para CPU, GPU, memoria, almacenamiento y gestión que aceleran el time-to-build y abaratan el ciclo de integración.

Helios, en este contexto, no es un producto cerrado sino una plataforma de referencia: una “plantilla” rack-scale que reduce tiempos de diseño, validación y despliegue, a la vez que maximiza la compatibilidad con ecosistemas abiertos (OCP, UALink, UEC). Para hiperescaladores y proveedores de nube, esto se traduce en menor riesgo de encierro propietario, más opcionalidad y mejor reutilización de componentes a lo largo de generaciones.

Refrigeración líquida y servicio: pragmatismo data center-first

El diseño expuesto por AMD enfatiza dos aspectos operativos claves en IA:

Refrigeración líquida con desconexión rápida
Los aceleradores de IA actuales disipan potencias que superan el kilovatio por dispositivo. La líquida no es un adorno: es lo que permite mantener frecuencia y fiabilidad a largo plazo. Los acoples rápidos (sin herramientas, con drip-less) favorecen el MRO (mantenimiento, reparación y operaciones) y reducen el MTTR (tiempo medio de reparación).
Doble ancho para serviciabilidad
El chasis ORW de doble anchura libera espacio para rutas de cableado, colectores de líquido y módulos extraíbles accesibles, algo crítico cuando el fleet-scale exige intervenciones rápidas y seguras sin penalizar densidad ni rendimiento.

A ello se suma el uso de Ethernet estandarizado con resiliencia multipath, alineado con las mejores prácticas de operación sin estado y telemetría granular —pieza clave para observar hotspots, pérdidas y colas en tejidos de IA.

¿Por qué importa? Tres lecturas para el ecosistema

1) Señal a favor de lo abierto en la IA de alto rendimiento
En plena carrera por la infraestructura de IA, AMD apuesta por una vía abierta y estandarizada —no solo en silicio, también en interconexión, chasis y rack—. Para operadores, significa reducir costos de integración, evitar bloqueos y acelerar despliegues.

2) Un “puente” entre hojas de ruta dispares
CPU EPYC, GPU Instinct, Pensando en red, UALink para GPU-to-GPU y UEC para east-west crean un punto de encuentro entre proveedores y generaciones, imprescindible si se busca ramp-up rápido en centros de datos de gigavatios.

3) Sostenibilidad operativa
El rack-scale con líquida y modularidad no solo persigue rendimiento: también eficiencia energética, mejor PUE y ciclos de vida más mantenibles —tres metas que los hyperscalers europeos y norteamericanos están exigiendo ante los objetivos de descarbonización y límites de capacidad eléctrica.

Qué es (y qué no es) “Helios” a día de hoy

Es un diseño de referencia rack-scale alineado con ORW (OCP), con CPU EPYC, GPU Instinct y red Pensando, que muestra cómo combinar DC-MHS, UALink y UEC en un rack doble ancho con líquida y Ethernet.
No es (todavía) un producto comercial cerrado con SKU y canal definidos; su misión es acelerar a OEM/ODM/hiperescaladores la adopción y customización de sistemas abiertos para IA y HPC.

Para fabricantes y operadores, el valor está en arrancar más rápido (menos ingeniería de base), con interoperabilidad desde el día 1, y conservar libertad para elegir bloques y proveedores dentro del ecosistema OCP.

OCP, Meta y el empuje rack-first para IA

El Open Compute Project lleva más de una década impulsando diseños abiertos de hardware para data centers (fuentes, busbars, bastidores, placas base, gestión). La contribución de Meta con Open Rack Wide responde a una realidad: la IA ha estirado los límites térmicos y de potencia del rack tradicional. Al publicar ORW y sumar a AMD con Helios, la comunidad refuerza el mensaje de que estándares públicos pueden absorber la presión de la nueva ola de cómputo sin imponer arquitecturas propietarias incompatibles entre sí.

Lo que viene: despliegues a escala, telemetría y madurez de fabrics

A corto/medio plazo, el éxito de propuestas como Helios dependerá de:

La madurez de UALink (para acoplar GPU a GPU con latencias predecibles)—y su implementación por proveedores.
La adopción de UEC (Ultra Ethernet) en topologías CLOS que garanticen congestion control, path diversity y observabilidad a nivel paquete/flow para cargas de IA.
La calidad de la líquida (acoples, colectores, gestión de fugas) a escala de flota.
La automatización de provisión y MRO (maintenance, repair, operations), clave para no ahogar a los equipos de site reliability.

AMD, por su parte, sitúa Helios como piedra angular de su compromiso con una infraestructura abierta y escalable “para satisfacer la creciente demanda global de IA”.

Conclusión: estándar abierto, base común y margen para diferenciar

Helios no es un anuncio de silicio, es la contextualización física de todo un stack de IA abierto: rack, chasis, interconexión, CPU, GPU y red listos para que el ecosistema construya encima. En un entorno donde cada mes aparecen topologías y chips nuevos, disponer de una base común —ORW, DC-MHS, UALink, UEC— reduce fricción y permite a operadores diferenciarse donde aporta valor: orquestación, modelos, datos, servicios y eficiencia operativa. Si el hardware deja de ser el “cuello de botella” de la integración, el software y la operación recuperan el protagonismo.

Como resumió Norrod: se trata de convertir estándares en sistemas “desplegables”, con rendimiento y flexibilidad para la próxima generación de cargas de IA. La industria —y la comunidad OCP— ya tienen un punto de partida.

Preguntas frecuentes (FAQ)

¿Qué es Open Rack Wide (ORW) y por qué es importante para IA?
ORW es una especificación de rack doble ancho aportada por Meta al Open Compute Project. Amplía el chasis para alimentación, refrigeración líquida y serviciabilidad acordes a sistemas de IA de alta densidad. Es clave porque normaliza la envolvente física para desplegar aceleradores a gran escala sin depender de racks propietarios.

¿Cómo encajan UALink y el Ultra Ethernet Consortium (UEC) en Helios?
UALink apunta a estandarizar la interconexión GPU-to-GPU en topologías scale-up, mientras que el UEC define evoluciones de Ethernet para hacer de la red un tejido de alto rendimiento y multi-camino en scale-out. Helios está diseñado para soportar ambos enfoques (fábricas abiertas verticales y horizontales).

¿Qué aporta OCP DC-MHS al diseño rack-scale?
DC-MHS (Data Center – Modular Hardware System) introduce interfaces modulares y mecánicas comunes para placas, módulos y gestión, lo que acelera la integración, mejora la interoperabilidad entre proveedores y reduce el coste/tiempo de despliegue.

¿Por qué es relevante la refrigeración líquida con desconexión rápida en estos racks?
Las GPU modernas pueden disipar >1 kW por dispositivo; la líquida mantiene rendimiento y fiabilidad bajo carga sostenida. Los acoples rápidos (drip-less) permiten intervenir equipos sin drenar circuitos completos, acortando MTTR y mejorando la seguridad.

¿Helios es un producto comercial de AMD o un diseño de referencia?
A día de hoy, Helios es una plataforma de referencia rack-scale alineada con ORW y estándares abiertos. Su papel es facilitar que OEM/ODM/hiperescaladores adopten y personalicen sistemas de IA/HPC abiertos más rápido, con interoperabilidad y serviciabilidad desde el diseño.