AMD, Nvidia y los hiperescalares impulsan la óptica para la IA

La industria de la Inteligencia Artificial acaba de dar un paso que puede parecer técnico, pero que en realidad apunta al corazón de los futuros superclústeres de entrenamiento e inferencia. AMD, Broadcom, Meta, Microsoft, NVIDIA y OpenAI han anunciado la creación del grupo Optical Compute Interconnect (OCI) Multi-Source Agreement, un consorcio con el que pretenden definir una especificación abierta de interconexión óptica para el “scale-up” de sistemas de IA. Dicho de otra forma: quieren preparar el terreno para sustituir parte del cableado de cobre que hoy une aceleradores y switches dentro de grandes racks y dominios de cómputo por enlaces ópticos diseñados específicamente para esa tarea.

La relevancia del anuncio no está solo en los nombres que lo firman, sino en el problema que intentan resolver. A medida que los clústeres de IA crecen, el tráfico entre GPU, XPU y switches internos se convierte en uno de los grandes cuellos de botella del sistema. Broadcom, por ejemplo, lleva tiempo defendiendo que el crecimiento de estos entornos está acercando al cobre a sus límites en consumo, alcance y densidad, especialmente en arquitecturas de IA cada vez más compactas y exigentes. NVIDIA, por su parte, también viene insistiendo en que el “scale-up” dentro del rack es una capa crítica para mantener el rendimiento cuando decenas o cientos de aceleradores deben comunicarse casi como si formaran parte de un único sistema.

Lo que propone OCI no es un nuevo protocolo cerrado ni una plataforma propietaria, sino una capa física óptica común. El consorcio explica que su objetivo es crear una base interoperable sobre la que puedan convivir distintos diseños de procesadores, switches y tecnologías de interconexión, con un enfoque multivendedor y pensado para las necesidades reales de los hiperescalares. En la práctica, eso debería permitir que el mercado no dependa de una sola cadena de suministro ni de una única aproximación a la conectividad interna de los grandes sistemas de IA.

Del cobre a la óptica dentro del rack

Hasta ahora, la óptica se ha asociado sobre todo al “scale-out”, es decir, a la conexión entre servidores, racks o bloques completos de infraestructura. El “scale-up”, en cambio, ha seguido dependiendo en gran medida de enlaces eléctricos de muy corto alcance para unir GPU y switches con la menor latencia posible. El problema es que el crecimiento de los modelos y de los dominios de cómputo está empujando esa frontera. La propia OCI MSA sostiene que los límites físicos del cobre ya están condicionando la arquitectura de estos sistemas y que la migración hacia óptica en esta capa interna será necesaria más adelante durante esta década.

La hoja de ruta inicial del grupo dibuja un arranque relativamente prudente, pero con una ambición clara. La especificación parte de OCI GEN1 con 4 longitudes de onda a 50 Gb/s NRZ, lo que equivale a 200 Gb/s por dirección, y prevé una OCI GEN2 bidireccional capaz de llegar a 400 Gb/s por dirección, o hasta 800 Gb/s por fibra. A partir de ahí, el consorcio plantea un camino para aumentar tanto el número de longitudes de onda como las tasas de señalización hasta alcanzar 3,2 Tb/s por fibra y más allá. No se trata de una velocidad comercial disponible de inmediato, sino de una hoja de ruta para varias generaciones de hardware.

Otro elemento importante es el abanico de formatos que quiere cubrir. El consorcio habla de soporte para módulos enchufables, óptica sobre placa y co-packaged optics o CPO, una tecnología que busca acercar al máximo la óptica al silicio de cómputo o de switching para reducir consumo y mejorar densidad. Broadcom, que lleva varios años empujando esta línea, ha defendido precisamente que la transición hacia CPO será una de las claves para seguir escalando los clústeres de IA sin disparar el coste energético y térmico.

Un consorcio con un mensaje industrial muy claro

Más allá de la especificación técnica, la creación de OCI MSA refleja un cambio de tono en la industria. No se trata de un grupo impulsado únicamente por fabricantes de red o de semiconductores, sino por una combinación muy significativa de diseñadores de hardware y operadores de infraestructuras de IA a gran escala. Meta, Microsoft y OpenAI no aparecen aquí como observadores, sino como miembros fundadores junto a AMD, Broadcom y NVIDIA. Ese detalle importa porque sugiere que la presión por redefinir la conectividad interna de los sistemas de IA no viene solo de quienes venden chips o switches, sino también de quienes van a desplegar clústeres cada vez más grandes y costosos.

El mensaje corporativo de cada participante va en esa misma dirección. AMD habla de la necesidad creciente de enlaces ópticos de “scale-up” para grandes sistemas de IA a finales de esta década. Microsoft subraya que las tecnologías ópticas, los protocolos y las arquitecturas de switch orientadas al “scale-up” serán fundamentales para construir dominios de cómputo de alto rendimiento repartidos en varios racks. OpenAI, por su parte, liga directamente esta evolución al aumento de petaflops, ancho de banda de memoria y ancho de banda de red necesarios para seguir escalando superordenadores de IA. Aunque estas declaraciones deben leerse como mensajes corporativos, juntas dibujan una misma conclusión: el cuello de botella de la próxima generación ya no estará solo en el acelerador, sino también en cómo se conecta.

También llama la atención que NVIDIA se sume a una iniciativa de este tipo mientras sigue defendiendo su propio ecosistema de “scale-up” con NVLink. Eso no implica que vaya a renunciar a sus ventajas propietarias, pero sí indica que el mercado empieza a asumir que, en la capa física óptica, cierta interoperabilidad puede ser beneficiosa incluso para actores con tecnologías muy diferenciadas. Tom’s Hardware interpreta precisamente que la idea es desarrollar una base óptica común sobre la que puedan convivir distintos protocolos de interconexión usados por diferentes proveedores de aceleradores.

Por qué esto puede cambiar el diseño de los clústeres de IA

Si la iniciativa cuaja, su impacto puede ir bastante más allá del cable. Una capa óptica común y abierta puede reducir riesgo de integración, acortar ciclos de despliegue y ampliar el número de proveedores capaces de participar en la construcción de racks de IA. Para los hiperescalares, eso significa más flexibilidad a la hora de combinar cómputo, switching y óptica sin quedar atrapados por una única arquitectura cerrada. Para la cadena de suministro, supone la posibilidad de crear un ecosistema más amplio alrededor de la óptica de corto alcance para IA. Y para el mercado, abre la puerta a que el debate del futuro de la IA deje de centrarse solo en quién fabrica las GPU más rápidas y pase también por quién resuelve mejor la conectividad entre ellas.

Eso sí, conviene no exagerar. OCI MSA acaba de nacer y lo presentado hasta ahora es una especificación y una hoja de ruta, no un producto listo para transformar centros de datos mañana mismo. Queda por ver cuánta tracción obtiene, qué grado real de interoperabilidad logra entre generaciones de hardware y cómo convive con ecosistemas ya muy consolidados en el mundo de la IA. Pero la dirección es clara: la óptica ya no se ve solo como una solución para conectar racks entre sí, sino como una pieza llamada a entrar dentro del propio dominio de cómputo. Y eso, en un momento en el que los clústeres de IA no dejan de crecer, puede acabar siendo una de las decisiones más importantes de esta década en infraestructura.

Preguntas frecuentes

¿Qué es OCI MSA y para qué sirve?

OCI MSA es un consorcio creado por AMD, Broadcom, Meta, Microsoft, NVIDIA y OpenAI para definir una especificación abierta de interconexión óptica orientada al “scale-up” de sistemas de IA, es decir, a la conectividad interna entre aceleradores y switches dentro de grandes dominios de cómputo.

¿Qué velocidad promete la hoja de ruta de OCI?

La hoja de ruta arranca con 200 Gb/s por dirección en OCI GEN1 y prevé llegar hasta 800 Gb/s por fibra en generaciones iniciales, con una evolución posterior que apunta a 3,2 Tb/s por fibra y más allá.

¿Por qué la industria quiere sustituir cobre por óptica en el “scale-up” de IA?

Porque el cobre empieza a encontrar límites de alcance, consumo y densidad en clústeres de IA cada vez más grandes. La óptica ofrece una vía para seguir escalando ancho de banda y distancia manteniendo objetivos agresivos de potencia y rendimiento.

¿Esto reemplaza tecnologías como NVLink o UALink?

No necesariamente. La idea del consorcio es construir una capa física óptica común e interoperable que pueda servir de base para distintos diseños y tejidos de interconexión, no eliminar de golpe los protocolos diferenciados de cada proveedor.

vía: tomshardware

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

Las últimas novedades de tecnología y cloud

Suscríbete gratis al boletín de Revista Cloud. Cada semana la actualidad en tu buzón.

Suscripción boletín
×