AMD, OpenAI, Microsoft y otros grandes actores de la industria han presentado MRC, siglas de Multipath Reliable Connection, un nuevo protocolo de red pensado para mejorar el rendimiento y la resiliencia de los grandes clústeres de entrenamiento de Inteligencia Artificial. La especificación se ha publicado a través del Open Compute Project, con el objetivo de que el sector pueda adoptarla más allá de los despliegues internos de las compañías que han participado en su desarrollo.
La noticia puede parecer muy técnica, pero toca uno de los problemas más importantes de la IA actual. Entrenar modelos avanzados ya no depende solo de comprar más GPU. A gran escala, el rendimiento real lo decide también la red que conecta esas GPU. Si cientos de miles de aceleradores tienen que intercambiar datos de forma continua y sincronizada, cualquier congestión, enlace inestable o fallo en un switch puede ralentizar o interrumpir trabajos de entrenamiento que cuestan millones.
Durante los últimos años, buena parte de la conversación sobre infraestructura de IA se ha centrado en las GPU, la memoria HBM, los chips personalizados y la energía. MRC desplaza el foco hacia otra capa igual de crítica: cómo se mueven los datos dentro del superordenador. OpenAI lo resume de forma clara: el diseño de red determina cuánta capacidad de cómputo disponible puede utilizarse de verdad.
Qué cambia MRC frente a las redes tradicionales
En una red tradicional, una transferencia suele seguir un único camino. Ese enfoque puede funcionar bien en entornos convencionales, pero en clústeres de IA de gran tamaño crea puntos calientes. Varias comunicaciones pueden coincidir en el mismo enlace, aumentar la latencia y afectar a operaciones colectivas donde todos los aceleradores deben avanzar al mismo ritmo.
MRC cambia ese modelo. En lugar de enviar todos los paquetes de una transferencia por una sola ruta, los reparte por múltiples caminos al mismo tiempo. OpenAI describe este comportamiento como una dispersión de paquetes a través de cientos de rutas dentro de redes multiplano. Los paquetes pueden llegar desordenados, pero incluyen la información necesaria para entregarse correctamente en destino.
El objetivo es suavizar la congestión y evitar que un enlace concreto se convierta en el freno de todo el trabajo. En entrenamiento síncrono, el rendimiento suele estar condicionado por los peores casos, no por la media. Si una parte de la red va lenta, el resto de GPUs puede quedar esperando. Por eso reducir variaciones de latencia es tan importante como aumentar el ancho de banda máximo.
MRC también incorpora mecanismos de detección y recuperación ante fallos. Si el protocolo detecta congestión en una ruta, puede sustituirla por otra. Si se pierde un paquete, asume que puede haber un problema en ese camino, deja de usarlo y retransmite la información necesaria. OpenAI afirma que la combinación de redes multiplano, balanceo, packet spraying y packet trimming permite rodear fallos en escala de microsegundos, frente a los segundos o decenas de segundos que puede tardar una red convencional en estabilizarse.
Otra decisión relevante es el uso de IPv6 Segment Routing, o SRv6. Con este enfoque, el emisor puede indicar de forma explícita el camino que debe seguir cada paquete, reduciendo la dependencia de protocolos de enrutamiento dinámico como BGP dentro del fabric. Para grandes clústeres de IA, esto puede simplificar la operación y hacer más predecible el comportamiento de la red ante incidencias.
AMD usa MRC para reforzar su apuesta por Ethernet abierto
Para AMD, MRC llega en un momento clave. La compañía no solo compite en GPU con la familia Instinct, sino también en CPUs EPYC y en redes mediante su tecnología Pensando. El mensaje de AMD es que la infraestructura de IA necesita una base abierta, programable y preparada para producción, no una colección de soluciones cerradas difíciles de adaptar.
AMD asegura que ha tenido un papel relevante en la especificación de MRC, aportando tecnología de control de congestión y experiencia de despliegue. La compañía afirma además que ya ha implementado MRC junto a su tecnología de red en clústeres de prueba a escala con un gran proveedor cloud. La precisión importa: no se trata todavía de una adopción universal, sino de validaciones y despliegues iniciales en entornos de gran tamaño.
El elemento de hardware más visible es la AMD Pensando Pollara 400 AI NIC, una tarjeta de red de 400 Gbps diseñada para cargas de IA. AMD destaca su motor programable P4, sus capacidades RDMA avanzadas, la compatibilidad con el formato OCP 3.0 y funciones como balanceo inteligente, recuperación rápida ante fallos y control de congestión. Según la compañía, Pollara 400 puede actualizarse para soportar estándares que evolucionen con el tiempo, un punto importante en un mercado donde los protocolos de red para IA todavía están cambiando.
AMD también vincula MRC con su futura AMD Pensando “Vulcano” 800G AI NIC, que soportará el mismo protocolo de transporte. Ese salto a 800G encaja con la dirección del mercado: los clústeres de IA necesitan más ancho de banda por nodo, pero también más resiliencia. Si una red de 800G se comporta mal en condiciones reales, el número bruto pierde valor. MRC intenta responder justo a esa diferencia entre velocidad teórica y rendimiento útil.
Una alianza con rivales dentro de la misma especificación
La lista de participantes muestra la importancia estratégica del protocolo. La especificación de MRC publicada por OCP recoge contribuciones de AMD, Broadcom, Intel, Microsoft, NVIDIA y OpenAI. Es una combinación poco habitual si se mira desde la competencia comercial, pero lógica si se observa desde la escala del problema. Ninguna de estas compañías puede permitirse que las redes de IA se conviertan en un cuello de botella permanente.
NVIDIA también ha anunciado soporte para MRC en Spectrum-X Ethernet. La compañía señala que el protocolo puede ejecutarse sobre ConnectX SuperNICs y switches Spectrum-X, junto con otros modelos de transporte RDMA. Esto confirma que MRC no es solo una carta de AMD, sino una pieza de una conversación más amplia sobre Ethernet optimizado para IA.
La publicación en Open Compute Project tiene una lectura industrial importante. El mercado de redes para IA está dividido entre varias aproximaciones: InfiniBand, Ethernet avanzado, Ultra Ethernet, soluciones propietarias, NICs programables y fabrics específicos para aceleradores. Al abrir MRC, los participantes intentan crear una base común que permita escalar clústeres de entrenamiento sin depender únicamente de una implementación cerrada.
Para clientes cloud, empresas, centros de investigación y proyectos de IA soberana, esa apertura puede ser relevante. Los despliegues de IA están creciendo fuera de los grandes hiperescalares estadounidenses. Gobiernos, universidades y proveedores regionales quieren construir capacidad propia, pero necesitan tecnologías que no les obliguen a quedar bloqueados en una sola pila. MRC no elimina esa dependencia por sí solo, pero sí apunta hacia una red más interoperable y programable.
La adopción real dependerá de muchos factores: soporte en hardware, madurez del software, integración con frameworks de entrenamiento, herramientas de observabilidad, costes de operación y disponibilidad de equipos. También habrá que ver cómo convive MRC con otros esfuerzos de estandarización, como Ultra Ethernet, y con arquitecturas de red específicas de cada proveedor.
El mensaje de fondo es claro. La próxima fase de la IA no se ganará solo con más chips. Se ganará con sistemas completos capaces de mantener esos chips ocupados, sincronizados y funcionando incluso cuando la infraestructura falle parcialmente. MRC intenta convertir la red en una capa más tolerante, menos frágil y más adaptada a la realidad de los grandes entrenamientos.
Si el protocolo cumple lo prometido, puede ayudar a reducir tiempos muertos, mejorar la utilización de GPU y facilitar clústeres más grandes sin multiplicar la complejidad operativa. En una industria donde cada punto de utilización de aceleradores tiene impacto directo en costes, energía y calendario de entrenamiento, la red deja de ser un detalle técnico para convertirse en una ventaja competitiva.
Preguntas frecuentes
¿Qué es MRC?
MRC, o Multipath Reliable Connection, es un protocolo de red diseñado para grandes clústeres de entrenamiento de Inteligencia Artificial. Reparte paquetes por múltiples rutas para reducir congestión y mejorar la recuperación ante fallos.
¿Quién ha desarrollado MRC?
La especificación recoge contribuciones de AMD, Broadcom, Intel, Microsoft, NVIDIA y OpenAI, y se ha publicado a través del Open Compute Project.
¿Por qué es importante para la IA?
Porque los grandes modelos necesitan que miles o cientos de miles de GPU intercambien datos de forma continua. Si la red falla o se congestiona, el entrenamiento se ralentiza aunque haya mucha capacidad de cómputo disponible.
¿Qué papel tiene AMD en MRC?
AMD afirma que ha co-liderado la especificación, ha aportado tecnología de control de congestión y ha implementado MRC en su ecosistema de red, incluido el trabajo con la NIC AMD Pensando Pollara 400 y la futura Vulcano 800G.
vía: amd