
RoCE para IA: guía técnica para diseñar Ethernet lossless en clusters GPU
La red se ha convertido en una de las partes más críticas de la infraestructura de inteligencia artificial. Durante años, muchos equipos trataron Ethernet como una capa generalista: estable, conocida, relativamente barata y suficientemente flexible para casi cualquier carga empresarial. En un cluster de IA moderno, esa visión se queda corta. Cuando miles de GPUs entrenan un modelo distribuido, la red deja de ser «transporte» y pasa a formar parte del sistema de cómputo. RoCE, RDMA over Converged Ethernet, permite usar RDMA sobre Ethernet para mover datos entre servidores con menos intervención de CPU y sistema operativo. Su atractivo es claro: baja latencia, alto ancho de banda y mejor eficiencia en comunicaciones GPU-to-GPU. Su dificultad también lo es: para funcionar




