RDMA llega al escritorio: Apple lo activa en macOS 26.2… y las primeras pruebas avisan de que está “verde”

Durante años, RDMA (Remote Direct Memory Access) ha sido sinónimo de supercomputación y centros de datos: redes capaces de mover datos entre memorias de forma directa, con una sobrecarga mínima y latencias que, en el mundo del HPC, marcan la diferencia entre un clúster eficiente y uno que “se ahoga” en el stack de red. Ahora, Apple ha dado un paso llamativo al habilitar RDMA sobre Thunderbolt 5 en macOS 26.2, una pieza que la propia compañía vincula a casos de uso como la inferencia distribuida de IA.

La promesa, sobre el papel, es potente: conectar varios Macs por Thunderbolt 5 y reducir drásticamente la latencia de comunicación frente a enfoques clásicos basados en TCP/IP. En la práctica, las primeras experiencias de usuarios que están “trasteando” con esta función apuntan a una conclusión clara: el potencial existe, pero el camino todavía tiene baches.

Qué es RDMA y por qué importa (cuando realmente importa)

RDMA permite que dos máquinas intercambien datos sin que la CPU tenga que copiar buffers constantemente y sin pasar por buena parte de la “maquinaria” del sistema operativo. Eso reduce latencia y libera ciclos de CPU para el trabajo útil (por ejemplo, computación o GPU).

En un centro de datos, RDMA suele asociarse a InfiniBand o a variantes sobre Ethernet como RoCE. En el caso de Apple, el giro está en el medio físico: Thunderbolt 5, una interconexión pensada para altas tasas de transferencia en periféricos, almacenamiento externo o docks… que ahora se está usando como enlace de baja latencia entre hosts.

Thunderbolt 5, además, duplica el ancho de banda base frente a Thunderbolt 4 (80 Gb/s bidireccionales) y contempla modos de “boost” asimétricos en ciertos escenarios.

La pista clave: MLX y el backend “JACCL”

El detalle técnico que ha hecho saltar las alarmas (en el buen sentido) es que la documentación de MLX, el framework de Apple para machine learning, ya incluye un backend de comunicación llamado JACCL, diseñado para aprovechar RDMA sobre Thunderbolt. En sus propias palabras, este backend permite latencias un orden de magnitud menores que alternativas como el backend en anillo (“ring”).

Dicho de forma simple: Apple no está activando RDMA “por deporte”; está colocando una pieza para que el ML distribuido en local —con varios Macs— tenga sentido más allá de demos curiosas.

Activarlo no es “hacer clic”: hay que pasar por recuperación

Aquí llega el primer choque cultural para cualquiera que piense en “clúster” como algo automatizable: hoy no se activa de forma remota, ni siquiera con sudo desde una sesión SSH. Según la guía de MLX, el proceso exige entrar en macOS Recovery, abrir Terminal y ejecutar:

rdma_ctl enable

Luego, reiniciar.

Para verificarlo, la misma documentación propone ibv_devices, lo que deja ver otra capa interesante: Apple está exponiendo interfaces compatibles con el ecosistema de “verbs” de RDMA (muy habitual en HPC).

La topología manda: JACCL exige malla totalmente conectada

Y aquí aparece el segundo punto crítico —y el que más condiciona el “hobby cluster” de Macs—: JACCL solo soporta topologías completamente conectadas (full mesh). Eso significa, literalmente, un cable Thunderbolt entre cada par de nodos.

En un clúster de 4 nodos esto es viable. A partir de ahí, el cableado crece rápido. Además, a día de hoy no hay un equivalente claro a un “switch Thunderbolt 5” orientado a este tipo de despliegues, lo que complica escalar sin convertir el rack en un nido de cables (y de posibles puntos de fallo).

Tabla rápida: cómo crece el cableado en full mesh

NodosEnlaces directos necesariosLectura práctica
21trivial
33empieza el “triángulo”
46todavía manejable
510ya exige orden y disciplina
721el cableado se convierte en proyecto

El “puerto-límite” en la vida real: M4 Max vs M3 Ultra

La limitación de puertos no es un detalle menor porque en full mesh cada nodo necesita N−1 enlaces. En los Mac Studio actuales, Apple especifica configuraciones con M4 Max y M3 Ultra, con un número distinto de puertos Thunderbolt 5 según el modelo.

En la práctica, esto suele traducirse en una regla simple que ya se comenta en pruebas de campo:

  • M4 Max (menos puertos Thunderbolt 5): el techo “natural” de malla suele quedarse en 5 nodos si se quiere full mesh sin inventos.
  • M3 Ultra (más puertos Thunderbolt 5): abre la puerta a 7 nodos en malla completa (cada uno necesita 6 enlaces).

Por qué “se pone la CPU al 900 %”: el caso del Thunderbolt Bridge

Uno de los comportamientos más reportados en pruebas tempranas es el colapso de CPU y red cuando el sistema entra en estados raros de reenvío/bridging. Y aquí la documentación de MLX es sorprendentemente clara: aunque Thunderbolt RDMA no use TCP/IP para comunicarse, sigue siendo necesario deshabilitar el Thunderbolt Bridge, además de configurar redes locales aisladas por enlace.

Eso encaja con un patrón típico en topologías en malla: si el sistema mantiene interfaces puente activas, pueden aparecer bucles, tormentas de tráfico o reenvíos inesperados. Resultado: picos de CPU, tráfico a lo bestia y, en el peor caso, la sensación de que “la red cae” y hay que volver a entrar localmente a arreglarlo.

“No hay documentación” (o no la había donde uno esperaba)

Otro elemento repetido por quienes están probando esta función es la frustración de documentación dispersa y respuestas contradictorias en asistentes generalistas. La situación es lógica: es una capacidad nueva, con requisitos peculiares (Recovery, mesh estricta, bridge fuera, redes aisladas) y herramientas que todavía no forman parte del “manual mental” de la mayoría.

En este punto, proyectos de comunidad como Exo se han usado para experimentar con clústeres de Macs y RDMA, y algunos tests publicados apuntan a mejoras fuertes de latencia en acceso/uso de memoria distribuida frente a configuraciones previas.

Qué puede hacer hoy un equipo técnico (sin vender humo)

Más allá de la demo, hay un checklist realista para desarrolladores y administradores de sistemas que quieran evaluar RDMA sobre Thunderbolt 5 sin perder un fin de semana:

  1. Separar “laboratorio” de “producción”: asumir que esto está en fase temprana.
  2. Planificar la topología: si se quiere JACCL, pensar en full mesh desde el minuto 0.
  3. Asegurar acceso local: el enable requiere Recovery; si algo rompe la conectividad, se vuelve a la consola.
  4. Preparar SSH y sudo sin contraseña para automatizar despliegues (MLX lo asume en su flujo con mlx.launch).
  5. Desactivar Thunderbolt Bridge y aislar enlaces como condición previa, no como “tuning”.
  6. Monitorizar efectos colaterales: servicios como Control Universal/Screen Sharing pueden introducir ruido en CPU y red (y conviene aislar variables para saber qué está fallando).

Una lectura estratégica: Apple está tanteando el “clúster personal” para IA

Apple está moviendo fichas hacia un escenario muy concreto: sumar memoria y cómputo de varios Macs para tareas que, hasta hace poco, obligaban a ir a un centro de datos o a estaciones con GPU masivas. Que la pieza aparezca ligada a MLX y a inferencia distribuida no es casual.

La parte incómoda es que, por ahora, el salto exige mentalidad de HPC: topologías estrictas, configuración cuidadosa y tolerancia al fallo. Pero incluso con esa fricción, el mensaje es potente: RDMA ya no es solo “cosa del datacenter”. Apple lo está empujando hacia el escritorio… aunque, de momento, con casco y rodilleras.

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

Las últimas novedades de tecnología y cloud

Suscríbete gratis al boletín de Revista Cloud. Cada semana la actualidad en tu buzón.

Suscripción boletín
×