Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

¿Pueden cinco Mac Studios formar un superordenador de IA? Un experimento con EXO Labs

En la actualidad, los modelos de inteligencia artificial más avanzados requieren una infraestructura computacional masiva, con servidores equipados con GPUs de alto rendimiento como las NVIDIA H100 o A100, cuyo coste puede superar fácilmente el de una vivienda. Sin embargo, un experimento reciente ha desafiado esta tendencia, utilizando cinco Mac Studios para crear un clúster de IA capaz de ejecutar modelos de lenguaje a gran escala con EXO Labs, un software emergente de computación distribuida.

El reto: Ejecutar Llama 3.1 405B con hardware de consumo

Llama 3.1 405B es un modelo de lenguaje con 405.000 millones de parámetros, lo que lo convierte en una de las IA más complejas y exigentes en términos de hardware. Tradicionalmente, este tipo de modelos solo pueden ejecutarse en centros de datos con servidores optimizados para IA, que cuentan con redes de alta velocidad y memoria de video (VRAM) especializada.

El objetivo de este experimento era comprobar si un clúster de cinco Mac Studios con chips M2 Ultra y 64 GB de memoria unificada cada uno podía asumir la tarea, aprovechando la arquitectura de memoria unificada de Apple para compensar la falta de VRAM dedicada.

Configuración del clúster con EXO Labs

Para conectar los cinco Mac Studios y hacer que trabajaran juntos, se utilizó EXO Labs, un software de código abierto que permite distribuir cargas de trabajo de IA entre múltiples dispositivos, incluyendo portátiles, PCs y servidores.

La red de interconexión fue un punto clave en el rendimiento:

  1. Red Ethernet de 10 Gbps: Inicialmente, los Mac Studios se conectaron a través de un switch UniFi XG6 POE de 10 Gbps, pero pronto se evidenció que esta velocidad era insuficiente para manejar el tráfico de datos necesario.
  2. Conexión Thunderbolt 4 (40 Gbps): Se probó un puente Thunderbolt para mejorar el ancho de banda y reducir la latencia, lo que mostró mejoras en la comunicación entre los nodos del clúster.

Primeras pruebas: rendimiento con modelos más pequeños

Antes de abordar Llama 3.1 405B, se realizaron pruebas con modelos de menor tamaño:

  • Llama 3.21B (1.000 millones de parámetros): Se ejecutó sin problemas en un solo Mac Studio, con una velocidad de inferencia aceptable.
  • Llama 3.3 70B (70.000 millones de parámetros): Requirió el uso del clúster, distribuyendo la carga entre varios equipos, con resultados satisfactorios.
  • Llama 3.1 405B (405.000 millones de parámetros): Aquí comenzaron los verdaderos desafíos.

Problemas con el modelo de 405B parámetros

El principal obstáculo fue el uso intensivo de memoria. A pesar de contar con un total de 320 GB de RAM unificada en el clúster, esto no era suficiente para manejar el modelo sin recurrir a memoria de intercambio (swap), lo que afectaba gravemente el rendimiento.

Otro problema fue la comunicación entre los nodos. Aunque Thunderbolt 4 mejoró el ancho de banda, la latencia seguía siendo un factor limitante. En los centros de datos tradicionales, las GPUs están interconectadas con redes InfiniBand de 400 o 800 Gbps, optimizadas para cargas de trabajo de IA, algo que no es posible replicar en este tipo de configuración.

Además, el software y la arquitectura de los Mac Studios no están optimizados para IA en la misma medida que las GPUs NVIDIA con CUDA. Aunque Apple ofrece MLX (Machine Learning Acceleration), este aún no alcanza el nivel de optimización que se encuentra en los entornos de IA basados en CUDA y TensorRT.

Comparativa con hardware tradicional de IA

RecursoMac Studio M2 Ultra (x5)Servidor AI con GPUs H100
Memoria total (RAM/VRAM)320 GB (unificada)1 TB+ (H100)
Ancho de banda interno40 Gbps (Thunderbolt)400-800 Gbps (InfiniBand)
Consumo energético~750W (total 5 Mac Studios)3.000-5.000W (centro de datos)
Costo estimado13.000$ (total)200.000$+

A nivel de eficiencia energética y costes, los Mac Studios tienen ventajas claras. Sin embargo, la falta de memoria VRAM especializada y redes de ultra alta velocidad limita su capacidad para ejecutar modelos de IA de gran escala con la misma eficiencia que los servidores diseñados para ello.

Conclusión: ¿Es viable un clúster de Mac Studios para IA?

El experimento con EXO Labs demostró que los Mac Studios pueden ejecutar modelos de IA, pero con limitaciones. Para modelos pequeños o medianos, pueden ser una alternativa viable, especialmente si el consumo energético es un factor importante. Sin embargo, para modelos de gran escala como Llama 3.1 405B, la falta de hardware optimizado para IA sigue siendo un gran obstáculo.

A pesar de ello, esta prueba abre nuevas posibilidades para la computación distribuida en hardware de consumo, y con futuras mejoras en software como EXO Labs, podría convertirse en una opción más viable para ciertos tipos de cargas de trabajo en IA.

Fuente: noticias inteligencia artificial

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO