Elon Musk ha redoblado su apuesta por la inteligencia artificial con la adquisición de otras 100.000 GPUs NVIDIA Hopper H100 para su superordenador Colossus, una máquina que, con este incremento, alcanzará un total de 200.000 unidades, convirtiéndose en el sistema de entrenamiento de IA más potente del mundo. La instalación de este colosal equipo se lleva a cabo en Memphis, Tennessee, con un despliegue que busca superar el récord de 19 días establecido en su primera fase de instalación.
Colossus: el clúster de IA más potente y avanzado del mundo
Diseñado para entrenar los modelos de lenguaje de xAI, el superordenador Colossus representa un avance sin precedentes en el desarrollo de inteligencia artificial. Equipado con las GPUs H100 basadas en la arquitectura Hopper y la plataforma de red Ethernet NVIDIA Spectrum-X, Colossus es capaz de procesar y analizar enormes volúmenes de datos con una eficiencia excepcional. Gracias a la tecnología de control de congestión de Spectrum-X, el sistema ha logrado mantener un rendimiento de red del 95 % sin latencia ni pérdida de paquetes, lo que marca un hito en el campo del procesamiento de datos de alta velocidad.
El uso de la red Ethernet Spectrum-X de NVIDIA, que soporta una velocidad de hasta 800 Gb/s a través de su conmutador SN5600, ha sido clave para mantener la estabilidad y el rendimiento en una configuración de tan alto volumen. Esta tecnología ha permitido a xAI llevar al límite el entrenamiento de modelos de IA, creando una infraestructura optimizada basada en Ethernet, y anticipa la posibilidad de ofrecer este tipo de plataformas en servicios de IA de gran escala para otros clientes en el futuro.
Un proyecto récord en tiempo y tecnología
La primera fase de Colossus, que instaló 100.000 GPUs en un tiempo récord de 19 días, ya demostró la capacidad logística y técnica del equipo de xAI y NVIDIA. En este segundo acuerdo, Musk y Jensen Huang, CEO de NVIDIA, han reafirmado su compromiso con la velocidad y la eficiencia en el desarrollo de infraestructuras de IA. La instalación inicial de Colossus se completó en 122 días, un plazo significativamente menor en comparación con otros proyectos de similar envergadura, que suelen tardar varios meses, o incluso años, en implementarse.
El propio Elon Musk, en un breve comentario, elogió el esfuerzo conjunto: “Colossus es el sistema de entrenamiento más potente del mundo. Buen trabajo del equipo de xAI, NVIDIA y nuestros numerosos socios y proveedores”.
Un paso estratégico para xAI en la carrera de la IA
La ampliación de Colossus responde a la urgencia de Musk de competir al nivel de gigantes tecnológicos como Google y OpenAI, líderes en el desarrollo de IA de gran escala. La nueva infraestructura está diseñada para sostener la creación y mejora de los modelos de lenguaje de xAI, como el modelo Grok, con el que la compañía espera atraer usuarios a su plataforma y ofrecer características avanzadas para sus suscriptores de X Premium.
“xAI ha construido la supercomputadora más grande y potente del mundo”, señaló un portavoz de xAI. “Las GPUs Hopper y la tecnología Spectrum-X de NVIDIA nos permiten empujar los límites del entrenamiento de modelos de IA a gran escala, creando una fábrica de IA altamente acelerada y optimizada”.
La IA, una misión crítica para el futuro
Desde NVIDIA, Gilad Shainer, vicepresidente sénior de redes, afirmó que la inteligencia artificial es “una misión crítica” que demanda altos niveles de rendimiento, seguridad y escalabilidad. “La plataforma de redes Ethernet NVIDIA Spectrum-X está diseñada para proporcionar a innovadores como xAI un procesamiento, análisis y ejecución más rápidos de las cargas de trabajo de IA, acelerando el desarrollo y la comercialización de soluciones de IA”.
Este proyecto de Colossus simboliza el compromiso de ambas empresas con el avance de la IA y destaca su rol en el desarrollo de infraestructuras masivas de alto rendimiento que marcarán el futuro de la tecnología.
vía: Nvidia