El Centro Nacional de Aplicaciones de Supercomputación (NCSA) de la Universidad de Illinois en Urbana-Champaign ha anunciado oficialmente el lanzamiento de DeltaAI, su nuevo y avanzado sistema de computación diseñado para potenciar la investigación en inteligencia artificial (IA) y aplicaciones de alto rendimiento (HPC). DeltaAI, financiado con casi 30 millones de dólares por la Fundación Nacional de Ciencias (NSF), se presenta como un recurso clave que promete transformar la investigación en IA y HPC en Estados Unidos.
Un complemento al superordenador Delta
DeltaAI se posiciona como un sistema complementario al superordenador Delta, una instalación basada en HPE Cray que el NCSA implementó en 2021. Mientras Delta marcó un hito con sus 338 nodos y GPUs Nvidia A100, DeltaAI lleva estas capacidades al siguiente nivel, integrando tecnología de vanguardia como las GPUs Nvidia H100 Hopper y los superchips GH200 Grace Hopper. Este sistema no solo duplica el rendimiento de su predecesor, sino que está optimizado específicamente para cargas de trabajo de IA, aprendizaje automático y modelos de lenguaje de última generación.
Bill Gropp, director del NCSA, destacó que el diseño de DeltaAI responde a la creciente demanda de recursos basados en GPU, una tendencia que surgió rápidamente tras la implementación del sistema Delta. “La IA ha crecido exponencialmente, y con ella la necesidad de recursos con mayor capacidad de memoria y rendimiento,” afirmó Gropp durante una entrevista en la conferencia SC2024 en Atlanta.
Rendimiento optimizado para IA y HPC
DeltaAI ofrece un impresionante rendimiento de 633 petaflops en precisión media (FP16), diseñado específicamente para tareas de IA, y petaflops en precisión doble (FP64) para aplicaciones científicas que requieren alta precisión numérica, como modelado climático y dinámica de fluidos. Cada nodo del sistema está equipado con 320 GPUs Nvidia Grace Hopper, cada una con 96 GB de memoria, acumulando un total de 384 GB por nodo. Además, cuenta con un sistema de almacenamiento de 14 PB capaz de manejar hasta 1 TB/segundo y una interconexión altamente escalable.
Este diseño no solo mejora el rendimiento de las aplicaciones actuales, sino que también permite abordar modelos de lenguaje a gran escala y tareas de inferencia más complejas. Gropp señaló que el sistema apoyará investigaciones clave en áreas como la inteligencia artificial explicable (XAI), destinada a desentrañar el funcionamiento interno de los modelos de IA y mejorar su confiabilidad.
Fomentando la accesibilidad y la colaboración
DeltaAI estará disponible para investigadores de todo el país a través del programa NSF ACCESS y la iniciativa piloto del Recurso Nacional de Investigación en Inteligencia Artificial (NAIRR). Esta accesibilidad amplia busca democratizar la investigación en IA y HPC, permitiendo a más usuarios aprovechar las capacidades de este sistema de última generación.
“La idea es maximizar el impacto colaborativo,” explicó Gropp. “Queremos que más usuarios aprovechen nuestras GPUs de vanguardia y que trabajen junto a otros grupos para compartir recursos y conocimientos.”
El sistema también está diseñado para ser versátil, atendiendo tanto a necesidades específicas de IA como a aplicaciones tradicionales de HPC, como dinámica molecular, mecánica de fluidos y mecánica estructural. Su arquitectura, basada en nodos multi-GPU y memoria unificada, ofrece soluciones a limitaciones comunes, como el ancho de banda de memoria, lo que mejora significativamente el rendimiento en tareas computacionalmente intensivas.
Preparado para el futuro
DeltaAI forma parte de un enfoque de diseño de infraestructura que integra de manera fluida sus capacidades con las de Delta, utilizando la misma red Slingshot y el sistema de archivos compartidos. Este diseño no solo garantiza la eficiencia en el uso de recursos, sino que también establece una base para futuras ampliaciones. De hecho, el NCSA ya tiene planes para añadir nuevos sistemas en los próximos años, adoptando un modelo de actualización continua en lugar de esperar a que el hardware actual quede obsoleto.
Gropp también destacó la importancia de equilibrar el entusiasmo por la IA con un progreso científico práctico. “La IA tiene un potencial tremendo, pero hay cosas que nunca podrá hacer con las tecnologías actuales,” advirtió. “DeltaAI nos permitirá avanzar tanto en la curiosidad científica como en aplicaciones prácticas que mejoren la vida de las personas.”
Un paso hacia el liderazgo en IA y HPC
Con DeltaAI, el NCSA refuerza su compromiso de liderar la investigación en inteligencia artificial y computación de alto rendimiento, proporcionando un recurso que combina potencia, versatilidad y accesibilidad. Este sistema no solo promete ser un catalizador para nuevas aplicaciones científicas y tecnológicas, sino que también reafirma el papel de la colaboración y la transparencia en el avance del conocimiento.
DeltaAI representa un ejemplo de cómo la tecnología puede usarse para abordar preguntas fundamentales, mejorar la confiabilidad de la IA y traducir estos avances en beneficios tangibles para la sociedad.
Resumen técnico: Hardware y red de DeltaAI
DeltaAI está diseñado con tecnología de última generación para abordar las crecientes demandas de investigación en IA y computación de alto rendimiento. El sistema incluye:
- 456 GPUs NVIDIA H100, optimizadas para tareas de aprendizaje automático y cargas de trabajo de IA.
- Red HPE Slingshot con 200 Gb/s, que proporciona una interconexión de alto rendimiento y baja latencia entre nodos.
- Sistemas de archivos Lustre compartidos con el superordenador Delta:
- Un sistema basado en HDD para grandes volúmenes de datos.
- Otro basado en NVME para manejar archivos pequeños y operaciones rápidas de E/S.
- Acceso al sistema de archivos Taiga para proyectos a nivel del centro, basado en Lustre.
- Directorios personales alojados en Harbor, un sistema basado en VAST para almacenamiento de alta fiabilidad.
Nodos CPU-GPU de alto rendimiento
DeltaAI cuenta con 114 nodos CPU-GPU, cada uno equipado con:
- 4 superchips Grace Hopper GH200 por nodo, cada uno con:
- 1 GPU NVIDIA H100 con 96 GB de memoria HBM3.
- 1 CPU Grace ARM de 72 núcleos con 120 GB de memoria LPDDR5X.
- 4 conexiones de red Slingshot11, una por cada superchip, maximizando la eficiencia de la comunicación.
- 1 unidad NVME de 3,5 TB por nodo, proporcionando almacenamiento rápido y local.
Este conjunto de hardware permite un rendimiento sin precedentes para modelos de IA, con una infraestructura que prioriza tanto la potencia como la eficiencia. DeltaAI es una herramienta clave para investigadores que buscan abordar problemas complejos y escalar sus aplicaciones científicas y tecnológicas.
vía: HPCwire y NCSA Delta