AMD ha presentado la versión 6.4 de su plataforma de software ROCm (Radeon Open Compute), una actualización que supone un gran avance para quienes desarrollan y despliegan cargas de trabajo de inteligencia artificial (IA) y computación de alto rendimiento (HPC) sobre las GPU AMD Instinct™. Con esta nueva versión, la compañía refuerza su apuesta por un ecosistema más rápido, modular y fácil de gestionar, adaptado a las crecientes demandas de rendimiento y escalabilidad del sector.
Contenedores optimizados para entrenamiento e inferencia
Uno de los pilares de ROCm 6.4 es la incorporación de contenedores preoptimizados para los procesos de entrenamiento e inferencia en modelos de lenguaje de gran tamaño (LLM). Estos contenedores están listos para su uso y eliminan la complejidad habitual de configurar entornos personalizados.
Entre ellos destacan:
- vLLM: contenedor de inferencia para modelos como Gemma 3, Llama, Mistral o Cohere, diseñado para obtener baja latencia desde el primer día.
- SGLang: contenedor de inferencia optimizado para DeepSeek R1 y flujos de trabajo basados en agentes, con soporte para FP8, DeepGEMM y atención paralela multi-cabeza.
- PyTorch y Megatron-LM: contenedores de entrenamiento adaptados para GPU Instinct MI300X, con soporte afinado para modelos avanzados como Llama 3.1 y DeepSeek-V2-Lite.
Estas soluciones permiten a investigadores, desarrolladores e ingenieros de infraestructura acceder rápidamente a entornos reproducibles, estables y con un alto rendimiento.
Aceleración del entrenamiento con mejoras en PyTorch
ROCm 6.4 también introduce notables mejoras de rendimiento en PyTorch, especialmente en lo que respecta a los mecanismos de atención utilizados en modelos LLM. La nueva versión incorpora:
- Flex Attention, que mejora significativamente los tiempos de entrenamiento y reduce el uso de memoria.
- TopK hasta tres veces más rápido, mejorando el rendimiento en tareas de inferencia.
- SDPA (Scaled Dot-Product Attention) optimizado para contextos largos.
Estas mejoras permiten entrenar modelos más grandes de forma más eficiente, con menor coste computacional y mayor velocidad.
Inferencia de nueva generación con vLLM y SGLang
La nueva versión también potencia la inferencia a gran escala, ofreciendo bajo tiempo de respuesta y alto rendimiento para modelos avanzados como Llama 3.1 (8B, 70B, 405B), Gemma 3 o DeepSeek R1. En pruebas internas, el contenedor SGLang logró un rendimiento récord en GPU Instinct MI300X con DeepSeek R1, mientras que vLLM ofrece soporte inmediato para el despliegue de Gemma 3 en entornos productivos.
Los contenedores, que se actualizan semanal o quincenalmente, aseguran estabilidad y continuidad operativa en entornos de producción.
Gestión automatizada de clústeres GPU con AMD GPU Operator
Para facilitar la gestión de infraestructuras complejas, ROCm 6.4 incluye avances en el AMD GPU Operator, una herramienta que automatiza tareas como actualizaciones de drivers, programación de GPU en clústeres Kubernetes y monitorización en tiempo real.
Las nuevas funciones incluyen:
- Actualizaciones automáticas sin interrupciones (cordon, drain, reboot).
- Compatibilidad ampliada con Red Hat OpenShift 4.16–4.17 y Ubuntu 22.04/24.04.
- Exportación de métricas con Prometheus para seguimiento del estado de las GPU.
Esto permite a los equipos de TI reducir riesgos operativos y asegurar una infraestructura más resiliente.
Arquitectura modular con el nuevo Instinct GPU Driver
Finalmente, ROCm 6.4 presenta un nuevo controlador de GPU con arquitectura modular, que separa el driver del núcleo del espacio de usuario ROCm. Esta novedad ofrece:
- Mayor flexibilidad para actualizar componentes por separado.
- Ventana de compatibilidad extendida a 12 meses.
- Mejor integración con entornos bare metal, contenedores y aplicaciones de terceros.
Esta modularidad simplifica la gestión a gran escala, especialmente para proveedores de servicios cloud, administraciones públicas y empresas con altos requerimientos de estabilidad.
Con ROCm 6.4, AMD consolida su compromiso con el desarrollo de herramientas de alto rendimiento para IA y HPC, ofreciendo a investigadores, desarrolladores y responsables de infraestructura un entorno más potente, flexible y escalable para afrontar los retos tecnológicos actuales.