HetCCL: la pieza que faltaba para entrenar modelos con GPUs NVIDIA y AMD en el mismo clúster
La carrera por entrenar modelos de lenguaje cada vez más grandes está chocando con un problema menos visible que el tamaño de los parámetros o la calidad de los datos: la logística del hardware. En la práctica, levantar infraestructura de machine learning a gran escala ya no consiste solo en “comprar más GPUs”, sino en conseguirlas, integrarlas y hacer que trabajen juntas sin que el sistema se convierta en un rompecabezas de compatibilidades. Ahí es donde entra HetCCL, una nueva biblioteca de comunicación colectiva presentada por un equipo de investigadores con afiliaciones a Seoul National University y Samsung Research. Su propuesta apunta a un cuello de botella concreto: la dificultad de usar, de forma eficiente y transparente, clústeres heterogéneos con