Un equipo de investigadores japoneses ha anunciado el lanzamiento de «Fugaku-LLM«, un modelo de lenguaje a gran escala con capacidad mejorada en el idioma japonés, desarrollado utilizando el supercomputador Fugaku. Este avance promete revolucionar la investigación y las aplicaciones empresariales en Japón y más allá.
El equipo, liderado por el Profesor Rio Yokota del Instituto de Tecnología de Tokio, el Profesor Asociado Keisuke Sakaguchi de la Universidad de Tohoku, Koichi Shirahata de Fujitsu Limited, el Líder del Equipo Mohamed Wahib de RIKEN, el Profesor Asociado Koji Nishiguchi de la Universidad de Nagoya, Shota Sasaki de CyberAgent, Inc., y Noriyuki Kojima de Kotoba Technologies Inc., ha logrado entrenar un modelo de lenguaje con 13 mil millones de parámetros, superando a los modelos de 7 mil millones de parámetros que prevalecen en Japón.
Innovación en el Entrenamiento de Modelos de Lenguaje
Para entrenar este modelo en Fugaku, los investigadores desarrollaron métodos de entrenamiento distribuido, incluyendo la portabilidad del framework de aprendizaje profundo Megatron-DeepSpeed a Fugaku, optimizando así el rendimiento de los transformadores. Además, aceleraron la biblioteca de multiplicación de matrices densas para transformadores y optimizaron la comunicación mediante la combinación de tres tipos de técnicas de paralelización.
Rendimiento y Aplicaciones
Fugaku-LLM, entrenado con datos propios recopilados por CyberAgent, y otros datos en inglés y matemáticas, ha demostrado tener capacidades superiores en tareas de humanidades y ciencias sociales, alcanzando una puntuación de 9.18 en el MT-Bench japonés, la más alta entre los modelos abiertos entrenados con datos originales producidos en Japón.
El código fuente de Fugaku-LLM está disponible en GitHub, y el modelo se puede encontrar en Hugging Face, permitiendo su uso tanto para fines de investigación como comerciales, siempre que se cumpla con la licencia.
Colaboración y Contribuciones
Cada institución ha desempeñado un papel crucial en este proyecto:
- Instituto de Tecnología de Tokio: Supervisión general y optimización de la comunicación.
- Universidad de Tohoku: Recolección de datos y selección de modelos.
- Fujitsu: Aceleración de la computación y la comunicación.
- RIKEN: Paralelización distribuida y aceleración de la comunicación.
- Universidad de Nagoya: Estudio de aplicaciones para IA generativa 3D.
- CyberAgent: Provisión de datos de entrenamiento.
- Kotoba Technologies: Portabilidad del framework de aprendizaje profundo.
Impacto Futuro
Con Fugaku-LLM, Japón fortalece su posición en el desarrollo de la inteligencia artificial, mostrando que los modelos de lenguaje a gran escala pueden entrenarse eficientemente utilizando CPUs en lugar de GPUs, una solución crucial ante la escasez global de GPUs.
Este modelo no solo es una herramienta potente para la investigación académica, sino que también tiene el potencial de impulsar aplicaciones comerciales innovadoras, como la simulación científica y la creación de comunidades virtuales con miles de AIs.
Conclusión
El lanzamiento de Fugaku-LLM marca un hito significativo en el ámbito de la inteligencia artificial en Japón, mostrando el poder del supercomputador Fugaku y las capacidades avanzadas de los investigadores japoneses. Este modelo no solo mejora la comprensión del lenguaje japonés, sino que también sienta las bases para futuras innovaciones en diversas áreas científicas y comerciales.