1 noviembre 2024
Noticias, Tecnología
3 minutos de lectura

Lanzamiento de «Fugaku-LLM»: Un modelo de lenguaje a gran escala desarrollado en el supercomputador Fugaku

Nota de Prensa

Un equipo de investigadores japoneses ha anunciado el lanzamiento de «Fugaku-LLM«, un modelo de lenguaje a gran escala con capacidad mejorada en el idioma japonés, desarrollado utilizando el supercomputador Fugaku. Este avance promete revolucionar la investigación y las aplicaciones empresariales en Japón y más allá.

El equipo, liderado por el Profesor Rio Yokota del Instituto de Tecnología de Tokio, el Profesor Asociado Keisuke Sakaguchi de la Universidad de Tohoku, Koichi Shirahata de Fujitsu Limited, el Líder del Equipo Mohamed Wahib de RIKEN, el Profesor Asociado Koji Nishiguchi de la Universidad de Nagoya, Shota Sasaki de CyberAgent, Inc., y Noriyuki Kojima de Kotoba Technologies Inc., ha logrado entrenar un modelo de lenguaje con 13 mil millones de parámetros, superando a los modelos de 7 mil millones de parámetros que prevalecen en Japón.

Innovación en el Entrenamiento de Modelos de Lenguaje

Para entrenar este modelo en Fugaku, los investigadores desarrollaron métodos de entrenamiento distribuido, incluyendo la portabilidad del framework de aprendizaje profundo Megatron-DeepSpeed a Fugaku, optimizando así el rendimiento de los transformadores. Además, aceleraron la biblioteca de multiplicación de matrices densas para transformadores y optimizaron la comunicación mediante la combinación de tres tipos de técnicas de paralelización.

Rendimiento y Aplicaciones

Fugaku-LLM, entrenado con datos propios recopilados por CyberAgent, y otros datos en inglés y matemáticas, ha demostrado tener capacidades superiores en tareas de humanidades y ciencias sociales, alcanzando una puntuación de 9.18 en el MT-Bench japonés, la más alta entre los modelos abiertos entrenados con datos originales producidos en Japón.

El código fuente de Fugaku-LLM está disponible en GitHub, y el modelo se puede encontrar en Hugging Face, permitiendo su uso tanto para fines de investigación como comerciales, siempre que se cumpla con la licencia.

Colaboración y Contribuciones

Cada institución ha desempeñado un papel crucial en este proyecto:

Instituto de Tecnología de Tokio: Supervisión general y optimización de la comunicación.
Universidad de Tohoku: Recolección de datos y selección de modelos.
Fujitsu: Aceleración de la computación y la comunicación.
RIKEN: Paralelización distribuida y aceleración de la comunicación.
Universidad de Nagoya: Estudio de aplicaciones para IA generativa 3D.
CyberAgent: Provisión de datos de entrenamiento.
Kotoba Technologies: Portabilidad del framework de aprendizaje profundo.

Impacto Futuro

Con Fugaku-LLM, Japón fortalece su posición en el desarrollo de la inteligencia artificial, mostrando que los modelos de lenguaje a gran escala pueden entrenarse eficientemente utilizando CPUs en lugar de GPUs, una solución crucial ante la escasez global de GPUs.

Este modelo no solo es una herramienta potente para la investigación académica, sino que también tiene el potencial de impulsar aplicaciones comerciales innovadoras, como la simulación científica y la creación de comunidades virtuales con miles de AIs.

Conclusión

El lanzamiento de Fugaku-LLM marca un hito significativo en el ámbito de la inteligencia artificial en Japón, mostrando el poder del supercomputador Fugaku y las capacidades avanzadas de los investigadores japoneses. Este modelo no solo mejora la comprensión del lenguaje japonés, sino que también sienta las bases para futuras innovaciones en diversas áreas científicas y comerciales.

X (Twitter) LinkedIn Facebook WhatsApp Telegram Email

Fujitsu, supercomputador

Nota de Prensa

encuentra artículos

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

LO ÚLTIMO

04/11/2025
Empresas, Noticias

Trulioo presenta capacidades de identidad de “siguiente generación” para cubrir todo el ciclo de confianza digital

04/11/2025
Empresas, Noticias

Fuga del Exynos 2600: un engineering sample iguala al Apple M5 en single-core (Geekbench 6) y marca 4,20 GHz en su núcleo tope

04/11/2025
Empresas, Noticias

SK hynix dibuja la década de la memoria: HBM4E hoy, HBM5 y DDR6 a partir de 2029, SSD PCIe 7.0 y UFS 6.0… y un “almacenamiento con IA” para cerrar el círculo

04/11/2025
Noticias

Confluent lanza Confluent Private Cloud para llevar la simplicidad de la nube a las instalaciones on-premise