LineShine: el superordenador chino que entrena IA sin GPU

Silvia A. Feliz

China acaba de mostrar una vía poco habitual para entrenar modelos de inteligencia artificial a escala extrema: un superordenador basado en CPU Armv9, sin depender del esquema dominante de grandes clústeres acelerados por GPU. El sistema se llama LineShine, está instalado en el National Supercomputing Center in Shenzhen (NSCC-SZ) y ha sido descrito en un artículo científico publicado como preprint en arXiv el 09/05/2026.

La cifra que más llama la atención no es solo el rendimiento, sino la arquitectura. LineShine combina 20.480 nodos de cálculo y 40.960 procesadores LX2 basados en Armv9. Cada procesador integra 304 núcleos, así que, tomando los datos técnicos del trabajo, el total teórico asciende a 12.451.840 núcleos CPU. Es una cifra muy superior a los 2,4 millones que han circulado en algunas lecturas rápidas del sistema y que no encaja con la multiplicación directa de nodos, procesadores y núcleos por procesador descrita en el paper.

El proyecto aparece en un contexto marcado por las restricciones estadounidenses a chips avanzados para China, que desde 2022 afectan a semiconductores de computación avanzada y a determinados usos de supercomputación. Esas limitaciones han acelerado el interés chino por arquitecturas propias, procesadores nacionales y diseños capaces de sostener cargas de IA sin depender por completo de GPUs extranjeras.

Un superordenador CPU para entrenar modelos de IA científica

LineShine no se ha presentado únicamente como una demostración de hardware. El sistema se ha usado para entrenar un modelo generativo de compresión aplicado a datos de observación de la Tierra. El objetivo del trabajo es reducir de forma extrema el volumen de datos satelitales, con ratios que van de 100× a 10.000×, y después reconstruir la información mediante un modelo entrenado con archivos históricos de observación terrestre.

La idea tiene sentido porque los satélites observan una y otra vez el mismo planeta. Esa repetición genera patrones geográficos, temporales y espectrales que pueden aprenderse. En lugar de tratar cada imagen como un archivo aislado que hay que transmitir, almacenar y procesar casi en bruto, el sistema propone usar el historial global de observaciones como una especie de memoria generativa. El modelo no solo comprime; aprende un conocimiento previo del territorio para reconstruir mejor lo que se pierde en la compresión.

Según el artículo, el entrenamiento alcanó 1,54 exaFLOP/s sostenidos en BFloat16 y un pico de 2,16 exaFLOP/s en la carga evaluada. Son cifras relevantes porque no proceden de un clúster GPU convencional, sino de una máquina CPU Armv9 con memoria jerárquica HBM y DDR, una red de interconexión propia y un gran esfuerzo de optimización de software.

Elemento	Dato descrito
Nodos de cálculo	20.480
Procesadores LX2	40.960
Núcleos por procesador	304
Núcleos CPU totales	12.451.840
Memoria por procesador	32 GB HBM + 256 GB DDR
Ancho de banda HBM por procesador	hasta 4 TB/s
Red por nodo	LQLink, 1,6 Tb/s
Rendimiento sostenido reportado	1,54 exaFLOP/s
Pico reportado	2,16 exaFLOP/s

El procesador LX2 descrito en el trabajo integra dos dies de cómputo, ocho clústeres de CPU y una combinación de memoria HBM en el propio paquete con DDR externa. Esta arquitectura no busca imitar exactamente el modelo GPU, sino explotar una mezcla de muchos núcleos, memoria de alto ancho de banda, memoria de mayor capacidad y optimizaciones muy específicas para operaciones densas de entrenamiento.

Por qué importa que no use GPU

La mayor parte de la IA moderna a gran escala se entrena y ejecuta sobre GPUs o aceleradores especializados. NVIDIA domina buena parte de ese mercado porque sus chips, su software y su ecosistema CUDA han creado una ventaja difícil de replicar. Por eso resulta relevante que China muestre un resultado de entrenamiento exascale apoyado en CPU Armv9: no demuestra que las GPUs hayan dejado de ser necesarias, pero sí que existen caminos alternativos para determinadas cargas científicas.

El matiz es importante. LineShine no debe compararse sin más con los grandes clústeres de IA generativa destinados a entrenar modelos de lenguaje masivos. Su caso de uso es distinto: compresión generativa y reconstrucción de datos satelitales multispectrales. Ahí intervienen mucho la ingesta de datos, la memoria, las comunicaciones, la organización de tensores y la capacidad de sostener trabajos científicos muy largos sobre archivos enormes.

El paper insiste en que los archivos de observación terrestre ya alcanzan escalas de cientos de petabytes y que, para muchas tareas científicas, mover y reprocesar datos a esa escala se está convirtiendo en un cuello de botella. La propuesta D2AR, el marco utilizado en el entrenamiento, intenta convertir esos archivos históricos en un modelo capaz de ofrecer reconstrucciones bajo demanda con distintos niveles de compresión.

El planteamiento también puede afectar a cómo se diseñan futuras infraestructuras científicas. En vez de que cada investigador descargue grandes volúmenes de datos, los centros de supercomputación podrían ofrecer representaciones comprimidas, reconstrucciones adaptadas a cada tarea o productos derivados generados cerca del archivo. Esto encaja con una tendencia más amplia: llevar el análisis a donde están los datos, en lugar de mover siempre los datos hacia cada usuario.

La clave está en la cooptimización

El resultado de LineShine no se explica solo por sumar millones de núcleos. El trabajo técnico describe una optimización coordinada entre modelo, kernels, memoria, runtime y paralelismo. En CPU, los costes de planificación, sincronización y movimiento de datos pueden pesar mucho más que en GPU si el software no está adaptado. Por eso los investigadores desarrollaron estrategias específicas para Armv9, SVE y SME, la extensión matricial de la arquitectura.

Uno de los retos es la memoria. Cada clúster dispone de una cantidad limitada de HBM local, así que no todos los parámetros, activaciones, gradientes y estados del optimizador pueden permanecer en la memoria más rápida. El sistema decide qué tensores deben ir a HBM y cuáles pueden mantenerse en DDR según su impacto real en el rendimiento y su tiempo de vida durante el entrenamiento.

También se ajusta la comunicación. LineShine usa paralelismo de secuencia y una estrategia híbrida de datos alineada con la topología física de la máquina. El objetivo es que las comunicaciones más frecuentes se queden dentro de dominios de baja latencia cuando sea posible y que los estados del optimizador no se repliquen innecesariamente.

El salto de rendimiento descrito en el trabajo es notable. Para el modelo de 6.000 millones de parámetros, el tiempo por paso en un nodo baja de 51,31 segundos en la línea base a 4,98 segundos tras aplicar gestión de memoria, kernels optimizados, mejoras de comunicación y runtime asíncrono. Esa mejora local es la que después permite escalar el sistema hasta miles de nodos sin que la eficiencia se desplome.

El resultado final en la escala completa, con 20.480 nodos, mantiene una eficiencia de escalado débil del 76 %. En términos prácticos, esto significa que al aumentar el número de nodos también aumenta la carga global de trabajo sin que el sistema pierda demasiada eficiencia. Para entrenar con archivos históricos globales, ese punto es más importante que acelerar una prueba pequeña y fija.

LineShine muestra que China no se limita a buscar sustitutos directos de las GPUs occidentales. También está explorando diseños completos de supercomputación donde procesador, red, memoria y software se ajustan a cargas concretas. Esa estrategia no elimina la ventaja de los aceleradores en IA comercial, pero sí amplía el tablero.

La lectura más interesante para el sector cloud y de infraestructura es que la IA no tendrá una única arquitectura ganadora. Los modelos conversacionales, la inferencia empresarial, la simulación científica, la observación de la Tierra y la compresión generativa pueden exigir combinaciones distintas de cómputo, memoria, red y almacenamiento. LineShine encaja en esa segunda familia: menos visible para el gran público que ChatGPT o DeepSeek, pero muy relevante para entender cómo se está reorganizando la supercomputación en plena rivalidad tecnológica.

Preguntas frecuentes

¿Qué es LineShine?
LineShine es un superordenador chino instalado en el National Supercomputing Center in Shenzhen. Está basado en procesadores LX2 Armv9 y se ha usado para entrenar modelos de IA científica a escala exascale.

¿Cuántos núcleos tiene LineShine?
Según los datos técnicos del paper, cuenta con 20.480 nodos, dos procesadores por nodo y 304 núcleos por procesador. Eso da 12.451.840 núcleos CPU en total.

¿LineShine usa GPUs?
La arquitectura descrita se basa en CPU Armv9 LX2 y medios especializados la han presentado como una máquina exascale all-CPU. Su interés está precisamente en mostrar una ruta de entrenamiento de IA sin depender del modelo clásico de clúster GPU.

¿Puede competir con los grandes clústeres de NVIDIA?
Depende de la carga. Para entrenamiento de grandes modelos de lenguaje, las GPUs siguen dominando. LineShine destaca en una carga científica concreta: entrenamiento exascale de un modelo generativo para compresión y reconstrucción de datos de observación terrestre.