Arm C1 frente a x86 y Mali G1-Ultra: la apuesta de Arm para llevar la IA y el ray tracing móvil a otra liga

Arm ha levantado el telón de su nueva plataforma Lumex dentro de la estrategia Compute Subsystems (CSS): un paquete “casi listo para fabricar” que combina CPU Arm C1 (Armv9.3 con SME2 integrada), GPU Mali G1-Ultra con Ray Tracing Unit v2, interconexión y memoria del sistema optimizadas, telemetría unificada y una pila de software pensada para acelerar el desarrollo. El objetivo declarado es claro: democratizar la IA en el dispositivo —desde móviles de gama alta a wearables— y reducir la dependencia del cloud. La compañía sitúa las implementaciones de referencia en nodos avanzados, incluidos los 3 nm de TSMC.

La propuesta llega en un contexto de presión competitiva: los núcleos C1 quieren disputar a x86 el terreno del rendimiento “per-watt” en cómputo cliente y en el borde, y la Mali G1-Ultra busca acortar distancias con las GPU móviles más ambiciosas, escalando trazado de rayos y tareas de IA. En paralelo, Arm empuja su narrativa “on-device first” con SME2 (Scalable Matrix Extensions 2), que acelera operaciones matriciales típicas de transformadores y CNNs directamente en CPU, con una promesa de hasta 5× más rendimiento de IA y 3× mejor eficiencia frente a la generación anterior.

A continuación, un repaso técnico —y con cifras— a lo presentado.


Lumex CSS: CPU, GPU y sistema, orquestados para la IA en el dispositivo

Lumex CSS no es un único IP suelto, sino un “sub-sistema” que Arm entrega a fabricantes de SoC con clusters de CPU C1, GPU Mali G1, interconexión de sistema (SI), MMU optimizada, Kleidi AI y herramientas para telemetría y perfilado. La clave, según la compañía, es acortar ciclos de diseño y facilitar que cada socio mezcle núcleos C1-Ultra, C1-Premium, C1-Pro y C1-Nano según su producto (flagship, mainstream, eficiencia, wearables).

  • Armv9.3 + SME2: integración nativa de instrucciones matriciales para acelerar inferencias en CPU (atención, convoluciones, proyecciones lineales). Arm posiciona SME2 como “game-changer” para experiencias de IA privadas y en tiempo real, con menos saltos a la NPU/GPU cuando el “hot path” cabe en CPU y memoria caché.
  • Stack de software: referencias a Kleidi AI y herramientas unificadas para perf, con el foco en que desarrolladores y OEMs puedan portear LLMs compactos, TTS, SR o super-resolución sin rediseñar el SoC.
Introducing Arm Lumex CSS Platform: A Scalable AI Platform for Mobile and PC

CPU Arm C1: cuatro variantes para cubrir del flagship al wearable

Los nuevos C1 sustituyen en la hoja de ruta a los Cortex equivalentes y se distribuyen en cuatro sabores con Armv9.3 y SME2:

  • C1-Ultra: “big” de máximo rendimiento, pensado para modelos de IA grandes, fotografía computacional y generación de contenido en tope de gama. Según datos compartidos por la compañía, ofrece +25 % de rendimiento por núcleo frente a su predecesor, una ventana de ejecución +25 % y +33 % de ancho de banda en L1 frente a Cortex-X925.
  • C1-Premium: busca equilibrio rendimiento/área con un desempeño próximo a Ultra pero en ≈ 35 % menos superficie, dirigido a smartphones “mainstream” y gama alta contenida.
  • C1-Pro: perfil eficiente para reproducción de vídeo, inferencias en segundo plano y cargas permanentes. La ganancia de rendimiento ronda +16 % frente a su generación previa.
  • C1-Nano: la opción ultra-eficiente para wearables; reduce el consumo ≈ 26 % y minimiza área para encajar en diseños de relojes y pulseras.

Más allá de las etiquetas de marketing, el mensaje técnico es que SME2 mueve parte de la IA ligera a CPU con menor penalización energética y latencias más estables, dejando GPU/NPU para ráfagas y lotes mayores. En los materiales de lanzamiento, Arm habla de hasta 5× en cargas de IA y latencias (voz) claramente menores respecto a la generación previa, lo que refuerza el enfoque de experiencias “always-on” sin nube.

Fabricación y “time-to-market”. Arm señala que Lumex CSS está optimizado para 3 nm (por ejemplo, TSMC N3), un guiño directo a ciclos de producto 2025-2026 en smartphones premium. El formato CSS (sub-sistema casi listo) pretende reducir meses de integración a los socios que no quieren partir de IPs sueltos.


GPU Mali G1-Ultra: 2× en ray tracing y +20 % en juegos e IA

En gráficos, la nueva Mali G1-Ultra reemplaza a la Immortalis-G925 como referencia tope de gama de Arm. La pieza estrella es la Ray Tracing Unit v2 (RTUv2), que duplica el rendimiento de ray tracing frente a la generación anterior y mejora en torno a +20 % en benchmarks de gráficos e inferencias de IA gracias a rutas matriciales FP16 y cambios en el programador.

En cargas reales, Arm cita impacto medido en títulos como Fortnite, Genshin Impact, Arena Breakout y Honkai: Star Rail, donde se aprecia tanto más fps como mejor eficiencia por frame. Para la industria, quizá lo más relevante es que estos avances “gotean” a las variantes G1-Premium y G1-Pro: no solo los flagship mejoran; también la gama media.

Bajo el capó. La arquitectura incorpora shader cores de doble pila, más registros de acceso rápido, región de dependencias inteligentes (IRD) para suavizar burbujas de ejecución, contadores por tile integrados con Vulkan y hoja de ruta para RenderDoc. Además, Arm extiende su reescalado temporal ASR (Accuracy Super Resolution), ya presente en Unreal Engine 5 y Fortnite en móviles. El Estado del Arte se alinea con la tendencia: “calidad de consola” en pantallas de bolsillo, pero con límites térmicos y energéticos mucho más estrictos.


¿Por qué esta generación importa? Un vistazo desde la mesa del sysadmin y del desarrollador

Más allá de la nota de prensa, hay implicaciones técnicas y de producto que conviene subrayar:

  1. CPU como acelerador de IA “seria”. Con SME2, Arm no pretende sustituir a la NPU, pero sí ampliar el margen donde CPU ofrece latencia menor y coherencia de caché que favorece pipelines híbridos (por ejemplo, ASR/TTS o etapas de pre/post-procesado de un LLM). Para apps con inferencias pequeñas pero frecuentes, la CPU C1 puede ser el “motor por defecto”, reservando NPU para ráfagas.
  2. Ray tracing en móvil, ahora sí “jugable”. Los 2× en RT y la mejora del 20 % general no equivalen a “trazado total” en todos los títulos, pero sí elevan el umbral de efectos selectivos (reflexiones, sombras) sin sacrificar 60 fps sostenidos, especialmente con ASR y técnicas temporales. Para estudios, esto abre puertas a presets RT en móvil sin rehacer su render pipeline.
  3. Menos fricción de integración para OEMs. El formato CSS acelera la llegada a mercado: clusters C1 pre-validados, interconexión y MMU ajustadas, telemetría unificada, y Kleidi AI para atar cabos entre CPU/GPU/NPU. Resultado: ciclos más cortos y más SKUs por año con mejores “mix & match”.
  4. Competencia con x86 por arriba, con RISC-V por abajo. En rendimiento por vatio, el tridente C1-Ultra + SME2 + 3 nm coloca a Arm en una posición incómoda para x86 en cliente móvil y “edge-client”. A la vez, la estandarización de CSS compite con el dinamismo de RISC-V en “design-to-cost”. El campo de batalla: latencia de IA y coste/área.

Rendimiento declarado y métricas comparables

Arm ha difundido varias métricas clave —tanto en CPU como en GPU— que permiten hacerse una idea de la magnitud del salto:

  • CPU C1 (con SME2): hasta en cargas de IA y ≈ 3× de eficiencia energética frente a la generación previa, gracias a instrucciones matriciales, mayor ventana de ejecución y mejoras de caché L1 (en el caso de Ultra, +33 % de ancho de banda).
  • GPU Mali G1-Ultra: 2× en ray tracing (RTUv2) y ≈ +20 % en benchmarks de gráficos e inferencia respecto a Immortalis-G925, con un foco explícito en títulos populares de móvil.

Nota: las cifras dependen de configuraciones, clocks y TDP efectivos de cada SoC/OEM, por lo que los resultados en producto final pueden variar —como siempre— con el diseño térmico y de energía de cada fabricante.


Calendario y adopción esperada

Medios del sector apuntan a lanzamientos comerciales a partir de finales de 2025, alineados con ciclos de renovación de Qualcomm, MediaTek, Samsung o HiSilicon. Arm presentó Lumex en un evento en China, subrayando la relevancia del ecosistema Android no-Apple para la primera ola de adopción. Que tengamos silicio de volumen en 3 nm con C1/G1 antes de la campaña navideña dependerá, en gran medida, de los calendarios de tape-out y la capacidad fab, especialmente en N3.


Qué significa para usuarios y para la industria

  • Para el usuario final: más funciones de IA privada (traducción en tiempo real, asistentes contextuales que no filtran datos al cloud, edición fotográfica avanzada en el carrete) y videojuegos móviles con efectos de iluminación y reflexiones propios del PC/consola, con mejor autonomía que en intentos previos.
  • Para desarrolladores: SME2 como objetivo de optimización adicional, acceso a telemetría unificada del sistema, contadores por tile en GPU y ASR como base de reescalado temporal. El reto: adaptar motores (Unity/Unreal) y middleware de IA para CPU/GPU/NPU cooperando sin “over-scheduling”.
  • Para OEMs: menos integración ad-hoc, más previsibilidad en plazos y BOM, y diferenciación por mezcla de núcleos (Ultra/Premium/Pro/Nano) y clocks, en lugar de reinventar la rueda de interconexión y gestión de memoria.

¿Y frente a x86?

La pregunta inevitable: ¿amenaza real a x86 en cliente? En cargas sensibles a latencia y rendimiento/Wh, sí: C1-Ultra con SME2 podría competir frente a portátiles ligeros que hoy recurren a NPU/GPU para la IA básica del sistema. Sin embargo, el ecosistema de desarrollo —compiladores, bibliotecas optimizadas, marcos como PyTorch con rutas SME2 maduras— marcará la diferencia. Por ahora, Arm pivota el argumento en Android y el form factor móvil, donde su cuota es hegemónica.


Lo que conviene vigilar (para tecnólogos)

  1. Toolchains con SME2: si Kleidi AI y el soporte en marcos mayoritarios aterrizan en 2025 con madurez, C1 ganará tracción no solo en inferencia ligera, también en pre/post-procesado que hoy “atasca” la NPU.
  2. Drivers y RT en móvil: la promesa de 2× en RT es potente; su traslado a juegos vivos depende de drivers Vulkan, estabilidad y optimización por título.
  3. Escalabilidad térmica: el salto a 3 nm ayuda, pero sostenido de 60 fps con RTUv2 en chasis ultracompacto sigue siendo un reto de power gating y disipación.
  4. Ecosistema de socios: la rapidez con que Qualcomm/MediaTek/Samsung adapten CSS marcará la disponibilidad masiva —y el posicionamiento de precio— en 2026.

Conclusión

Con Lumex CSS, C1 y Mali G1-Ultra, Arm no solo actualiza su catálogo: redefine su propuesta para una década en la que la IA se ejecutará mayoritariamente en el dispositivo. Las CPU C1 con SME2 empujan a la CPU a un papel de acelerador de IA más protagonista, y la GPU G1-Ultra afianza que el trazado de rayos en móvil no es un experimento aislado. Si los tiempos de integración prometidos por CSS se cumplen y el software acompaña, 2026 podría ser el año en que los móviles desacoplen gran parte de su inteligencia del cloud —con mejores latencias, más privacidad y, sí, mejores gráficos.


Preguntas frecuentes (FAQ)

¿Qué es Arm Lumex CSS y en qué se diferencia de lanzar IPs sueltos?
Es un sub-sistema completo (CPU C1 + GPU Mali G1 + SI/MMU + herramientas) listo para integrar en un SoC, con implementaciones físicas de referencia en 3 nm. Reduce la complejidad y el tiempo de integración frente a ensamblar IPs pieza a pieza.

¿Qué aporta SME2 en los C1 frente a usar solo NPU/GPU?
SME2 habilita matricial en CPU (Armv9.3), mejorando latencias y eficiencia en inferencias pequeñas y tareas de “pegamento” alrededor de redes (pre/post-procesado), con hasta 5× de rendimiento y ≈ 3× más eficiencia respecto a la generación previa.

¿Cuánto mejora Mali G1-Ultra respecto a Immortalis-G925?
Arm declara 2× en ray tracing (RTUv2) y ≈ +20 % en benchmarks gráficos e inferencia de IA; además, cita mejoras en juegos populares (Fortnite, Genshin, Arena Breakout, Honkai) y herramientas de desarrollo (contadores por tile integrados con Vulkan y soporte de RenderDoc en la hoja de ruta).

¿Cuándo llegarán los primeros móviles con C1/G1?
Las informaciones públicas sitúan la adopción comercial a partir de finales de 2025 y durante 2026, sujeta a calendarios de tape-out y disponibilidad fab en 3 nm.

¿Cómo impacta esto en la competencia con x86?
El rendimiento por vatio y la latencia de IA de C1 + SME2 presionan a x86 en cliente móvil y “edge-client”. La batalla real se jugará en software (toolchains, marcos, drivers) y en la capacidad de los OEMs para llevar Lumex CSS a producto sin fricciones.

¿Qué deben vigilar los desarrolladores de juegos móviles?
Optimización Vulkan, adopción de ASR y rutas RT escalables, uso de contadores por tile y la planificación para termales. Con G1-Ultra, hay margen realista para efectos RT selectivos y mejor frame pacing si el presupuesto térmico lo permite.


Fuentes: comunicados y blogs técnicos de Arm sobre Mali G1-Ultra y C1/SME2, cobertura de prensa tecnológica y de negocio (Reuters, EE Times), y resúmenes de anuncio de socios y medios especializados.

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×