Intel y AMD preparan ACE, la extensión x86 para acelerar IA desde la CPU

Intel y AMD han dado otro paso en la modernización de x86 con la especificación ACE v1.15, siglas de AI Compute Extensions. La nueva extensión nace dentro del x86 Ecosystem Advisory Group, el grupo creado por ambas compañías para coordinar el futuro de la arquitectura y reducir la fragmentación entre plataformas. Su objetivo inicial es claro: acelerar operaciones de Inteligencia Artificial y machine learning directamente desde la CPU, con especial atención a la multiplicación de matrices y a los formatos numéricos de baja precisión.

ACE no debe entenderse como una NPU integrada ni como un sustituto de la GPU. Es una ampliación del conjunto de instrucciones x86 pensada para que las futuras CPU puedan ejecutar mejor ciertos cálculos habituales en IA, sobre todo cuando no compensa mover datos a un acelerador externo o cuando la carga requiere baja latencia, integración directa con el sistema o una ejecución más predecible en CPU.

El documento técnico describe ACE como una extensión para acelerar tareas de cómputo, inicialmente centrada en kernels de multiplicación de matrices y formatos de precisión reducida relevantes para cargas de ML. La especificación añade un nuevo estado de registros, instrucciones de movimiento de datos y operaciones que combinan registros vectoriales AVX con registros tipo tile, en una arquitectura que busca más densidad de cómputo sin romper con la base x86 existente.

Por qué ACE importa para el futuro de x86

La Inteligencia Artificial ha desplazado buena parte del debate hacia GPU, NPU y aceleradores dedicados. Tiene sentido: los grandes modelos, el entrenamiento y muchas cargas de inferencia masiva necesitan hardware especializado. Pero no toda IA se ejecuta en grandes clústeres. Hay inferencia ligera, modelos pequeños, funciones embebidas en aplicaciones, estaciones de trabajo, servidores generalistas y portátiles donde la CPU sigue siendo una pieza central.

Ahí encaja ACE. La multiplicación de matrices es una de las operaciones básicas de redes neuronales, transformers y sistemas de aprendizaje automático. AVX10 ya puede trabajar con vectores y operaciones SIMD, pero la especificación de ACE reconoce que la densidad de cálculo y la escalabilidad de las aproximaciones vectoriales tradicionales tienen límites. Por eso introduce primitivas matriciales con registros tile, más cercanas a la forma en la que se ejecutan estas cargas en aceleradores modernos.

TecnologíaPapel principal
AVX10Base vectorial moderna para x86
ACEExtensión matricial para cargas de IA y ML
Registros tileAcumulación y trabajo sobre bloques bidimensionales
Block Scale RegistersEscalado por bloques para formatos OCP MX
GPUAceleración masiva de IA, gráficos y cómputo paralelo
NPUInferencia local eficiente en equipos cliente

El enfoque también tiene una lectura estratégica. x86 compite con arquitecturas alternativas que han ganado terreno en eficiencia, movilidad y aceleración integrada. Apple, Qualcomm, Arm, NVIDIA y otros actores están empujando diseños donde CPU, GPU, NPU y memoria trabajan cada vez más integrados. Intel y AMD necesitan que x86 evolucione sin repetir errores de fragmentación que complicaron la vida a desarrolladores y fabricantes.

El precedente más citado es AVX-512. Durante años, el soporte parcial, desigual o limitado por gamas hizo que los desarrolladores tuvieran que mantener rutas de código específicas, comprobar capacidades con cuidado y aceptar que no todos los procesadores x86 se comportaban igual. ACE intenta nacer desde otro punto: como una especificación conjunta, coordinada por Intel y AMD, para que compiladores, bibliotecas y frameworks puedan prepararse sobre una base más común.

Cómo funciona ACE: tiles, AVX y baja precisión

ACE combina registros AVX con un nuevo estado de registros tipo tile. Según la especificación, el archivo de registros tile contiene ocho registros bidimensionales de 512 bits por 16 filas. Cada fila equivale al tamaño de un vector AVX-512. En la versión inicial, los acumuladores se centran en tipos de 32 bits, como FP32 o INT32.

La extensión también incorpora un Block Scale Register de 1.024 bits, dividido en dos mitades de 512 bits para escalas asociadas a las dos entradas de las operaciones. Este registro permite aplicar escalado por bloques, una técnica importante en formatos de microscaling como los definidos por OCP MX. En IA, este tipo de formatos ayuda a reducir memoria y ancho de banda manteniendo resultados útiles en modelos cuantizados o de baja precisión.

Componente ACEQué añade
Tile registersRegistros bidimensionales para operaciones matriciales
Block Scale RegisterEscalas E8M0 para operaciones OCP MX
Tile outer productOperaciones de producto exterior sobre tiles
Movimientos AVX-tileTransferencia entre registros AVX y estado ACE
Conversiones de formatoPasos entre FP32, FP16, BF16, FP8, FP6, FP4 e INT8
Gestión del sistemaEstado XSAVE, CPUID y soporte del sistema operativo

La operación central es el producto exterior. En términos simples, ACE permite tomar dos vectores de entrada, tratarlos como matrices parciales y acumular el resultado en un tile. La especificación define operaciones de rango 2 y rango 4 para formatos como BF16, INT8, MX FP8 y MX INT8. Estas operaciones están pensadas para construir multiplicaciones de matrices mayores mediante pasos sucesivos.

Los formatos soportados muestran hacia dónde mira la industria. ACE contempla INT8, INT32, FP32, BF16, FP16, E8M0, FP8, MX FP8, MX FP6, MX FP4 y MX INT8. No son formatos elegidos al azar. FP8, BF16, FP16 e INT8 ya son habituales en aceleración de IA; FP6 y FP4 apuntan a una reducción aún mayor de precisión para ahorrar memoria y mover más datos por ciclo cuando el modelo lo permite.

FormatoUso típico en IA
FP32Precisión alta y acumulación
BF16Entrenamiento e inferencia con buen equilibrio
FP16Cargas de baja precisión y aceleración
FP8Inferencia y entrenamiento eficiente en modelos compatibles
FP6 / FP4Cuantización agresiva y ahorro de ancho de banda
INT8Inferencia cuantizada
MX FP8 / MX INT8Formatos con escalado por bloques
E8M0Escala potencia de dos para OCP MX

La especificación exige que las implementaciones compatibles partan al menos de una base AVX10.1. Además, el soporte completo de ACE v1 debe detectarse mediante CPUID y requiere elementos como ACE, ACE_VSN igual o superior a 1, AVX10_V2_AUX y el estado XSAVE adecuado para tiles y registros de escala. Esto adelanta una realidad importante: no bastará con que exista una CPU compatible. También harán falta soporte en sistema operativo, compiladores, bibliotecas y frameworks.

No es una mejora inmediata para los Ryzen o Core actuales

Conviene rebajar expectativas. ACE es una especificación de arquitectura, no una actualización que vaya a activar más rendimiento por arte de magia en procesadores actuales. El propio documento advierte que describe tecnologías en fase de diseño y que los planes de producto pueden cambiar. Es decir, todavía falta que estas instrucciones lleguen al silicio y que el software las aproveche.

El impacto real dependerá de varias capas. Primero, Intel y AMD tendrán que implementar ACE en futuras generaciones de CPU. Después, los sistemas operativos deberán gestionar correctamente el nuevo estado de registros. Los compiladores tendrán que generar instrucciones ACE. Y, por último, bibliotecas como BLAS, NumPy, SciPy, oneDNN, PyTorch, TensorFlow u otras capas de inferencia tendrán que crear rutas optimizadas.

Capa necesariaQué debe ocurrir
CPUImplementación física de ACE en nuevas arquitecturas
FirmwareExposición correcta de CPUID y configuración
Sistema operativoGestión del estado XSAVE para tiles y BSR
CompiladoresIntrinsics, ensamblador y generación de código
Bibliotecas matemáticasKernels GEMM y conversión optimizados
Frameworks de IAUso de rutas ACE cuando el hardware lo permita
AplicacionesBeneficio real en inferencia y cargas concretas

AMD ya ha señalado en sus comunicaciones del x86 Ecosystem Advisory Group que ACE forma parte de una hoja de trabajo más amplia junto a FRED, AVX10 y ChkTag. En paralelo, algunas informaciones técnicas apuntan a que futuras arquitecturas de AMD, como Zen 6 y Zen 7, incorporarán mejoras relacionadas con IA, nuevos tipos de datos y motores matriciales. Aun así, hasta que existan productos comerciales y mediciones independientes, conviene tratar cualquier calendario con prudencia.

La batalla no es solo rendimiento, también compatibilidad

La parte más interesante de ACE quizá no sea el rendimiento bruto, sino la coordinación. Intel y AMD llevan décadas compitiendo dentro de x86, pero la presión de la IA y de arquitecturas alternativas les obliga a cuidar la compatibilidad. Para los desarrolladores, lo peor no es que una instrucción sea difícil; lo peor es que cada proveedor implemente variantes incompatibles o subconjuntos distintos sin una ruta clara.

ACE intenta ofrecer una base común para que el software de IA pueda optimizarse sobre x86 sin mantener caminos totalmente separados. Si lo consigue, será una ventaja para servidores, estaciones de trabajo, equipos cliente y sistemas embebidos donde el despliegue de IA local crezca durante los próximos años.

Riesgo históricoQué intenta evitar ACE
Fragmentación de instruccionesUna base común entre Intel y AMD
Rutas de código separadasMenos mantenimiento para bibliotecas y frameworks
Soporte parcial poco predecibleDetección clara mediante CPUID
Dependencia excesiva de GPU/NPUMás opciones para inferencia en CPU
Falta de formatos modernosSoporte directo para baja precisión y OCP MX

Esto no significa que ACE vaya a desplazar a las GPU. Para entrenamiento de grandes modelos y cargas masivas de inferencia, los aceleradores seguirán teniendo ventaja. Pero muchas aplicaciones no necesitan una GPU dedicada para cada operación. En un portátil, un servidor de propósito general o una aplicación que ya trabaja cerca de la CPU, evitar mover datos entre dispositivos puede ahorrar latencia y simplificar ejecución.

En IA local, además, la experiencia depende de más cosas que los TOPS anunciados. Importan la memoria disponible, el ancho de banda, la latencia, la eficiencia energética, la integración con el sistema y la facilidad para desplegar software. ACE puede dar a x86 una herramienta más para competir en ese terreno.

Una señal de hacia dónde va el procesador generalista

Durante años se ha repetido que la CPU generalista perdía protagonismo frente a aceleradores especializados. La realidad es más matizada. La CPU sigue coordinando el sistema, ejecutando lógica de aplicación, moviendo datos, gestionando memoria, atendiendo interrupciones y trabajando con cargas muy variadas. Si la IA se integra en todo tipo de aplicaciones, la CPU necesita entender mejor esos patrones.

ACE es una respuesta a esa presión. Lleva capacidades matriciales y formatos modernos de IA al corazón de x86, sin convertir la CPU en una GPU ni pretender que todas las cargas se ejecuten ahí. Su objetivo parece más pragmático: hacer que la CPU sea una plataforma más eficiente y predecible para determinados cálculos de IA, especialmente en inferencia, cuantización, preprocesado, operaciones pequeñas o escenarios donde mover datos fuera de la CPU no compensa.

El éxito dependerá de la ejecución. Si Intel y AMD implementan ACE de forma consistente, si los sistemas operativos lo soportan bien y si los frameworks lo adoptan, x86 tendrá una base más sólida para IA local y empresarial. Si el soporte llega tarde, se fragmenta o queda limitado a unas pocas gamas, el impacto será menor.

La especificación ACE v1.15 no cambia hoy el rendimiento de ningún equipo. Pero sí marca una dirección importante: Intel y AMD han entendido que la IA exige una evolución coordinada de x86. Ya no basta con añadir más núcleos o subir frecuencias. Las CPU del futuro tendrán que trabajar mejor con matrices, formatos de baja precisión y modelos que se ejecutan cada vez más cerca del usuario.

Preguntas frecuentes

¿Qué es ACE en x86?
ACE, o AI Compute Extensions, es una especificación de Intel y AMD para añadir instrucciones x86 orientadas a acelerar operaciones de Inteligencia Artificial y machine learning, especialmente multiplicación de matrices y formatos de baja precisión.

¿ACE sustituye a una GPU o una NPU?
No. ACE no sustituye a aceleradores dedicados en cargas masivas. Su papel es mejorar la capacidad de las futuras CPU x86 para ejecutar ciertas operaciones de IA de forma más eficiente.

¿Qué formatos soporta ACE?
La especificación incluye soporte para INT8, INT32, FP32, BF16, FP16, FP8, MX FP8, MX FP6, MX FP4, MX INT8 y E8M0 para escalado por bloques.

¿Llegará a los procesadores actuales mediante actualización?
No debería esperarse como una mejora para CPUs actuales. ACE necesita soporte en silicio, además de sistema operativo, compiladores, bibliotecas y frameworks preparados.

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

Las últimas novedades de tecnología y cloud

Suscríbete gratis al boletín de Revista Cloud. Cada semana la actualidad en tu buzón.

Suscripción boletín
×