Intel y AMD han dado otro paso en la modernización de x86 con la especificación ACE v1.15, siglas de AI Compute Extensions. La nueva extensión nace dentro del x86 Ecosystem Advisory Group, el grupo creado por ambas compañías para coordinar el futuro de la arquitectura y reducir la fragmentación entre plataformas. Su objetivo inicial es claro: acelerar operaciones de Inteligencia Artificial y machine learning directamente desde la CPU, con especial atención a la multiplicación de matrices y a los formatos numéricos de baja precisión.
ACE no debe entenderse como una NPU integrada ni como un sustituto de la GPU. Es una ampliación del conjunto de instrucciones x86 pensada para que las futuras CPU puedan ejecutar mejor ciertos cálculos habituales en IA, sobre todo cuando no compensa mover datos a un acelerador externo o cuando la carga requiere baja latencia, integración directa con el sistema o una ejecución más predecible en CPU.
El documento técnico describe ACE como una extensión para acelerar tareas de cómputo, inicialmente centrada en kernels de multiplicación de matrices y formatos de precisión reducida relevantes para cargas de ML. La especificación añade un nuevo estado de registros, instrucciones de movimiento de datos y operaciones que combinan registros vectoriales AVX con registros tipo tile, en una arquitectura que busca más densidad de cómputo sin romper con la base x86 existente.
Por qué ACE importa para el futuro de x86
La Inteligencia Artificial ha desplazado buena parte del debate hacia GPU, NPU y aceleradores dedicados. Tiene sentido: los grandes modelos, el entrenamiento y muchas cargas de inferencia masiva necesitan hardware especializado. Pero no toda IA se ejecuta en grandes clústeres. Hay inferencia ligera, modelos pequeños, funciones embebidas en aplicaciones, estaciones de trabajo, servidores generalistas y portátiles donde la CPU sigue siendo una pieza central.
Ahí encaja ACE. La multiplicación de matrices es una de las operaciones básicas de redes neuronales, transformers y sistemas de aprendizaje automático. AVX10 ya puede trabajar con vectores y operaciones SIMD, pero la especificación de ACE reconoce que la densidad de cálculo y la escalabilidad de las aproximaciones vectoriales tradicionales tienen límites. Por eso introduce primitivas matriciales con registros tile, más cercanas a la forma en la que se ejecutan estas cargas en aceleradores modernos.
| Tecnología | Papel principal |
|---|---|
| AVX10 | Base vectorial moderna para x86 |
| ACE | Extensión matricial para cargas de IA y ML |
| Registros tile | Acumulación y trabajo sobre bloques bidimensionales |
| Block Scale Registers | Escalado por bloques para formatos OCP MX |
| GPU | Aceleración masiva de IA, gráficos y cómputo paralelo |
| NPU | Inferencia local eficiente en equipos cliente |
El enfoque también tiene una lectura estratégica. x86 compite con arquitecturas alternativas que han ganado terreno en eficiencia, movilidad y aceleración integrada. Apple, Qualcomm, Arm, NVIDIA y otros actores están empujando diseños donde CPU, GPU, NPU y memoria trabajan cada vez más integrados. Intel y AMD necesitan que x86 evolucione sin repetir errores de fragmentación que complicaron la vida a desarrolladores y fabricantes.
El precedente más citado es AVX-512. Durante años, el soporte parcial, desigual o limitado por gamas hizo que los desarrolladores tuvieran que mantener rutas de código específicas, comprobar capacidades con cuidado y aceptar que no todos los procesadores x86 se comportaban igual. ACE intenta nacer desde otro punto: como una especificación conjunta, coordinada por Intel y AMD, para que compiladores, bibliotecas y frameworks puedan prepararse sobre una base más común.
Cómo funciona ACE: tiles, AVX y baja precisión
ACE combina registros AVX con un nuevo estado de registros tipo tile. Según la especificación, el archivo de registros tile contiene ocho registros bidimensionales de 512 bits por 16 filas. Cada fila equivale al tamaño de un vector AVX-512. En la versión inicial, los acumuladores se centran en tipos de 32 bits, como FP32 o INT32.
La extensión también incorpora un Block Scale Register de 1.024 bits, dividido en dos mitades de 512 bits para escalas asociadas a las dos entradas de las operaciones. Este registro permite aplicar escalado por bloques, una técnica importante en formatos de microscaling como los definidos por OCP MX. En IA, este tipo de formatos ayuda a reducir memoria y ancho de banda manteniendo resultados útiles en modelos cuantizados o de baja precisión.
| Componente ACE | Qué añade |
| Tile registers | Registros bidimensionales para operaciones matriciales |
| Block Scale Register | Escalas E8M0 para operaciones OCP MX |
| Tile outer product | Operaciones de producto exterior sobre tiles |
| Movimientos AVX-tile | Transferencia entre registros AVX y estado ACE |
| Conversiones de formato | Pasos entre FP32, FP16, BF16, FP8, FP6, FP4 e INT8 |
| Gestión del sistema | Estado XSAVE, CPUID y soporte del sistema operativo |
La operación central es el producto exterior. En términos simples, ACE permite tomar dos vectores de entrada, tratarlos como matrices parciales y acumular el resultado en un tile. La especificación define operaciones de rango 2 y rango 4 para formatos como BF16, INT8, MX FP8 y MX INT8. Estas operaciones están pensadas para construir multiplicaciones de matrices mayores mediante pasos sucesivos.
Los formatos soportados muestran hacia dónde mira la industria. ACE contempla INT8, INT32, FP32, BF16, FP16, E8M0, FP8, MX FP8, MX FP6, MX FP4 y MX INT8. No son formatos elegidos al azar. FP8, BF16, FP16 e INT8 ya son habituales en aceleración de IA; FP6 y FP4 apuntan a una reducción aún mayor de precisión para ahorrar memoria y mover más datos por ciclo cuando el modelo lo permite.
| Formato | Uso típico en IA |
| FP32 | Precisión alta y acumulación |
| BF16 | Entrenamiento e inferencia con buen equilibrio |
| FP16 | Cargas de baja precisión y aceleración |
| FP8 | Inferencia y entrenamiento eficiente en modelos compatibles |
| FP6 / FP4 | Cuantización agresiva y ahorro de ancho de banda |
| INT8 | Inferencia cuantizada |
| MX FP8 / MX INT8 | Formatos con escalado por bloques |
| E8M0 | Escala potencia de dos para OCP MX |
La especificación exige que las implementaciones compatibles partan al menos de una base AVX10.1. Además, el soporte completo de ACE v1 debe detectarse mediante CPUID y requiere elementos como ACE, ACE_VSN igual o superior a 1, AVX10_V2_AUX y el estado XSAVE adecuado para tiles y registros de escala. Esto adelanta una realidad importante: no bastará con que exista una CPU compatible. También harán falta soporte en sistema operativo, compiladores, bibliotecas y frameworks.
No es una mejora inmediata para los Ryzen o Core actuales
Conviene rebajar expectativas. ACE es una especificación de arquitectura, no una actualización que vaya a activar más rendimiento por arte de magia en procesadores actuales. El propio documento advierte que describe tecnologías en fase de diseño y que los planes de producto pueden cambiar. Es decir, todavía falta que estas instrucciones lleguen al silicio y que el software las aproveche.
El impacto real dependerá de varias capas. Primero, Intel y AMD tendrán que implementar ACE en futuras generaciones de CPU. Después, los sistemas operativos deberán gestionar correctamente el nuevo estado de registros. Los compiladores tendrán que generar instrucciones ACE. Y, por último, bibliotecas como BLAS, NumPy, SciPy, oneDNN, PyTorch, TensorFlow u otras capas de inferencia tendrán que crear rutas optimizadas.
| Capa necesaria | Qué debe ocurrir |
| CPU | Implementación física de ACE en nuevas arquitecturas |
| Firmware | Exposición correcta de CPUID y configuración |
| Sistema operativo | Gestión del estado XSAVE para tiles y BSR |
| Compiladores | Intrinsics, ensamblador y generación de código |
| Bibliotecas matemáticas | Kernels GEMM y conversión optimizados |
| Frameworks de IA | Uso de rutas ACE cuando el hardware lo permita |
| Aplicaciones | Beneficio real en inferencia y cargas concretas |
AMD ya ha señalado en sus comunicaciones del x86 Ecosystem Advisory Group que ACE forma parte de una hoja de trabajo más amplia junto a FRED, AVX10 y ChkTag. En paralelo, algunas informaciones técnicas apuntan a que futuras arquitecturas de AMD, como Zen 6 y Zen 7, incorporarán mejoras relacionadas con IA, nuevos tipos de datos y motores matriciales. Aun así, hasta que existan productos comerciales y mediciones independientes, conviene tratar cualquier calendario con prudencia.
La batalla no es solo rendimiento, también compatibilidad
La parte más interesante de ACE quizá no sea el rendimiento bruto, sino la coordinación. Intel y AMD llevan décadas compitiendo dentro de x86, pero la presión de la IA y de arquitecturas alternativas les obliga a cuidar la compatibilidad. Para los desarrolladores, lo peor no es que una instrucción sea difícil; lo peor es que cada proveedor implemente variantes incompatibles o subconjuntos distintos sin una ruta clara.
ACE intenta ofrecer una base común para que el software de IA pueda optimizarse sobre x86 sin mantener caminos totalmente separados. Si lo consigue, será una ventaja para servidores, estaciones de trabajo, equipos cliente y sistemas embebidos donde el despliegue de IA local crezca durante los próximos años.
| Riesgo histórico | Qué intenta evitar ACE |
| Fragmentación de instrucciones | Una base común entre Intel y AMD |
| Rutas de código separadas | Menos mantenimiento para bibliotecas y frameworks |
| Soporte parcial poco predecible | Detección clara mediante CPUID |
| Dependencia excesiva de GPU/NPU | Más opciones para inferencia en CPU |
| Falta de formatos modernos | Soporte directo para baja precisión y OCP MX |
Esto no significa que ACE vaya a desplazar a las GPU. Para entrenamiento de grandes modelos y cargas masivas de inferencia, los aceleradores seguirán teniendo ventaja. Pero muchas aplicaciones no necesitan una GPU dedicada para cada operación. En un portátil, un servidor de propósito general o una aplicación que ya trabaja cerca de la CPU, evitar mover datos entre dispositivos puede ahorrar latencia y simplificar ejecución.
En IA local, además, la experiencia depende de más cosas que los TOPS anunciados. Importan la memoria disponible, el ancho de banda, la latencia, la eficiencia energética, la integración con el sistema y la facilidad para desplegar software. ACE puede dar a x86 una herramienta más para competir en ese terreno.
Una señal de hacia dónde va el procesador generalista
Durante años se ha repetido que la CPU generalista perdía protagonismo frente a aceleradores especializados. La realidad es más matizada. La CPU sigue coordinando el sistema, ejecutando lógica de aplicación, moviendo datos, gestionando memoria, atendiendo interrupciones y trabajando con cargas muy variadas. Si la IA se integra en todo tipo de aplicaciones, la CPU necesita entender mejor esos patrones.
ACE es una respuesta a esa presión. Lleva capacidades matriciales y formatos modernos de IA al corazón de x86, sin convertir la CPU en una GPU ni pretender que todas las cargas se ejecuten ahí. Su objetivo parece más pragmático: hacer que la CPU sea una plataforma más eficiente y predecible para determinados cálculos de IA, especialmente en inferencia, cuantización, preprocesado, operaciones pequeñas o escenarios donde mover datos fuera de la CPU no compensa.
El éxito dependerá de la ejecución. Si Intel y AMD implementan ACE de forma consistente, si los sistemas operativos lo soportan bien y si los frameworks lo adoptan, x86 tendrá una base más sólida para IA local y empresarial. Si el soporte llega tarde, se fragmenta o queda limitado a unas pocas gamas, el impacto será menor.
La especificación ACE v1.15 no cambia hoy el rendimiento de ningún equipo. Pero sí marca una dirección importante: Intel y AMD han entendido que la IA exige una evolución coordinada de x86. Ya no basta con añadir más núcleos o subir frecuencias. Las CPU del futuro tendrán que trabajar mejor con matrices, formatos de baja precisión y modelos que se ejecutan cada vez más cerca del usuario.
Preguntas frecuentes
¿Qué es ACE en x86?
ACE, o AI Compute Extensions, es una especificación de Intel y AMD para añadir instrucciones x86 orientadas a acelerar operaciones de Inteligencia Artificial y machine learning, especialmente multiplicación de matrices y formatos de baja precisión.
¿ACE sustituye a una GPU o una NPU?
No. ACE no sustituye a aceleradores dedicados en cargas masivas. Su papel es mejorar la capacidad de las futuras CPU x86 para ejecutar ciertas operaciones de IA de forma más eficiente.
¿Qué formatos soporta ACE?
La especificación incluye soporte para INT8, INT32, FP32, BF16, FP16, FP8, MX FP8, MX FP6, MX FP4, MX INT8 y E8M0 para escalado por bloques.
¿Llegará a los procesadores actuales mediante actualización?
No debería esperarse como una mejora para CPUs actuales. ACE necesita soporte en silicio, además de sistema operativo, compiladores, bibliotecas y frameworks preparados.