AMD e Intel preparan ACE para acelerar la Inteligencia Artificial en x86

Silvia A. Feliz

AMD e Intel han dado un paso poco habitual en una industria acostumbrada a competir en cada generación de procesadores: colaborar en una extensión común para acelerar cargas de Inteligencia Artificial dentro de la arquitectura x86. La propuesta se llama ACE, siglas de AI Compute Extensions, y busca convertir la aceleración de matrices en una capacidad estándar y compartida para futuros chips x86.

La iniciativa forma parte del trabajo del x86 Ecosystem Advisory Group, el grupo creado por AMD, Intel y otros socios para reforzar la compatibilidad y evolución de x86 en una etapa marcada por la presión de Arm, los aceleradores especializados y el crecimiento de la Inteligencia Artificial. El whitepaper técnico de ACE, fechado el 15 de abril de 2026, presenta la extensión como una vía para mejorar el rendimiento, la escalabilidad y la eficiencia energética en operaciones de multiplicación de matrices, una de las bases del entrenamiento y la inferencia de modelos de lenguaje y redes neuronales.

Por qué ACE importa para x86

La multiplicación de matrices es una operación central en la Inteligencia Artificial moderna. Aparece en propagación hacia delante, retropropagación, actualización de pesos, capas de redes neuronales y primitivas usadas en modelos de lenguaje. Las extensiones vectoriales como AVX10 ya permiten trabajar con este tipo de cálculos, pero AMD e Intel reconocen en el documento que la densidad de cómputo y la escalabilidad pueden quedarse cortas para ciertas cargas.

ACE intenta cubrir ese hueco sin romper con el mundo x86 existente. La clave está en integrarse con AVX10, en lugar de plantearse como una isla completamente separada. Esto permitiría reutilizar parte del trabajo ya hecho por compiladores, bibliotecas, runtimes y optimizaciones existentes, reduciendo la carga para desarrolladores y fabricantes de software.

La propuesta se apoya en operaciones de producto exterior, una técnica que aumenta la densidad de cálculo frente a operaciones vectoriales convencionales. Según el documento, una operación ACE de producto exterior puede ofrecer una mejora de 16 veces en densidad de cómputo frente a una operación equivalente de multiplicación-acumulación en AVX10, consumiendo el mismo número de vectores de entrada.

Aspecto técnico	Qué aporta ACE
Integración	Funciona como extensión natural de AVX10
Operación base	Producto exterior para aceleración matricial
Densidad de cómputo	Hasta 16 veces más frente a una operación AVX10 equivalente
Formatos nativos	INT8, OCP FP8, OCP MXFP8, OCP MXINT8 y BF16
Estado nuevo	8 registros tile y un registro de escala de bloque
Software previsto	Compiladores, depuradores, profilers, bibliotecas HPC y frameworks de aprendizaje automático

Este enfoque tiene una lectura estratégica. AMD e Intel no intentan convertir cada CPU x86 en una GPU o en una NPU dedicada, pero sí quieren que el procesador generalista tenga mejores herramientas para ejecutar partes relevantes de cargas de Inteligencia Artificial. Eso puede ser útil en portátiles, estaciones de trabajo, servidores, entornos HPC y sistemas donde no siempre tiene sentido mover cada operación a hardware especializado.

Del portátil al centro de datos

Uno de los mensajes más importantes del whitepaper es la escala. ACE se presenta como una arquitectura de aceleración matricial aplicable desde portátiles hasta servidores de centro de datos. La idea es que los desarrolladores puedan contar con una base más uniforme en el mundo x86, en lugar de depender de soluciones fragmentadas o extensiones incompatibles entre fabricantes.

Esto no significa que ACE vaya a sustituir a GPUs, aceleradores de Inteligencia Artificial o NPUs. Las cargas más grandes de entrenamiento y muchas tareas de inferencia seguirán utilizando hardware especializado. Pero sí puede reducir la fricción en operaciones híbridas, preprocesado, kernels auxiliares, inferencia local, bibliotecas numéricas o partes de modelos donde la CPU continúa jugando un papel relevante.

El documento también explica que ACE se revela al software como una nueva “palette” dentro del marco AMX, lo que permite reutilizar parte del modelo de programación de sistema y del soporte de sistema operativo asociado. Esta decisión técnica es relevante porque reduce el coste de adopción para el software de bajo nivel.

En el plano de datos, ACE adopta formatos populares en Inteligencia Artificial, incluidos INT8, BF16 y formatos OCP MX. El soporte de OCP MX es especialmente interesante porque incluye escalado de bloque en línea, una técnica pensada para formatos de baja precisión que ayudan a reducir ancho de banda y memoria sin perder demasiada utilidad en modelos modernos.

La baja precisión se ha convertido en una pieza esencial para hacer más eficiente la Inteligencia Artificial. No siempre es necesario operar con formatos de alta precisión si el modelo puede mantener calidad aceptable usando INT8, FP8, BF16 u otros formatos compactos. ACE reconoce esa realidad y añade mecanismos de conversión y empaquetado para trabajar mejor con datos estrechos, incluidos formatos de 2 a 7 bits mediante la instrucción VUNPACKB.

Una alianza técnica con lectura política

Que AMD e Intel colaboren en una extensión de este tipo no es un detalle menor. Ambas compañías compiten en CPUs de escritorio, portátiles, servidores y estaciones de trabajo, pero comparten un interés común: que x86 siga siendo una plataforma atractiva para desarrolladores en la era de la Inteligencia Artificial.

Durante años, la fortaleza de x86 estuvo en su compatibilidad, su enorme base instalada y la madurez de su software. Ahora ese valor debe convivir con nuevas exigencias: eficiencia energética, aceleración de modelos, soporte para formatos de baja precisión y capacidad de operar en cargas cada vez más heterogéneas. ACE intenta responder desde dentro de la propia arquitectura.

La estandarización puede ser una ventaja clara. Si AMD e Intel implementan capacidades compatibles, los desarrolladores tendrán menos motivos para optimizar de forma distinta según el proveedor. En teoría, una biblioteca de aprendizaje automático, un framework como PyTorch o TensorFlow, o una librería científica como NumPy o SciPy podrían beneficiarse de rutas comunes de aceleración en el futuro.

El propio whitepaper menciona que el trabajo de habilitación de software ya está en marcha, con integración inicial en compiladores, depuradores y profilers. Los próximos esfuerzos se centrarán en kernels optimizados, bibliotecas de deep learning y HPC, primitivas para modelos de lenguaje y runtimes de aprendizaje automático.

Qué falta por saber

ACE todavía es una propuesta técnica, no una garantía de rendimiento en productos comerciales concretos. Faltan detalles importantes: qué generaciones de procesadores lo implementarán, con qué nivel de rendimiento real, qué diferencias habrá entre AMD e Intel, cómo responderán los sistemas operativos y cuánto tardarán las bibliotecas populares en aprovecharlo de forma estable.

También habrá que ver cómo encaja ACE con otras piezas del hardware moderno. Los portátiles ya combinan CPU, GPU, NPU y aceleradores multimedia. Los servidores mezclan CPUs con GPUs, FPGAs, SmartNICs y aceleradores específicos. En ese mapa, la CPU necesita mejorar su capacidad matricial sin duplicar inútilmente lo que otros componentes hacen mejor.

La oportunidad está en las zonas intermedias: inferencia local moderada, operaciones auxiliares, cargas científicas, preparación de datos, modelos más pequeños, automatización empresarial y aplicaciones donde mover datos a otro acelerador penaliza más que ayuda. Si ACE reduce esa fricción, puede reforzar el papel de x86 en una parte importante del trabajo diario con Inteligencia Artificial.

El reto será la adopción. Una extensión de instrucciones solo cambia el mercado cuando llega a procesadores reales, se soporta bien en sistemas operativos y se vuelve invisible para los desarrolladores a través de bibliotecas maduras. AVX10 ya marcaba un intento de ordenar el futuro vectorial de x86. ACE añade la pieza matricial que faltaba para que la arquitectura no dependa únicamente de aceleradores externos en la conversación sobre Inteligencia Artificial.

AMD e Intel han entendido que la competencia no desaparece por colaborar en la base común. Cada una seguirá diferenciándose en diseño, frecuencia, consumo, cachés, nodos de fabricación, empaquetado y plataformas. Pero si ACE prospera, ambas podrían ganar algo más importante: que x86 siga siendo una arquitectura cómoda para desarrollar software de Inteligencia Artificial en un mercado que ya no da nada por hecho.

Preguntas frecuentes

¿Qué es ACE en procesadores x86?
ACE, o AI Compute Extensions, es una propuesta de extensión para x86 desarrollada por AMD e Intel para acelerar operaciones de multiplicación de matrices usadas en cargas de Inteligencia Artificial.

¿ACE sustituye a una GPU o una NPU?
No. ACE busca mejorar la capacidad matricial de la CPU x86, pero las GPUs, NPUs y aceleradores especializados seguirán siendo importantes en cargas grandes de entrenamiento e inferencia.

¿Qué relación tiene ACE con AVX10?
ACE se integra con AVX10 y reutiliza registros vectoriales como entrada para operaciones matriciales. La idea es ampliar la capacidad de x86 sin romper con el modelo de software existente.

¿Qué formatos de datos soporta ACE?
El documento técnico menciona soporte nativo para INT8, OCP FP8, OCP MXFP8, OCP MXINT8 y BF16, formatos relevantes para cargas de Inteligencia Artificial y cómputo de baja precisión.

ACE-Whitepaper-v1 Descarga

vía: X Twitter