La eterna batalla tecnológica entre CPU y GPU en el terreno de la inteligencia artificial acaba de dar un giro inesperado. Intel ha demostrado que sus procesadores convencionales, gracias a un rediseño de bajo nivel con microkernels optimizados, pueden ejecutar modelos de lenguaje de gran tamaño (LLM) a una velocidad que se acerca peligrosamente al rendimiento de la popular GPU NVIDIA A100, referencia durante años en el entrenamiento e inferencia de IA.
No se trata de magia ni de un nuevo chip revolucionario. La clave está en cómo se multiplican las matrices dentro de la CPU. A través de microkernels escritos para aprovechar al máximo las instrucciones AVX2 y nuevas disposiciones de datos, Intel ha conseguido que modelos cuantizados en 1 y 2 bits alcancen rendimientos hasta 7 veces superiores frente a la inferencia tradicional en 16 bits .
De los 16 bits clásicos a los 2 bits: un cambio de paradigma
Hasta ahora, el estándar de facto para la inferencia eficiente de LLM era usar pesos de 16 bits (BF16 o FP16) o, más recientemente, de 4 bits, con librerías como bitnet.cpp o llama.cpp. Estas reducciones permiten ahorrar memoria y energía, pero siempre con una pérdida de precisión asumida.
Intel, sin embargo, ha ido más allá:
- Sus ingenieros diseñaron microkernels para 1 y 2 bits, capaces de “empaquetar” la información de manera extremadamente compacta.
- Al ejecutarlos en CPUs x86 modernas, se consigue un ahorro drástico de ancho de banda y memoria.
- Las pruebas muestran que, pese a esa reducción extrema, el rendimiento final mantiene la calidad del modelo y acelera la inferencia hasta 7 veces frente al estándar de 16 bits.
En números concretos: mientras una GPU NVIDIA A100 alcanzó 250 tokens por segundo, los procesadores Intel Core Ultra probados se situaron entre 82 y 110 tokens por segundo, dependiendo del modelo de CPU. La diferencia es menor de lo esperado, teniendo en cuenta que la GPU dispone de 17 a 20 veces más ancho de banda de memoria gracias a su HBM2E frente a la DDR5 tradicional .
Los experimentos: tres CPU frente al gigante A100
El equipo de Intel probó sus microkernels en tres procesadores de consumo recientes:
- Intel Core Ultra 9 285K con 24 núcleos (8 P-cores y 16 E-cores).
- Intel Core Ultra 7 255H con 14 núcleos.
- Intel Core Ultra 7 258V con 8 núcleos.
En todos los casos se trabajó con modelos representativos como Llama3-8B, Falcon3-1B y MobileLLM-1.5B. Los resultados fueron consistentes: los modelos de 2 bits alcanzaron aceleraciones lineales, acercándose al techo teórico de rendimiento de cada procesador.
El propio informe académico de Intel (publicado en arXiv en agosto de 2025) muestra que:
- En Llama3-8B, la aceleración con 2 bits fue de hasta 5,8 veces frente a 16 bits.
- En MobileLLM-1.5B, el salto llegó a 4,4 veces en configuraciones de 1 bit.
- Frente a bitnet.cpp (la referencia en modelos sub-2 bits), la solución de Intel fue hasta 2,2 veces más rápida en CPU .
¿Cómo lo han conseguido?
La clave está en lo que Intel llama “up-convert and compute”:
- Los pesos del modelo se almacenan en formato 1 o 2 bits, lo que reduce drásticamente el volumen de datos.
- Durante la inferencia, se convierten en enteros de 8 bits.
- Se procesan con operaciones FMA (fused-multiply-add), optimizadas con instrucciones AVX2.
Para evitar que el tiempo de desempaquetado de datos arruinara las ganancias, Intel introdujo un formato de disposición de pesos llamado VNNI4-interleaved, que reduce el coste de reorganizar los datos antes de las operaciones vectoriales.
Además, se usaron librerías como libxsmm y el framework PyTorch-TPP, que permitieron integrar estos microkernels en un flujo completo de inferencia, demostrando que no se trata de un experimento aislado, sino de una optimización práctica.
El impacto: IA en cualquier portátil
Lo más relevante de este avance no es solo que una CPU pueda acercarse a una GPU de hace unos años. Lo importante es que abre la puerta a ejecutar LLM avanzados en dispositivos modestos como portátiles o equipos de escritorio sin necesidad de una GPU dedicada.
Esto tiene consecuencias directas en varios frentes:
- Democratización del acceso: modelos como Falcon3-1B o Llama3-8B, que parecían reservados a centros de datos, podrían correr en un PC convencional.
- Ahorro energético: los microkernels consumen entre 4 y 8 veces menos memoria y reducen la energía usada por token generado.
- Escenarios Edge: dispositivos de baja potencia, como servidores de borde o sistemas embebidos, podrían ejecutar LLM en tiempo real sin depender de la nube.
En palabras del propio equipo de Intel, “hemos demostrado que la inferencia de ultra-bajo bit en CPU puede acercarse al rendimiento de GPU de gama alta” .
¿Un golpe a NVIDIA?
NVIDIA ha dominado la IA gracias a sus GPU con memoria HBM de altísimo ancho de banda. Pero lo que plantea Intel es un jaque estratégico:
- No todos los usuarios necesitan entrenar modelos gigantes; muchos solo requieren inferencia.
- Si esa inferencia puede ejecutarse en CPU comunes, el mercado de GPU pierde parte de su atractivo.
- Además, los costes bajan: no es necesario invertir miles de euros en una GPU para ejecutar un modelo de código abierto localmente.
El propio informe de Intel deja claro que la brecha aún existe —una CPU no alcanza la latencia ni la paralelización masiva de una A100 o de las nuevas Blackwell—, pero muestra que, para ciertos casos, la CPU basta.
Próximos pasos: de x86 a ARM y AVX10
Intel no quiere detenerse en x86. Sus ingenieros ya trabajan en portar estas optimizaciones a CPU y SoC ARM, usando instrucciones AArch64 y SVE. Esto permitiría que teléfonos, tablets y dispositivos ARM con NPU integradas aprovechen los mismos beneficios.
Y mirando hacia adelante, la llegada de AVX10.2, con vectores de hasta 512 bits, promete doblar las capacidades de estos microkernels, acercando aún más el rendimiento de la CPU a las GPU.
Conclusión
Lo que parecía imposible hace apenas unos años —ejecutar modelos de miles de millones de parámetros en un portátil— está cada vez más cerca. Con microkernels de 1 y 2 bits, Intel no solo ha dado un golpe sobre la mesa frente a NVIDIA, sino que ha abierto una nueva etapa: la de la IA accesible desde cualquier dispositivo, sin depender de hardware especializado.
En un momento en el que los costes de entrenamiento e inferencia de IA preocupan a gobiernos, empresas y usuarios, este avance marca un antes y un después. La inteligencia artificial de gran escala podría dejar de estar encerrada en los centros de datos y dar el salto definitivo al escritorio.
Preguntas frecuentes (FAQ)
¿Qué significa que un modelo sea de 1 o 2 bits?
Implica que cada peso del modelo se almacena usando solo 1 o 2 bits, en lugar de los 16 o 32 habituales. Esto reduce el tamaño y el consumo de memoria, aunque requiere técnicas avanzadas para mantener la precisión.
¿Intel realmente compite con las GPU de NVIDIA?
En entrenamiento no, pero en inferencia de modelos ya entrenados, las CPU de Intel con estos microkernels se acercan a la velocidad de una NVIDIA A100, lo cual es sorprendente.
¿Puedo ejecutar Llama3 en mi portátil gracias a esto?
Con un procesador moderno y suficiente memoria RAM, sí. Los modelos de 1B a 8B parámetros ya son viables en un PC convencional usando estas optimizaciones.
¿Qué pasará con los PCs del futuro?
El concepto de AI-PC gana fuerza: equipos portátiles o de escritorio con CPU capaces de ejecutar modelos de IA avanzados sin necesidad de GPU dedicadas. Esto podría cambiar la forma en la que usamos la inteligencia artificial en el día a día.
vía: elchapuzasinformatico y arxiV