La carrera por exprimir cada vatio y cada milímetro de silicio en los centros de datos se está librando, cada vez más, en las conexiones. No sirve de mucho tener GPUs monstruosas y CPUs de última generación si los datos no viajan lo bastante rápido entre ellas. En este contexto se enmarca el lanzamiento oficial de CXL 4.0, la nueva versión del estándar Compute Express Link, que ya se perfila como una pieza clave en la infraestructura de la inteligencia artificial y el cómputo de alto rendimiento.
La CXL Consortium, el organismo que impulsa este estándar abierto, publicó la especificación 4.0 el 18 de noviembre de 2025, coincidiendo con demostraciones en la feria Supercomputing 2025. La sensación general entre fabricantes de procesadores, aceleradores y servidores es clara: CXL ha pasado de promesa a necesidad, y esta nueva iteración acelera todavía más ese movimiento.
Qué es CXL y por qué importa tanto ahora
Compute Express Link es un enlace de alta velocidad pensado para unir CPUs, aceleradores (GPUs, ASICs, FPGAs), memoria y dispositivos inteligentes con coherencia de memoria y latencias muy bajas. Se apoya físicamente en las mismas bases que PCI Express, pero añade un protocolo diseñado específicamente para compartir y ampliar memoria entre distintos componentes sin copias innecesarias.
En un mundo en el que entrenar un modelo de IA requiere agrupar decenas o cientos de GPUs y donde la memoria HBM se ha convertido en un recurso tan crítico como escaso, esta capacidad de “desagregar” y “poolizar” memoria —y de conectar todo como si fuera un único gran sistema— es tan importante como aumentar los teraflops.
Doble ancho de banda: hasta 128 GT/s sin penalizar la latencia
La novedad más visible de CXL 4.0 es el salto en velocidad. La especificación duplica la tasa de datos desde los 64 GT/s de CXL 3.x hasta los 128 GT/s, manteniendo la modulación PAM4 y la estructura basada en flits (unidades de transferencia) introducida en la generación anterior.
En la práctica, esto significa el doble de throughput en el mismo ancho de enlace, sin aumentar la latencia ni disparar el consumo. El consorcio presume de un nivel de fiabilidad extremo, con un objetivo de menos de 10⁻³ fallos por cada mil millones de horas de operación (FIT <10⁻³), gracias al uso de corrección de errores directa (FEC) y CRC heredados de CXL 3.0.
El estándar introduce además el concepto de anchura nativa x2 y soporte para hasta cuatro retimers por enlace, lo que permite aumentar el alcance físico y la “ramificación” de la topología sin perder integridad de señal. Para los diseñadores de servidores y switches de centro de datos, esto se traduce en más libertad para crear arquitecturas largas y complejas —racks llenos de nodos, chasis modulares, backplanes densos— con un coste razonable.
Bundled Ports: varios enlaces físicos que se comportan como uno solo
Si hay una palabra que aparece una y otra vez en la documentación de CXL 4.0 es “Bundled Ports”. Es la innovación arquitectónica que más juego puede dar a corto plazo.
Hasta ahora, cada puerto CXL se trataba como una entidad independiente: una CPU se conectaba a un dispositivo a través de un enlace lógico asociado a un puerto físico concreto. Con los Bundled Ports, la especificación permite agrupar varios puertos físicos de un mismo dispositivo en un único puerto lógico. El sistema operativo sigue viendo “un solo dispositivo”, pero el ancho de banda se reparte entre varios enlaces.
El white paper del consorcio pone un ejemplo ilustrativo: con un enlace x16 operando a 128 GT/s, un Bundled Port puede alcanzar 768 GB/s en cada dirección, es decir, alrededor de 1,5 TB/s de ancho de banda agregado full-duplex entre CPU y acelerador. Son cifras que se mueven claramente en el terreno de las GPUs y ASICs de gama ultra alta para IA y HPC.
Además, los Bundled Ports están optimizados para funcionar en modo de flit de 256 bytes, sin necesidad de arrastrar el formato heredado de 68 bytes, lo que reduce complejidad de hardware y overhead. Eso sí, al menos uno de los puertos del bundle debe seguir siendo compatible con el formato antiguo para mantener la retrocompatibilidad.
Para los operadores de centros de datos, esta agregación lógica tiene un atractivo evidente: permite multiplicar el ancho de banda efectivo entre CPU y aceleradores sin cambiar el modelo de software ni duplicar frecuencias internas. En un ecosistema donde ya empieza a hablarse de “GPU farms” y “memory fabrics” compartidos, esa simplicidad puede marcar la diferencia.
Más allá del rendimiento: memoria más robusta y menos paradas
CXL no solo es un tema de velocidad. La 4.0 también refuerza de forma notable las capacidades de mantenimiento y resiliencia de memoria, un aspecto crítico cuando se manejan grandes pools compartidos entre múltiples hosts.
La nueva especificación introduce mecanismos de reporte más granular para errores corregibles en memoria volátil y eventos específicos durante los ciclos de “patrol scrub” (barridos periódicos para detectar celdas defectuosas). De esta forma, el sistema puede reaccionar antes a patrones de fallos crecientes y tomar decisiones más finas sobre qué módulos o rangos de memoria conviene aislar.
Otra mejora clave es la posibilidad de que el host ejecute operaciones de Post Package Repair (PPR) durante el arranque del dispositivo. En esencia, esto permite reparar o mapear celdas defectuosas antes de poner el módulo en producción, reduciendo tiempos de inactividad y evitando que ciertos errores se manifiesten bajo carga real.
Además, el estándar habilita funciones de “memory sparing” tanto en el arranque como en ciclos posteriores, de modo que se puede reservar capacidad de memoria de repuesto o reubicar datos sin necesidad de apagar servicios críticos. Para grandes entornos de nube, donde parar un clúster completo de IA puede costar millones, este tipo de herramientas de RAS (Reliability, Availability, Serviceability) son tan importantes como los propios gigabytes por segundo.
Compatibilidad total hacia atrás: clave para la adopción masiva
Uno de los puntos que más ha cuidado el consorcio es la continuidad. CXL 4.0 mantiene plena compatibilidad con las versiones 3.x, 2.0, 1.1 y 1.0. Esto significa que los fabricantes pueden introducir dispositivos y hosts compatibles con la nueva especificación sin romper el ecosistema existente.
En la práctica, se espera que la transición se haga de forma gradual, igual que ocurrió con PCIe: primero llegarán CPUs y placas base con soporte 4.0, capaces de beneficiarse de los Bundled Ports y la nueva velocidad cuando se conecten a dispositivos de última generación, pero al mismo tiempo podrán hablar con tarjetas y módulos más antiguos sin problemas.
De cara a los operadores, este detalle no es menor: sustituir un chasis o incorporar nuevos aceleradores CXL 4.0 a una infraestructura ya desplegada será posible sin rediseñar todo el stack de software.
IA generativa, HPC y nube: quién gana con CXL 4.0
Aunque la especificación es agnóstica al tipo de carga, es evidente que CXL 4.0 nace pensando en las necesidades de la IA generativa, el cómputo de alto rendimiento y la nube hiperescala:
- Entrenamiento de modelos de IA
Los grandes modelos de lenguaje y visión requieren agrupar decenas de GPUs con memoria HBM limitada. CXL facilita exponer memoria adicional desde módulos externos y compartirla entre nodos, reduciendo cuellos de botella y permitiendo configuraciones más flexibles. - Desagregación de memoria en centros de datos
Cada vez más proveedores exploran arquitecturas en las que la memoria se convierte en un recurso de red, no ligado a un solo servidor. CXL 4.0, con su mayor ancho de banda y sus mejoras de RAS, encaja como el tejido de interconexión para estos “memory pools” compartidos. - HPC clásico y simulaciones científicas
Aplicaciones como dinámica de fluidos, climatología o bioinformática también se benefician de mover enormes volúmenes de datos entre CPU, aceleradores y almacenamiento en paralelo. Reducir latencias y ofrecer rutas de datos coherentes ayuda a aprovechar mejor las inversiones en hardware. - Nube pública y privada
Los hiperescalares y proveedores de infraestructura pueden usar CXL para ofrecer máquinas virtuales y bare-metal más elásticas, con ratios de memoria por CPU menos rígidos y la posibilidad de adaptar recursos en función de la carga real.
El siguiente paso en el tejido de datos
Con CXL 4.0, el consorcio no solo sube la velocidad; redefine parte de la arquitectura interna del estándar para alinearla con las nuevas topologías que están emergiendo en los centros de datos. La modularidad deja de ser un concepto de marketing para convertirse en un requisito técnico: CPUs, GPUs, memorias y dispositivos inteligentes se reparten físicamente, pero deben comportarse lógicamente como si fueran un único sistema coherente.
Falta por ver cómo se traducen todas estas mejoras en productos reales y qué tiempos manejan los grandes fabricantes para incorporar CXL 4.0 en sus hojas de ruta. Pero sobre el papel, el movimiento es contundente: la interconexión deja de ser la hermana pequeña del procesador y pasa a ocupar el centro del escenario.
En un momento en el que el rendimiento ya no depende solo de sumar más núcleos, sino de mover datos con la mínima latencia y la máxima fiabilidad, CXL 4.0 se postula como el estándar que marcará la próxima década de diseño de centros de datos.
Preguntas frecuentes sobre CXL 4.0
¿En qué se diferencia CXL 4.0 de CXL 3.0?
La principal diferencia es el doble de ancho de banda por carril, pasando de 64 a 128 GT/s. Además, introduce Bundled Ports para agrupar varios enlaces físicos en un único puerto lógico, soporte nativo para enlaces x2, hasta cuatro retimers por canal y mejoras importantes en mantenimiento y resiliencia de memoria (PPR, memory sparing, reporte granular de errores).
¿CXL 4.0 es compatible con hardware CXL anterior?
Sí. La especificación mantiene compatibilidad completa con CXL 3.x, 2.0, 1.1 y 1.0. Un dispositivo CXL 4.0 puede interoperar con hosts y dispositivos de generaciones previas, aunque solo se aprovecharán las nuevas funciones cuando ambos extremos soporten la versión 4.0.
¿Qué impacto tiene CXL 4.0 en la memoria de los centros de datos?
CXL permite ampliar y compartir memoria entre distintos hosts y aceleradores. La versión 4.0 refuerza las capacidades de RAS con mejores mecanismos de detección y corrección de errores, operaciones de reparación durante el arranque (PPR) y opciones de memory sparing sin necesidad de parar servicios críticos, lo que se traduce en más disponibilidad y menos interrupciones.
¿Cuándo llegarán al mercado los primeros productos con CXL 4.0?
El consorcio ha publicado la especificación y ya muestra demostraciones en eventos como Supercomputing 2025. A partir de aquí, corresponde a fabricantes de CPUs, GPUs, switches y servidores integrar la nueva versión en sus productos. Es previsible que los primeros sistemas comerciales aparezcan a lo largo de los próximos ciclos de actualización de hardware para IA y centros de datos de alto rendimiento.
vía: CXL