xAI y el reto oculto de la IA: tener GPUs no significa saber usarlas

Antonio

La carrera de la inteligencia artificial se ha contado muchas veces como una competición por acumular GPUs. Cuantos más chips NVIDIA, más capacidad para entrenar modelos, más opciones de competir con OpenAI, Google, Anthropic o Meta. Pero una nueva información sobre xAI, la empresa de Elon Musk responsable de Grok, recuerda que el verdadero cuello de botella no siempre está en comprar hardware. Está en conseguir que ese hardware trabaje de forma eficiente.

Según The Information, xAI estaría utilizando alrededor del 11 % de su flota de GPUs NVIDIA, una cifra muy baja si se compara con los niveles atribuidos a otros grandes actores como Meta y Google, que se moverían en torno al 43 % y el 46 %, respectivamente. La información, recogida también por Wccftech, apunta a una flota de unas 550.000 GPUs NVIDIA H100 y H200 en instalaciones vinculadas a Colossus y Memphis. La cifra no ha sido confirmada oficialmente por xAI y conviene tratarla como una estimación basada en fuentes internas, no como un dato auditado.

La diferencia es relevante porque cambia el foco del debate. xAI ha construido una imagen de velocidad y ambición alrededor de Colossus, su gran supercomputador de entrenamiento en Memphis. La propia compañía afirma que levantó Colossus en 122 días, que después duplicó su capacidad hasta 200.000 GPUs en 92 días y que lo considera la mayor supercomputadora de IA en operación. Si las cifras filtradas sobre utilización son correctas, la pregunta ya no es solo cuántas GPUs puede desplegar xAI, sino cuántas puede aprovechar de verdad.

La utilización de GPUs, el dato que nadie presume demasiado

En inteligencia artificial, una GPU instalada no equivale automáticamente a una GPU productiva. Los grandes clústeres de entrenamiento necesitan que miles o cientos de miles de aceleradores trabajen coordinados. Si una parte espera datos, si la red se congestiona, si el almacenamiento no alimenta lo bastante rápido, si fallan nodos, si el checkpointing tarda demasiado o si la planificación de trabajos no está bien ajustada, el rendimiento real cae.

Además, “utilización” puede significar varias cosas. No es lo mismo medir si una GPU está encendida, si está asignada a un trabajo, si sus núcleos están ocupados o si el modelo está aprovechando una proporción alta de FLOPs teóricos. En el entrenamiento de modelos grandes se suele hablar de eficiencia de cómputo o Model FLOPs Utilization, una métrica más estricta que mirar simplemente si el chip tiene carga.

Por eso un 11 % sería preocupante, pero no necesariamente significa que casi todo el hardware esté apagado sin uso. Puede indicar que, durante los entrenamientos, el sistema solo convierte una fracción limitada de la capacidad teórica en trabajo útil del modelo. En cualquier caso, para una flota de esa escala, incluso pequeñas pérdidas de eficiencia tienen un coste enorme.

El problema se agrava con el tamaño. En un clúster de 1.000 o 10.000 GPUs, los fallos y esperas son manejables. En cientos de miles de GPUs, cada retraso se multiplica. Los llamados “stragglers”, nodos que van más lentos y obligan al resto a esperar, pueden penalizar una ejecución completa. También pesan las comunicaciones entre GPUs, la sincronización de gradientes, el reparto del modelo, la lectura de datasets, las colas de trabajos y la madurez del software distribuido.

Factor	Cómo reduce la eficiencia
Red entre nodos	Aumenta la espera durante sincronización y comunicación
Almacenamiento	No entrega datos al ritmo que exige el entrenamiento
Fallos de hardware	Obligan a reiniciar, reprogramar o aislar nodos
Checkpointing	Consume tiempo para guardar estados del modelo
Planificador de trabajos	Deja GPUs asignadas, pero infrautilizadas
Paralelismo mal ajustado	El modelo no se reparte de forma óptima
Pipeline de datos	Las GPUs esperan mientras se preparan lotes de entrenamiento
Software inmaduro	Menos kernels optimizados, más overhead y peor escalado

El hardware ya no es la única ventaja competitiva

La lectura más importante para la industria es que la IA a gran escala ya no se gana solo con capacidad de compra. El acceso a GPUs sigue siendo decisivo, pero empieza a verse una segunda frontera: el software de infraestructura. Ahí entran compiladores, frameworks, bibliotecas de comunicación, planificación de clúster, observabilidad, tolerancia a fallos, almacenamiento distribuido y herramientas internas para exprimir el hardware.

Meta y Google llevan años desarrollando plataformas internas para entrenamiento distribuido, gestión de flotas y optimización de infraestructuras. Google, además, diseña sus propios aceleradores TPU y controla buena parte de la pila. Meta ha invertido de forma sostenida en clústeres de IA, sistemas de entrenamiento y optimización de modelos. xAI, en cambio, ha crecido a una velocidad inusual y con una presión enorme por alcanzar a competidores más maduros.

Esa velocidad tiene ventajas y costes. Permite reunir hardware antes que otros y entrenar modelos con rapidez, pero puede dejar menos tiempo para afinar la capa de software. Un supercomputador de IA no es una suma de servidores. Es una máquina distribuida que necesita operar como un único sistema coordinado. Cuanto más grande es, más difícil resulta mantenerla eficiente.

También hay una consecuencia económica directa. Una GPU de gama alta no solo cuesta mucho al comprarla. Consume energía, necesita refrigeración, ocupa espacio, exige red de alto rendimiento, mantenimiento, personal especializado y acuerdos de suministro eléctrico. Si una parte importante de la capacidad no se aprovecha, el coste real por entrenamiento se dispara. En una industria que ya invierte decenas de miles de millones en centros de datos, la eficiencia puede pesar tanto como el volumen.

El caso de xAI también llega en plena discusión sobre el impacto energético y ambiental de los centros de datos de IA. Las instalaciones de Memphis han generado atención por su escala, por sus necesidades eléctricas y por las críticas de organizaciones locales sobre el uso de turbinas de gas y emisiones. En ese contexto, una baja utilización añade presión: no basta con construir capacidad, hay que demostrar que se usa de forma eficiente.

La guerra de la IA se decide en la pila completa

Si xAI consigue acercarse a tasas de utilización más parecidas a las de Meta o Google, el margen de mejora sería enorme. Pasar de un 11 % a un 40 % no sería un ajuste menor, sino multiplicar varias veces el rendimiento efectivo de la misma flota sin comprar tantas GPUs adicionales. Esa es la razón por la que la optimización de infraestructura se ha convertido en una de las disciplinas más importantes de la IA moderna.

El reto no es exclusivo de xAI. Todas las empresas que entrenan modelos frontera se enfrentan a límites parecidos. El tamaño de los modelos aumenta, las ventanas de contexto crecen, los datasets se hacen más complejos y las cargas agénticas empiezan a exigir más inferencia continua. El hardware avanza, pero el software debe acompañar. De lo contrario, se crea una paradoja: empresas con una capacidad de cómputo gigantesca que no pueden convertirla plenamente en modelos mejores o productos más rápidos.

También se abre otro debate: si una compañía no puede utilizar toda su flota para sus propios entrenamientos, puede acabar buscando usos alternativos. Alquiler de capacidad, acuerdos cloud, inferencia para terceros o integración con otros negocios podrían ayudar a monetizar parte del hardware. Pero ofrecer capacidad de IA a clientes externos exige fiabilidad, soporte, seguridad, aislamiento y una operación madura. No es simplemente “alquilar GPUs sobrantes”.

Para NVIDIA, este tipo de información tiene una lectura ambivalente. Por un lado, confirma que la demanda de GPUs sigue siendo enorme. Por otro, muestra que el mercado puede entrar en una fase en la que los clientes no solo compren más chips, sino que pidan soluciones completas para usarlos mejor: redes, software, bibliotecas, servicios de optimización y arquitecturas de referencia. La batalla por la eficiencia puede reforzar aún más a quienes controlan la pila completa.

xAI ha demostrado capacidad para moverse rápido. Eso no está en discusión. Construir Colossus en pocos meses y escalarlo a cientos de miles de GPUs es una hazaña de ingeniería, logística y capital. Pero la IA de frontera no se mide solo por la cantidad de aceleradores instalados. Se mide por la capacidad de convertir electricidad, silicio, datos y software en modelos que funcionen mejor que los de la competencia.

El dato del 11 %, si se confirma, no significa que xAI haya perdido la carrera. Significa que la carrera tiene una parte menos visible y probablemente más difícil: hacer que medio millón de GPUs se comporten como una máquina útil, estable y eficiente. En los próximos años, muchas empresas descubrirán que comprar cómputo era la parte sencilla. Usarlo bien será lo que separe a los líderes del resto.

Preguntas frecuentes

¿Es oficial que xAI solo utiliza el 11 % de sus GPUs?
No. La cifra procede de una información de The Information recogida por otros medios. xAI no ha confirmado públicamente ese porcentaje, por lo que debe tratarse como un dato reportado, no auditado.

¿Qué significa utilizar una GPU en IA?
Puede referirse a varias métricas: ocupación del chip, asignación a trabajos, eficiencia de entrenamiento o proporción de FLOPs útiles. En grandes modelos, la métrica más exigente es cuánto cómputo teórico se convierte realmente en trabajo del modelo.

¿Por qué es tan difícil usar cientos de miles de GPUs a la vez?
Porque el entrenamiento distribuido depende de red, almacenamiento, sincronización, tolerancia a fallos, planificación de trabajos y software muy optimizado. A gran escala, cualquier pequeña ineficiencia se multiplica.

¿Por qué importa este dato para la industria de la IA?
Porque muestra que el cuello de botella ya no es solo comprar GPUs. La ventaja competitiva pasa por la pila completa: hardware, red, datos, software, energía, refrigeración y operación.

vía: wccftech