La competición por convertirse en la infraestructura de referencia para entrenar y desplegar modelos de IA a gran escala ya no se mide solo en TFLOPs: hoy cuenta —y mucho— la eficacia con la que una nube entrega GPUs de última generación, orquesta miles de nodos, protege datos sensibles y mantiene el servicio estable cuando hay picos de demanda. En ese tablero, CoreWeave vuelve a llevarse el máximo galardón de SemiAnalysis: el Platinum ClusterMAX™, una distinción que, según la firma de análisis, ningún otro proveedor de cloud de IA alcanzó en su última evaluación ClusterMAX 2.0.
Más allá de la medalla, la noticia sirve para tomar el pulso a un mercado en el que los hiperescaladores generalistas compiten con nubes especializadas optimizadas desde el hardware hasta el scheduler para cargas de IA. SemiAnalysis asegura haber combinado pruebas independientes y retroalimentación de clientes de decenas de proveedores antes de concluir que CoreWeave es el único que cumple el estándar “Platino” en el corte 2025.
Qué es ClusterMAX™ y por qué importa
ClusterMAX™ es un sistema de rating que pondera dimensiones críticas para entrenamientos y despliegues de gran escala: seguridad, almacenamiento, orquestación, fiabilidad y disponibilidad. No se trata únicamente de medir el número de GPUs o los anchos de banda de un datacenter; la clave está en comprobar si la plataforma sostiene la operación compleja de clusters multinodo con alta utilización, fallos gestionados y buenas prácticas de aislamiento y cumplimiento.
Según SemiAnalysis 2.0, el nivel Platino se reserva a proveedores que “sobresalen de forma consistente en todos los criterios: desde la postura de seguridad hasta la robustez operativa y la calidad de su oferta gestionada de Slurm y Kubernetes”. En otras palabras: no basta con tener GPUs de vanguardia; hay que integrarlas en un sistema que permita aprovecharlas de verdad.
Los cinco frentes donde CoreWeave destaca
La evaluación de ClusterMAX 2.0 atribuye a CoreWeave liderazgo en:
- Seguridad: cumplimiento reforzado y controles específicos para entornos AI/GPU/InfiniBand, con pentesting orientado a estas capas, aislamiento VPC granular y detección de amenazas en tiempo real.
- Almacenamiento: los sistemas CAIOS y LOTA reciben mención por rendimiento y escalabilidad. En clusters de IA, el subsistema de almacenamiento marca la frontera entre un entrenamiento fluido y un cuello de botella que hunde la Model FLOP Utilization (MFU).
- Orquestación: reconocimiento explícito a Slurm on Kubernetes (SUNK) y al CoreWeave Kubernetes Service (CKS). La cohabitación de Slurm (estándar de facto en HPC/AI) sobre K8s permite flexibilidad (servicios nativos cloud) sin renunciar al control fino de jobs distribuidos.
- Fiabilidad: health checks activos y pasivos con automatización avanzada para reemplazo de nodos y recuperación ante fallos. En clusters que mueven cientos de GPUs, la reparación automática es tan importante como el uptime.
- Disponibilidad: despliegues a escala de clusters GB200 y GB300 (la nueva hornada de aceleradores de NVIDIA con CPU Grace + GPUs Blackwell), un indicador de que la capacidad de cómputo puntera está realmente aprovisionada y lista para clientes.
Tabla — Resumen de la evaluación (ClusterMAX™ 2.0)
| Dimensión evaluada | Qué mira SemiAnalysis | Veredicto sobre CoreWeave* |
|---|---|---|
| Seguridad | Pentesting específico IA/GPU/IB, aislamiento, detección | Liderazgo en controles y aislamiento (VPC, enclaves) |
| Almacenamiento | Rendimiento, escalabilidad, consistencia bajo carga | CAIOS/LOTA destacados por throughput/latencia |
| Orquestación | Gestión de trabajos (Slurm), K8s, elasticidad y flex | SUNK + CKS calificados best-in-class |
| Fiabilidad | Health checks, auto-curación, MTTR, resiliencia | Automatización avanzada de sustitución y recuperación |
| Disponibilidad | Acceso a GPUs de última generación, capacidad | Despliegues GB200/GB300 a gran escala |
*Según el informe y la nota de CoreWeave.
¿Qué significan “MFU” y “goodput” (y por qué se citan)?
En su comunicación, CoreWeave afirma que su infraestructura permite a los clientes alcanzar hasta un 20 % más de MFU y un 96 % de goodput. En el argot de entrenamiento de modelos:
- MFU (Model FLOP Utilization) mide el porcentaje de FLOPs teóricos de la GPU que acaban siendo útiles para el modelo (descontando esperas por I/O, sincronizaciones y burbujas de pipeline).
- Goodput refleja el trabajo útil frente al total de recursos consumidos (un proxy de la eficiencia de extremo a extremo).
En clusters grandes, la diferencia entre un MFU del 45 % y uno del 55 % puede traducirse en semanas de entrenamiento ahorradas o, visto de otra forma, en millones de dólares menos en factura de cómputo. Dicho esto, conviene recordar que estos porcentajes dependen de modelo, tamaño, topología, framework y higiene del pipeline; son valores orientativos.
Slurm sobre Kubernetes: por qué esta combinación es relevante
El estándar HPC para colas y asignación de recursos —Slurm— ha convivido históricamente con Kubernetes, que reina en el mundo cloud-native. La propuesta de CoreWeave con SUNK (Slurm on Kubernetes) y su CKS propio pretende dar lo mejor de ambos mundos:
- Slurm para scheduling de jobs distribuidos, afinidad GPU/IB, gang scheduling y políticas de cola “tipo HPC”.
- Kubernetes para servicios auxiliares, redes y ciclo de vida cloud (observabilidad, seguridad, autoscaling fuera del plano de training, integración con CI/CD).
Para equipos de investigación y MLOps que ya dominan Slurm pero quieren operar en cloud sin reescribir su tooling, esta capa es un atajo operativo.
Seguridad y cumplimiento: del “checklist” a la práctica
Que el informe subraye pentesting específico para GPU/InfiniBand no es un detalle cosmético. El paso de entrenamientos monolíticos a clusters multi-inquilino conectados por redes de muy baja latencia ha abierto un área de ataque poco familiar para equipos que venían del mundo web. Los controles de aislamiento, la telemetría en tiempo real y las políticas de segmentación a nivel de VPC/tenant son hoy tan críticas como el cifrado en reposo o el SSO del panel.
¿Cómo queda el mapa frente a los hiperescaladores?
El reconocimiento a CoreWeave no equivale a un “game over” para AWS, Azure o Google Cloud; sí sugiere que una nube especializada puede optimizar la cadena completa (desde la selección de GPU hasta el scheduler y el almacenamiento) para IA masiva y, con ello, superar en eficiencia efectiva —MFU, goodput, tiempos de espera— en ciertos perfiles de entrenamiento y fine-tuning.
En el otro lado de la balanza, los hiperescaladores ofrecen escala global, catálogo más amplio (data services, analítica, seguridad, DevOps), ecosistemas maduros y acuerdos marco que a menudo pesan tanto como la métrica de MFU. La elección real de un cliente no es binaria: muchas organizaciones combinan capas (datos en hiperescala + entrenos en nube especializada) o multicloud por región y disponibilidad de GPUs.
¿Qué deberían mirar los equipos de IA/MLOps?
- Tiempo de cola vs. SLA de entrega: la métrica que rompe la cuenta de resultados no es solo el precio por GPU/hora, sino cuándo empieza el entrenamiento y cuántos reinicios o “caídas” hay que absorber.
- Topología y red: ¿qué IB/NVLink/ethernet se ofrece? ¿Qué _bandwidth y latency_ reales se sostienen con el modelo y tamaño objetivo?
- Almacenamiento de alto rendimiento: comprobar el encaje de CAIOS/LOTA (o su equivalente) con el patrón de I/O del pipeline (lecturas distribuídas, checkpoints, shuffles).
- Orquestación: si su tooling depende de Slurm, evaluar la madurez de SUNK (plugins, contención de colas, pre-empciones, aislamiento).
- Seguridad: pedir detalle de pentests, políticas de aislamiento por tenant, soporte de VPC dedicadas, KMS y auditorías.
- Generaciones futuras: roadmaps de GB200/GB300 y lo que venga —su contrato de disponibilidad vale tanto como cualquier linerate teórico.
Más allá del hardware: capital, ecosistema y go-to-market
CoreWeave recalca que no solo vende infraestructura: invierte en startups (CoreWeave Ventures) y encadena servicios y herramientas —Weights & Biases (experiment tracking), OpenPipe (RL), Marimo (desarrollo de modelos en Python) o la reciente adquisición de Monolith AI (IA para física e ingeniería)— que sedimentan un ecosistema de clientes. Para un laboratorio o una scale-up, contar con cómputo + herramientas + soporte puede acelerar la curva de valor. Para una gran empresa, lo esencial seguirá siendo el SLA, la seguridad y el TCO del ciclo completo.
Cautelas razonables
Como toda evaluación, ClusterMAX™ es una foto en un momento concreto y con una metodología propia. Las métricas de MFU/goodput provienen de la comunicación del proveedor y varían notablemente con el modelo, el framework y la higiene de pipeline. La recomendación para cualquier CTO/MLOps es replicar pruebas con sus propios workloads, firmar POC con KPIs y pactar cláusulas de disponibilidad/penalizaciones que reflejen el riesgo real del negocio.
Preguntas frecuentes
¿Qué diferencia práctica hay entre “tener más GPUs” y conseguir un Platinum ClusterMAX™?
El rating pone el foco en la capacidad de usarlas bien: seguridad específica, almacenamiento que no estrangula, orquestación que escala, auto-curación y SLA creíbles. No es solo cantidad de hardware; es sistema.
¿Cómo influyen GB200/GB300 en esta valoración?
Disponer de clústeres GB200/GB300 a escala sugiere acceso temprano a la última generación de aceleradores de NVIDIA. Para el cliente, la pregunta clave es disponibilidad real (plazos de entrega, colas) y madurez del stack que los hace aprovechables.
¿Qué es “SUNK” y por qué debería importarme?
Slurm on Kubernetes (SUNK) permite ejecutar workloads HPC/IA con Slurm —ampliamente usado en investigación y entrenamiento distribuido— sobre un sustrato Kubernetes. Esto ofrece flex para servicios auxiliares sin perder el control fino de colas y asignaciones propias de Slurm.
¿Es CoreWeave una alternativa a los hiperescaladores para todos los casos?
No necesariamente. En entrenos de gran escala o inferencia de alto rendimiento, una nube especializada puede ganar en eficiencia y tiempo de arranque. Para analytics, storage frío, DevOps generalista o despliegues globales complejos, un hiperescalador puede seguir siendo más conveniente. La combinación multicloud es cada vez más común.
vía: coreweave