La startup refuerza la apuesta por la alternativa a NVIDIA en inteligencia artificial a gran escala y demuestra la viabilidad del ecosistema ROCm
La empresa de infraestructura para inteligencia artificial TensorWave ha anunciado el despliegue del mayor clúster de entrenamiento basado en GPU AMD en toda Norteamérica, compuesto por nada menos que 8.192 aceleradores Instinct MI325X y dotado de refrigeración líquida directa a chip, una primicia a esta escala. Este sistema no solo supone un hito técnico, sino también un fuerte respaldo al ecosistema de AMD en un mercado dominado casi en exclusiva por NVIDIA.
La compañía compartió imágenes del clúster a través de la red X (antes Twitter), mostrando bastidores de alta densidad atravesados por bucles de refrigeración naranja brillante. El sistema ya está en operación completa, proporcionando capacidad de entrenamiento en la nube bajo demanda para clientes empresariales.
Arquitectura MI325X: potencia y ancho de banda sin precedentes
El AMD Instinct MI325X, presentado a finales de 2024, marcó la entrada más ambiciosa de AMD en el segmento de aceleradores de IA hasta la fecha, antes de ser sucedido por los MI350X y MI355X en junio de 2025. Cada MI325X integra 256 GB de memoria HBM3e, con un ancho de banda de 6 TB/s y hasta 2,6 PFLOPS de cálculo en FP8, gracias a su diseño chiplet con 19.456 núcleos stream a 2,10 GHz.
A pesar de que la GPU de AMD no puede competir en escala por nodo con las soluciones de NVIDIA como el H100 o el H200 (limitándose a 8 GPUs por nodo frente a las 72 de la competencia), TensorWave ha apostado por otra vía: la densidad térmica y la eficiencia por rack.
El clúster completo genera más de 2 PB/s de ancho de banda agregado y un rendimiento pico teórico de 21 exaFLOPS en precisión FP8, aunque el rendimiento sostenido dependerá de la eficiencia del paralelismo del modelo y la arquitectura de interconexión.
Refrigeración líquida directa: clave para escalar hasta los 1.000W por GPU
Cada GPU MI325X consume cerca de 1.000 vatios, una cifra que hace inviable la refrigeración por aire a gran escala. Por ello, TensorWave ha implementado una solución de refrigeración líquida directa a chip, mediante placas frías acopladas directamente a cada acelerador y bucles de refrigerante personalizados.
Esto permite mantener temperaturas óptimas sin los típicos conectores de 16 pines o sistemas de ventilación masivos. Además, prepara el camino para el uso de futuras GPUs como el MI350X, que se espera alcancen un TDP de hasta 1.400 vatios por unidad, gracias a las mejoras introducidas por la arquitectura CDNA 4.
Apoyo estratégico y visión a largo plazo
Este despliegue se produce apenas dos meses después de que TensorWave cerrara una ronda Serie A de 100 millones de dólares, liderada por AMD Ventures y el fondo Magnetar Capital. A diferencia de la mayoría de los proveedores de nube que construyen sobre hardware de NVIDIA, TensorWave ha apostado por AMD no solo por razones de coste, sino porque consideran que el ecosistema ROCm (Radeon Open Compute) ya está lo suficientemente maduro como para entrenamiento a gran escala.
Aun así, NVIDIA sigue dominando el mercado con su ecosistema CUDA, presente en gigantes como AWS, CoreWeave y Microsoft Azure. Pero el éxito inicial de TensorWave marca un punto de inflexión en la diversificación de opciones para entrenamiento de IA a hiperescala.
El futuro: MI350X, FP4, y la consolidación de AMD
TensorWave ha dejado claro que esta es solo la primera fase de su despliegue. En la segunda mitad de 2025 esperan integrar las GPUs MI350X, que ofrecen soporte para nuevas precisiones FP4 y FP6, mayores anchos de banda, y exigencias térmicas que solo podrán ser satisfechas con refrigeración líquida.
Con más de 8.000 GPUs de AMD en funcionamiento real bajo cargas de entrenamiento, la compañía se posiciona como referente para clientes que buscan alternativas competitivas a NVIDIA, tanto por coste como por eficiencia térmica. Además, el proyecto podría servir de ejemplo para otros actores interesados en la IA sostenible y escalable.
8,192 liquid-cooled MI325X GPUs.
— TensorWave (@TensorWaveCloud) July 12, 2025
The largest AMD GPU training cluster in North America.
Built by TensorWave. Ready for what’s next 🌊 pic.twitter.com/RlFY4v2JDu
vía: tomshardware