Madrid. 2025. La IA ya no es una demo de laboratorio: es estrategia de negocio. Pero su cara B es una demanda eléctrica y térmica inédita. Los racks GPU de nueva generación consumen 50–80 kW de forma sostenida —y los primeros pilotos superan 100 kW— mientras muchos CPD heredados siguen dimensionados para 5–10 kW/rack. Incluso hiperescalares en polos como Ashburn (N. Virginia), Dublín o Singapur se topan con moratorias o cupos de conexión. En este contexto, bare-metal deja de ser “nicho” y se convierte en pieza central para entrenar e inferir LLMs a gran escala sin colapsar la infraestructura eléctrica ni traicionar los compromisos ESG.
“Lo que vemos en 2025 es simple: o te mueves a bare-metal de alta densidad con refrigeración líquida y arquitectura eléctrica a 415 V, o no podrás escalar tus clusters de IA en Europa sin pelearte con la red. Y pelearte con la red significa meses o años de retraso”, resume David Carrero, cofundador de Stackscale (Grupo Aire), proveedor europeo de cloud privado y bare-metal.
A continuación, una guía práctica —con observaciones de Carrero— para diseñar, desplegar y operar racks de 80 kW sin romper la red ni degradar tus SLA.
¿Por qué bare-metal para IA?
Acceso directo al hardware. Los overheads de virtualización penalizan justo donde duele: latencia entre GPU, acceso a HBM/DRAM, PCIe/NVLink, pinned memory, NUMA. En entrenamiento distribuido (all-reduce) y en inferencia a baja latencia, cada microsegundo cuenta.
Hiperdensidad real. Con bare-metal puedes empaquetar nodos HGX o equivalentes en 60–80 kW por rack con líquida directa al chip o inmersión y PDUs preparados para 415 V trifásica. Virtualizar por costumbre en estos perfiles suele ser contraproducente.
Cumplimiento y perímetro. GDPR, finance/health o IP sensible piden aislamiento físico, trazabilidad y control del plano de datos. Bare-metal ancora el cumplimiento y se integra con nubes públicas para la parte elástica o no sensible.
“Nos piden dos cosas: rendimiento predecible y gobernanza. El rendimiento llega con acceso directo y topologías NVSwitch bien cableadas; la gobernanza llega con hardware dedicado, métricas y trazabilidad por rack,” apunta Carrero.
El reto eléctrico y térmico (y cómo superarlo)
1) Ingeniería eléctrica “de arriba abajo”
- 415 V trifásica y busways redundantes capaces de cargas continuas de 80 kW.
- PDUs de alta corriente (con medición por fase) y selectividad de protecciones para evitar cortes en cascada.
- Arranque secuenciado (staggered power-on) y gestión de picos (inrush, brownouts).
- Medición granular (per-rack, per-PDU, per-server) para FinOps eléctrico (€/kWh, €/modelo, €/token).
“Si no tienes medida por PDU y rack y no practicas arranques escalonados, vas a tropezar con protecciones. FinOps eléctrico es la nueva disciplina: saber cuánto cuesta cada época, cada fine-tune,” dice Carrero.
2) Refrigeración: del aire a la líquida (y a la inmersión)
- Direct-to-chip (D2C): cold plates en GPU/CPU/HBM/VRM; circuitos primario/ secundario con glicol o agua tratada; bypass y control por delta-T.
- Inmersión de 1/2 fases para cargas >80–100 kW/rack o cuando el aire es inviable; tanks modulares, bombas y intercambiadores hacia dry-coolers.
- Menos CRAC/CRAH “tradicional”: pasillos fríos/calientes ya no bastan a estas densidades.
“La refrigeración líquida directa es la nueva normalidad a partir de 50 kW/rack. Con inmersión ganamos densidad y EER pero hay que re-aprender mantenimiento y seguridad de fluidos,” advierte Carrero.
3) No romper la red: PPAs y micro-generación
- PPAs renovables (solar/eólica) para offset real en Europa;
- Microredes con celdas de combustible o baterías para picos y resiliencia;
- Curvas de carga planas y orquestación de trabajos para evitar picos coincidentes.
“El kWh verde necesita contratos a largo. Y donde hay restricción, vemos microredes con batería para picos. También orquestación: no arranques 300 nodos a la vez,” comenta Carrero.
Diseño de rack de 80 kW (plantilla operativa)
Potencia y distribución
- Busways duales, 415 V/50–60 Hz, PDUs A/B;
- Cordones HD y bloqueo físico;
- Gestión térmica de PDUs (las PDUs también se calientan).
Red y topologías
- NVLink/NVSwitch según bill-of-materials del fabricante;
- InfiniBand NDR/HDR o Ethernet 100/200/400 GbE con leaf-spine;
- Timing: PTP/SyncE si hay latencia crítica.
Almacenamiento
- Scratch NVMe local (PCIe 4/5) por nodo;
- Burst buffers NVMe sobre fabric para etapas de shuffle;
- Capa QLC para datasets “warm” y nearline HDD donde la latencia lo permita.
Cooling
- D2C: placas, manifolds, quick-disconnects, leak detection;
- Inmersión: tanks, fluidos con ficha técnica, EHS y formación.
Seguridad y cumplimiento
- Zonas lógicas/físicas separadas, cámaras, accesos, WAF/DCIM/BMS integrados;
- Registro por rack/servidor de intervenciones y lecturas (para auditoría).
¿Y el grid? Coordinación con el CPD y con la utility
- Plan de capacidad a 24–36 meses;
- Factores de carga estables (no picos espasmódicos);
- Flexibilidad: bloques 5–10 MW desplegables por fases;
- Ubicación: campus con capacidad eléctrica contratada (o ampliable) y agua o dry-cooling disponibles.
“El cuello de botella ya no es la sala blanca: es el transformador y la línea. Hay que ir donde hay capacidad o donde se puede crear,” resume Carrero.
Coste, plazos y por qué “hazlo tú mismo” suele fallar
- CapEx: un build-to-suit para IA puede superar cientos de millones;
- Permisos: años para alta tensión;
- Riesgo tecnológico: cuando abras, el hardware habrá cambiado (densidades, TDP, interconexión).
“Time-to-GPU importa más que el CapEx teórico. Con bare-metal en colocation llegas en meses y te mueves con el mercado. Si construyes desde cero, llegas tarde,” añade Carrero.
Operar sin sustos: SRE para IA y “FinOps eléctrico”
SRE/Operación
- SLO por trabajo (latencia, throughput, coste);
- Autoscaling y colas conscientes de potencia;
- Mantenimiento de líquida/inmersión (procedimientos, repuestos, sensores).
FinOps
- Coste €/kWh × kWh/época → €/modelo/€/token;
- Métrica de PUE/TUE y EER por pod;
- Rightsizing de HBM/DRAM, batching, cuantización, sparsity: menos memoria → menos kW → menos €.
“Hay que publicar un coste por modelo y por fine-tune. Si no, imposible priorizar. Vemos clientes ahorrando 20–30 % con cuantización y batching bien hechos,” señala Carrero.
Estrategias híbridas que sí funcionan (2025)
- Bare-metal para entrenamiento y inferencia sensible;
- Nube pública para prototipado y picos;
- Edge para inferencia cerca del usuario;
- Datasets: landing zone en object storage privado, réplicas selectivas en nube;
- Red: private interconnects y backhauls dedicados (evitar egress sorpresa).
Casos reales (Europa)
Sanidad / Life sciences
- Pipelines de imagen, genómica, descubrimiento de fármacos con datos protegidos (GDPR, HDS, etc.) y clusters dedicados; D2C reduce ruido térmico y estabiliza SLA de entrenamiento.
Finanzas
- Inferencia de fraude y copilotos con baja latencia y peering directo a mercados; pods GPU anclados a centros financieros de la región.
IA-first
- LLMs y multimodales en pods de 8–16 racks a 60–80 kW; mix NDR IB + Ethernet 400G; scratch NVMe local + burst buffers.
Recomendaciones de David Carrero (lista corta)
- Elige ubicación por megavatios, no por postal. Pregunta por capacidad firmada y fechas de entrega eléctrica.
- Líquida desde el diseño. A partir de 50 kW/rack, el aire no escala.
- 415 V y PDUs A/B con medición y arranque escalonado.
- Métricas de FinOps: asigna € a épocas y tokens. Si no se mide, no mejora.
- Contrato energético (PPA) y, si procede, microred. Sin energía, no hay IA.
- Orquestación con conocimiento de potencia: evita picos innecesarios.
- Plan de 24–36 meses: hardware cambia, la red no tanto. Diseña para modularidad.
“La IA responsable no va solo de governance del modelo; va de ingeniería eléctrica y térmica responsable. Bare-metal es la herramienta para cumplir ambas,” concluye Carrero.
Conclusión
La pregunta ya no es si puedes alcanzar 80 kW/rack. La pregunta es si puedes sostenerlos sin romper la red ni tus SLA. Con bare-metal diseñado a medida (415 V, líquida/inmersión, PDUs y busways dimensionados), contratos energéticos y operación con métricas, es posible escalar IA en Europa con criterio: rendimiento predecible, cumplimiento y huella compatible con tus objetivos ESG.
2025 y los próximos años pertenecerán a quienes combinen ambición de modelo con disciplina de infraestructura. Porque entrenar más grande es fácil; entrenar mejor —y sostenerlo— es donde está la ventaja.