Bare-metal para la era de la IA: cómo alojar racks de 80 kW sin “romper” la red eléctrica (y sin romper tus SLA)

Madrid. 2025. La IA ya no es una demo de laboratorio: es estrategia de negocio. Pero su cara B es una demanda eléctrica y térmica inédita. Los racks GPU de nueva generación consumen 50–80 kW de forma sostenida —y los primeros pilotos superan 100 kW— mientras muchos CPD heredados siguen dimensionados para 5–10 kW/rack. Incluso hiperescalares en polos como Ashburn (N. Virginia), Dublín o Singapur se topan con moratorias o cupos de conexión. En este contexto, bare-metal deja de ser “nicho” y se convierte en pieza central para entrenar e inferir LLMs a gran escala sin colapsar la infraestructura eléctrica ni traicionar los compromisos ESG.

“Lo que vemos en 2025 es simple: o te mueves a bare-metal de alta densidad con refrigeración líquida y arquitectura eléctrica a 415 V, o no podrás escalar tus clusters de IA en Europa sin pelearte con la red. Y pelearte con la red significa meses o años de retraso”, resume David Carrero, cofundador de Stackscale (Grupo Aire), proveedor europeo de cloud privado y bare-metal.

A continuación, una guía práctica —con observaciones de Carrero— para diseñar, desplegar y operar racks de 80 kW sin romper la red ni degradar tus SLA.


¿Por qué bare-metal para IA?

Acceso directo al hardware. Los overheads de virtualización penalizan justo donde duele: latencia entre GPU, acceso a HBM/DRAM, PCIe/NVLink, pinned memory, NUMA. En entrenamiento distribuido (all-reduce) y en inferencia a baja latencia, cada microsegundo cuenta.

Hiperdensidad real. Con bare-metal puedes empaquetar nodos HGX o equivalentes en 60–80 kW por rack con líquida directa al chip o inmersión y PDUs preparados para 415 V trifásica. Virtualizar por costumbre en estos perfiles suele ser contraproducente.

Cumplimiento y perímetro. GDPR, finance/health o IP sensible piden aislamiento físico, trazabilidad y control del plano de datos. Bare-metal ancora el cumplimiento y se integra con nubes públicas para la parte elástica o no sensible.

“Nos piden dos cosas: rendimiento predecible y gobernanza. El rendimiento llega con acceso directo y topologías NVSwitch bien cableadas; la gobernanza llega con hardware dedicado, métricas y trazabilidad por rack,” apunta Carrero.


El reto eléctrico y térmico (y cómo superarlo)

1) Ingeniería eléctrica “de arriba abajo”

  • 415 V trifásica y busways redundantes capaces de cargas continuas de 80 kW.
  • PDUs de alta corriente (con medición por fase) y selectividad de protecciones para evitar cortes en cascada.
  • Arranque secuenciado (staggered power-on) y gestión de picos (inrush, brownouts).
  • Medición granular (per-rack, per-PDU, per-server) para FinOps eléctrico (€/kWh, €/modelo, €/token).

“Si no tienes medida por PDU y rack y no practicas arranques escalonados, vas a tropezar con protecciones. FinOps eléctrico es la nueva disciplina: saber cuánto cuesta cada época, cada fine-tune,” dice Carrero.

2) Refrigeración: del aire a la líquida (y a la inmersión)

  • Direct-to-chip (D2C): cold plates en GPU/CPU/HBM/VRM; circuitos primario/ secundario con glicol o agua tratada; bypass y control por delta-T.
  • Inmersión de 1/2 fases para cargas >80–100 kW/rack o cuando el aire es inviable; tanks modulares, bombas y intercambiadores hacia dry-coolers.
  • Menos CRAC/CRAH “tradicional”: pasillos fríos/calientes ya no bastan a estas densidades.

“La refrigeración líquida directa es la nueva normalidad a partir de 50 kW/rack. Con inmersión ganamos densidad y EER pero hay que re-aprender mantenimiento y seguridad de fluidos,” advierte Carrero.

3) No romper la red: PPAs y micro-generación

  • PPAs renovables (solar/eólica) para offset real en Europa;
  • Microredes con celdas de combustible o baterías para picos y resiliencia;
  • Curvas de carga planas y orquestación de trabajos para evitar picos coincidentes.

“El kWh verde necesita contratos a largo. Y donde hay restricción, vemos microredes con batería para picos. También orquestación: no arranques 300 nodos a la vez,” comenta Carrero.


Diseño de rack de 80 kW (plantilla operativa)

Potencia y distribución

  • Busways duales, 415 V/50–60 Hz, PDUs A/B;
  • Cordones HD y bloqueo físico;
  • Gestión térmica de PDUs (las PDUs también se calientan).

Red y topologías

  • NVLink/NVSwitch según bill-of-materials del fabricante;
  • InfiniBand NDR/HDR o Ethernet 100/200/400 GbE con leaf-spine;
  • Timing: PTP/SyncE si hay latencia crítica.

Almacenamiento

  • Scratch NVMe local (PCIe 4/5) por nodo;
  • Burst buffers NVMe sobre fabric para etapas de shuffle;
  • Capa QLC para datasetswarm” y nearline HDD donde la latencia lo permita.

Cooling

  • D2C: placas, manifolds, quick-disconnects, leak detection;
  • Inmersión: tanks, fluidos con ficha técnica, EHS y formación.

Seguridad y cumplimiento

  • Zonas lógicas/físicas separadas, cámaras, accesos, WAF/DCIM/BMS integrados;
  • Registro por rack/servidor de intervenciones y lecturas (para auditoría).

¿Y el grid? Coordinación con el CPD y con la utility

  • Plan de capacidad a 24–36 meses;
  • Factores de carga estables (no picos espasmódicos);
  • Flexibilidad: bloques 5–10 MW desplegables por fases;
  • Ubicación: campus con capacidad eléctrica contratada (o ampliable) y agua o dry-cooling disponibles.

“El cuello de botella ya no es la sala blanca: es el transformador y la línea. Hay que ir donde hay capacidad o donde se puede crear,” resume Carrero.


Coste, plazos y por qué “hazlo tú mismo” suele fallar

  • CapEx: un build-to-suit para IA puede superar cientos de millones;
  • Permisos: años para alta tensión;
  • Riesgo tecnológico: cuando abras, el hardware habrá cambiado (densidades, TDP, interconexión).

Time-to-GPU importa más que el CapEx teórico. Con bare-metal en colocation llegas en meses y te mueves con el mercado. Si construyes desde cero, llegas tarde,” añade Carrero.


Operar sin sustos: SRE para IA y “FinOps eléctrico”

SRE/Operación

  • SLO por trabajo (latencia, throughput, coste);
  • Autoscaling y colas conscientes de potencia;
  • Mantenimiento de líquida/inmersión (procedimientos, repuestos, sensores).

FinOps

  • Coste €/kWh × kWh/época€/modelo/€/token;
  • Métrica de PUE/TUE y EER por pod;
  • Rightsizing de HBM/DRAM, batching, cuantización, sparsity: menos memoriamenos kWmenos €.

“Hay que publicar un coste por modelo y por fine-tune. Si no, imposible priorizar. Vemos clientes ahorrando 20–30 % con cuantización y batching bien hechos,” señala Carrero.


Estrategias híbridas que sí funcionan (2025)

  • Bare-metal para entrenamiento y inferencia sensible;
  • Nube pública para prototipado y picos;
  • Edge para inferencia cerca del usuario;
  • Datasets: landing zone en object storage privado, réplicas selectivas en nube;
  • Red: private interconnects y backhauls dedicados (evitar egress sorpresa).

Casos reales (Europa)

Sanidad / Life sciences

  • Pipelines de imagen, genómica, descubrimiento de fármacos con datos protegidos (GDPR, HDS, etc.) y clusters dedicados; D2C reduce ruido térmico y estabiliza SLA de entrenamiento.

Finanzas

  • Inferencia de fraude y copilotos con baja latencia y peering directo a mercados; pods GPU anclados a centros financieros de la región.

IA-first

  • LLMs y multimodales en pods de 8–16 racks a 60–80 kW; mix NDR IB + Ethernet 400G; scratch NVMe local + burst buffers.

Recomendaciones de David Carrero (lista corta)

  1. Elige ubicación por megavatios, no por postal. Pregunta por capacidad firmada y fechas de entrega eléctrica.
  2. Líquida desde el diseño. A partir de 50 kW/rack, el aire no escala.
  3. 415 V y PDUs A/B con medición y arranque escalonado.
  4. Métricas de FinOps: asigna a épocas y tokens. Si no se mide, no mejora.
  5. Contrato energético (PPA) y, si procede, microred. Sin energía, no hay IA.
  6. Orquestación con conocimiento de potencia: evita picos innecesarios.
  7. Plan de 24–36 meses: hardware cambia, la red no tanto. Diseña para modularidad.

“La IA responsable no va solo de governance del modelo; va de ingeniería eléctrica y térmica responsable. Bare-metal es la herramienta para cumplir ambas,” concluye Carrero.


Conclusión

La pregunta ya no es si puedes alcanzar 80 kW/rack. La pregunta es si puedes sostenerlos sin romper la red ni tus SLA. Con bare-metal diseñado a medida (415 V, líquida/inmersión, PDUs y busways dimensionados), contratos energéticos y operación con métricas, es posible escalar IA en Europa con criterio: rendimiento predecible, cumplimiento y huella compatible con tus objetivos ESG.

2025 y los próximos años pertenecerán a quienes combinen ambición de modelo con disciplina de infraestructura. Porque entrenar más grande es fácil; entrenar mejor —y sostenerlo— es donde está la ventaja.

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×