El rediseño del Centro de Datos ya ha comenzado: Así es el futuro con la IA

En 2002 y 2023, el mundo empezó a ver la proliferación de aplicaciones de inteligencia artificial (IA) en diversas industrias. ¿Qué está impulsando esta revolución? Los centros de datos: el corazón palpitante detrás del auge de la IA, unido sin duda el avance de las GPUs, especialmente de NVidia.

El crecimiento explosivo de las aplicaciones de inteligencia artificial ha exigido una reevaluación completa del centro de datos tradicional. La infraestructura existente generalmente no está diseñada ni equipada para manejar la enorme capacidad de procesamiento paralelo y la memoria que requieren las cargas de trabajo de la IA. Solo en 2024, se espera que el mundo genere 1,5 veces la cantidad de datos digitales que produjo hace dos años.

Sin duda, la demanda de cargas de trabajo de IA pronto superará la computación en la nube tradicional, y un enfoque uniforme no satisface las necesidades de los desarrolladores de IA, que requieren soluciones personalizadas para sus inmensas y específicas necesidades.

El problema con los Centros de Datos tradicionales

Los centros de datos tradicionales fueron construidos principalmente para soportar aplicaciones de propósito general, ofreciendo un equilibrio entre rendimiento y costo. La mayoría de la potencia de cálculo se diseñó para cargas de trabajo como servidores web, sitios de comercio electrónico y bases de datos, no para el poder de procesamiento necesario para entrenar un Modelo de Lenguaje Grande (LLM).

Las principales limitaciones de los centros de datos tradicionales incluyen:

  • Equilibrio de rendimiento y costo: No se optimizan para tipos específicos de cargas de trabajo.
  • Uso fragmentado: Las cargas de trabajo escalan de manera incremental, sin necesidad de gran capacidad de procesamiento paralelo ni almacenamiento masivo.
  • Cargas de trabajo centradas en CPU: Que requieren significativamente menos energía y generan mucho menos calor en comparación con las GPU.

Los desarrolladores de IA necesitan soluciones personalizadas con gran capacidad, disponibilidad inmediata y soporte técnico de alto nivel. Los centros de datos existentes carecen de la arquitectura, el enfriamiento y el software necesarios para ejecutar cargas de trabajo de IA o computación acelerada.

Componentes clave del rediseño

  1. Arquitectura: La densidad de potencia por servidor se ha cuadruplicado en comparación con los servidores de CPU. Los centros de datos tradicionales están diseñados con una densidad promedio de 5 a 10 kW por rack, mientras que los centros de datos de IA ahora requieren 60 o más kW por rack.
  2. Enfriamiento: Los servidores con múltiples GPU generan mucho más calor que un servidor tradicional, lo que presenta dos desafíos principales:
    • Las soluciones actuales de enfriamiento por aire se ven estresadas y requieren que los racks de GPU estén más espaciados para enfriarse eficazmente.
    • Los racks de próxima generación pueden consumir hasta 120 kW de energía por gabinete, generando un calor que no puede ser enfriado por aire.
  3. Software: El software tradicional cuenta con redundancias y puede recurrir a otros componentes de hardware si uno falla. Los LLMs se entrenan como un clúster, con implicaciones significativas de costo si falla el hardware. Se necesita un stack de software construido específicamente para optimizar el rendimiento de la carga de trabajo y recuperarse automáticamente de interrupciones.

Transición de Centros de Datos para la IA: Una actualización integral

Adaptar los centros de datos existentes para convertirlos en instalaciones de IA implica importantes actualizaciones de hardware e incluso de la estructura del edificio para manejar nuevos tipos de cargas de trabajo. Esto incluye:

  • Reemplazar hardware con componentes capaces de procesar y transmitir grandes cantidades de datos en tiempo real.
  • Reconfigurar la red para soportar un ancho de banda mucho mayor, asegurando una comunicación eficiente entre racks de GPU densamente empaquetados y sistemas de almacenamiento remoto.
  • Rediseñar el diseño, enfriamiento, energía y sistemas de cableado para acomodar la mayor densidad e interconectividad de los racks de GPU.

Reimaginando el centro de datos

La primera etapa es la energía. Rediseñar el sistema de energía para manejar estas cargas de trabajo ocurre a nivel del centro de datos y del rack. Los sistemas de enfriamiento futuro requerirán enfriamiento líquido en cada parte del centro de datos, utilizando menos agua que los sistemas de enfriamiento por aire actuales. Incorporar enfriamiento líquido en nuevos centros de datos requiere planificación e inversión en infraestructura especializada.

La transformación de la conectividad del centro de datos no se trata solo de conectar servidores, sino de facilitar una comunicación eficiente de alta velocidad entre GPUs. En un entorno impulsado por IA, donde el procesamiento paralelo es la norma, la velocidad a la que las GPUs intercambian datos determina el rendimiento general.

El resultado de este rediseño son aplicaciones más rápidas y eficientes que las ejecutadas en infraestructuras legadas. Los despliegues de Kubernetes sin servidor permiten tiempos de arranque rápidos, escalado automático receptivo y la capacidad de manejar miles de GPUs por carga de trabajo, con una infraestructura construida específicamente para resolver los desafíos presentados por estas grandes cargas de trabajo.

Con estos avances, los centros de datos están preparados para soportar la revolución de la inteligencia artificial y las aplicaciones de computación de alto rendimiento, marcando el comienzo de una nueva era en la infraestructura digital.

×