Cloudflare ha anunciado el despliegue general de su próxima generación de servidores, la Generación 12 (Gen 12), impulsada por procesadores AMD EPYC 9684X (nombre en clave «Genoa-X»). Esta nueva generación se centra en ofrecer un rendimiento excepcional en todos los servicios de Cloudflare, mejorar el soporte para cargas de trabajo de inteligencia artificial y aprendizaje automático, lograr avances significativos en eficiencia energética y mejorar las características de seguridad.
Entre las principales mejoras que ofrece esta generación en comparación con la anterior se encuentran:
- Rendimiento duplicado: Gracias a una estrecha colaboración entre Cloudflare y AMD, los servidores Gen 12 pueden atender más del doble de solicitudes por segundo (RPS) que los servidores Gen 11, lo que resulta en menores costos de infraestructura.
- Mayor eficiencia energética: La eficiencia en RPS por vatio ha mejorado más del 60 % en comparación con la generación anterior. Esto ayuda a reducir los gastos operativos y la huella de carbono de Cloudflare.
- Soporte mejorado para IA y ML: Se ha actualizado el diseño termo-mecánico de los servidores Gen 12 para soportar GPUs más potentes, permitiendo manejar modelos de lenguaje más grandes y aumentar el rendimiento para modelos más pequeños.
- Mejoras en seguridad: Se han integrado capacidades de hardware root of trust (HRoT) para garantizar la integridad del firmware de arranque y del controlador de gestión de la placa. Además, el módulo de control seguro de centros de datos (DC-SCM) es modular y agnóstico al proveedor, permitiendo una imagen unificada de openBMC y prototipado más rápido.
- Estrategia de múltiples proveedores: Para asegurar la continuidad y resiliencia en el despliegue de su infraestructura, Cloudflare ha adoptado una robusta estrategia de múltiples proveedores para mitigar riesgos en la cadena de suministro.
Detalles técnicos del servidor Gen 12
El servidor Gen 12 cuenta con las siguientes especificaciones:
Características | Gen 12 | Gen 11 Anterior |
---|---|---|
Factor de Forma | 2U1N – Un solo socket | 1U1N – Un solo socket |
Procesador | AMD EPYC 9684X Genoa-X de 96 núcleos | AMD EPYC 7713 Milan de 64 núcleos |
Memoria | 384 GB de DDR5-4800 x12 canales de memoria | 384 GB de DDR4-3200 x8 canales de memoria |
Almacenamiento | 2x NVMe E1.S de 7,68 TB | 2x NVMe M.2 de 1,92 TB |
Red | Dual 25 GbE OCP 3.0 | Dual 25 GbE OCP 2.0 |
Gestión del Sistema | DC-SCM 2.0 ASPEED AST2600 (BMC) + AST1060 (HRoT) | ASPEED AST2500 (BMC) |
Fuente de Alimentación | 800W – Grado Titanium | 650W – Grado Titanium |
Comparativa de modelos de CPU
Cloudflare evaluó varias opciones de CPU para la Gen 12, centrándose en tres candidatos principales de la serie AMD EPYC de 4ª generación: Genoa 9654, Bergamo 9754 y Genoa-X 9684X. A continuación, se presentan las diferencias en especificaciones entre estos modelos y el AMD EPYC 7713 utilizado en los servidores Gen 11:
Modelo de CPU | AMD EPYC 7713 | AMD EPYC 9654 | AMD EPYC 9754 | AMD EPYC 9684X |
---|---|---|---|---|
Serie | Milan | Genoa | Bergamo | Genoa-X |
Núcleos de CPU | 64 | 96 | 128 | 96 |
Hilos | 128 | 192 | 256 | 192 |
Frecuencia Base | 2,0 GHz | 2,4 GHz | 2,25 GHz | 2,4 GHz |
Frecuencia Máxima | 3,67 GHz | 3,7 GHz | 3,1 GHz | 3,7 GHz |
Frecuencia Boost (todos los núcleos) | 2,7 GHz* | 3,55 GHz | 3,1 GHz | 3,42 GHz |
Cache L3 Total | 256 MB | 384 MB | 256 MB | 1.152 MB |
Cache L3 por núcleo | 4 MB | 4 MB | 2 MB | 12 MB |
TDP Máximo | 240W | 400W | 400W | 400W |
*Nota: La frecuencia boost de todos los núcleos del AMD EPYC 7713 de 2,7 GHz no es una especificación oficial, sino basada en datos recopilados en la flota de producción de Cloudflare.
Rendimiento y eficiencia
Durante las pruebas, cada una de estas CPUs superó en rendimiento al menos en 2 veces a la generación anterior. El AMD EPYC 9684X «Genoa-X» con tecnología 3D V-cache ofreció la mayor mejora, con un rendimiento 2,45 veces superior al AMD EPYC 7713 «Milan» de los servidores Gen 11.
Comparando el rendimiento entre Genoa-X 9684X y Genoa 9654, se observó una diferencia de aproximadamente el 22,5 %. La principal diferencia radica en la cantidad de caché L3 disponible; el Genoa-X 9684X tiene 1.152 MB de caché L3, tres veces más que los 384 MB del Genoa 9654. Las cargas de trabajo de Cloudflare se benefician de una mayor caché de nivel bajo, evitando las penalizaciones de latencia asociadas con la recuperación de datos desde la memoria.
Compromiso con la eficiencia energética
Aunque el servidor Gen 12 consume 600 vatios a una temperatura ambiente típica de 25 °C (un aumento del 50 % respecto al Gen 11), ofrece un incremento del 145 % en rendimiento. La eficiencia energética mejoró en un 63 %, lo que ayuda a reducir significativamente los gastos operativos y la huella de carbono de Cloudflare.
Memoria y almacenamiento
- Memoria: Los servidores Gen 12 utilizan memoria DDR5 con doce canales totalmente utilizados, ofreciendo un mayor ancho de bandaEl ancho de banda es la capacidad máxima de transferencia d... y eficiencia. Se configuraron 384 GB de memoria, basándose en un análisis de uso óptimo y asignación de recursos.
- Almacenamiento: Se realizó la transición del factor de forma M.2 al E1.S. Los servidores están equipados con dos unidades NVMe de 8 TB cada una, totalizando 16 TB de almacenamiento. Este cambio permite mayor capacidad y mejor enfriamiento.
Red y conectividad
Se actualizó a tarjetas de red compatibles con OCP 3.0, utilizando los adaptadores Intel Ethernet Network Adapter E810 y NVIDIA Mellanox ConnectX-6 Lx. Estas tarjetas ofrecen más colas MSI-X, que pueden asignarse al mayor número de núcleos de la CPU AMD EPYC 9684X. Además, proporcionan mejoras en el soporte de offloads, reduciendo la carga en el kernel y mejorando el rendimiento.
Mejoras en seguridad
Los servidores Gen 12 integran el Project Argus, una de las primeras implementaciones de Data CenterUn centro de datos o centro de procesamiento de datos (CPD) ... Secure Control Module 2.0 (DC-SCM 2.0). Esto desacopla las funciones de gestión y seguridad del servidor de la placa base. El controlador de gestión de placa (BMC), el hardware root of trust (HRoT), el módulo de plataforma segura (TPM) y las memorias flash duales para BMC/BIOS están instalados en el DC-SCM.
Estas actualizaciones hacen que los servidores Gen 12 sean más seguros y resilientes frente a ataques de firmware.
Preparado para IA y el futuro
Con el aumento en la demanda de cargas de trabajo de aprendizaje automático e inteligencia artificial, Cloudflare ha diseñado el servidor Gen 12 para acomodar GPUs más potentes, respaldando su servicio Workers AI. Esto permite desplegar GPUs estratégicamente en regiones clave para reducir la latencia de inferencia para sus clientes.
Mirando hacia adelante
Los servidores Gen 12 ya están desplegados y operativos en múltiples centros de datos de Cloudflare en todo el mundo, procesando millones de solicitudes por segundo. La compañía ya está explorando la próxima generación, con CPUs AMD EPYC de 5ª generación (nombre en clave «Turin») disponibles para pruebas y planificación de la arquitectura del servidor Gen 13.
Fuente: CloudFlare