Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

Ceph rompe barreras: un despliegue con AMD EPYC alcanza 1 TiB/s, el mayor rendimiento publicado hasta la fecha

Un equipo de ingenieros ha logrado un hito histórico en el mundo del almacenamiento distribuido: un clúster Ceph capaz de sostener 1 TiB/s de lectura secuencial, superando todos los registros previos conocidos. El logro es fruto de un despliegue extremo que combina hardware de última generación, una red de alto rendimiento y meses de ajustes finos para superar obstáculos técnicos inesperados.

Una arquitectura diseñada para exprimir cada byte por segundo

El proyecto nació en 2023, cuando una empresa puntera decidió migrar su clúster Ceph basado en discos duros hacia una infraestructura 100 % NVMe de 10 PB de capacidad. El diseño final, desarrollado junto a Clyso, apostó por 68 nodos Dell PowerEdge R6615 con procesadores AMD EPYC 9454P (48 núcleos / 96 hilos), 192 GiB de RAM DDR5, dos interfaces Mellanox ConnectX-6 de 100 GbE por nodo y 10 unidades NVMe Enterprise de 15,36 TB cada uno.

El clúster, repartido en 17 racks, se desplegó con Ceph Quincy v17.2.7 y Ubuntu 20.04.6, alcanzando un total de 630 OSDs en producción. La red ya existente, diseñada para operaciones de alto rendimiento, fue clave para exprimir la arquitectura.

“El reto no era solo alcanzar una cifra récord, sino hacerlo en un entorno realista, con hardware de producción y manteniendo la estabilidad del sistema”, explican los ingenieros del proyecto.

Tres problemas críticos y sus soluciones

El camino hasta el terabyte por segundo no fue sencillo. Durante las primeras pruebas, el rendimiento era muy inferior al esperado y aparecían patrones erráticos en los resultados. Tras semanas de análisis, se identificaron tres cuellos de botella clave:

  1. Estados de ahorro de energía (c-states)
    Ceph es muy sensible a la latencia que introduce la gestión de c-states en CPU. Desactivarlos en BIOS aportó un 10–20 % de mejora inmediata.
  2. Contención de bloqueos en IOMMU
    El kernel invertía una cantidad masiva de tiempo en native_queued_spin_lock_slowpath al gestionar mapeos DMA para NVMe. La solución fue desactivar IOMMU a nivel de kernel, lo que liberó el rendimiento de lectura y escritura en pruebas multinodo.
  3. Compilación subóptima de RocksDB
    Los paquetes Debian/Ubuntu no compilaban RocksDB con las banderas de optimización adecuadas. Al reconstruir Ceph con los flags correctos, la compactación se aceleró 3× y el rendimiento en escritura aleatoria 4K se duplicó.

Resultados: escalando hasta romper la barrera

Con los problemas resueltos y la configuración ajustada (número óptimo de PGs, threads y shards por OSD), el clúster alcanzó:

  • 1,025 TiB/s en lectura secuencial 4 MB con 3 réplicas.
  • 270 GiB/s en escritura secuencial con 3 réplicas.
  • 25,5 millones de IOPS en lectura aleatoria 4K.
  • Con codificación de borrado 6+2, más de 500 GiB/s en lectura y 387 GiB/s en escritura.

La clave estuvo en escalar clientes y OSDs de forma proporcional, optimizando hilos de mensajería asíncrona y evitando que los PGs entrasen en estado laggy, lo que paralizaba temporalmente la E/S.

“Ceph es capaz de saturar dos interfaces de 100 GbE por nodo. Para ir más allá, el futuro pasa por redes de 200 GbE o superiores”, concluye el equipo técnico.

El futuro de Ceph en alto rendimiento

Este despliegue demuestra que Ceph puede competir con soluciones propietarias de almacenamiento extremo, manteniendo su naturaleza open source. Los aprendizajes de este caso —como la sensibilidad a la configuración del kernel, la importancia de la compilación optimizada y el ajuste de PGs— son valiosos para cualquier despliegue a gran escala.

El siguiente desafío será mejorar la eficiencia en operaciones de escritura masiva y eliminar definitivamente los problemas de laggy PGs. Además, los desarrolladores apuntan que para superar el muro de IOPS (~400–600 K por nodo) será necesario repensar partes del modelo de hilos de OSD.


La visión desde Stackscale

David Carrero, cofundador de Stackscale (Grupo Aire), recuerda que, aunque pocas empresas requieren cifras tan extremas como las alcanzadas en este despliegue récord, la tecnología detrás de Ceph es perfectamente aplicable a proyectos empresariales reales.

“En Stackscale ofrecemos a nuestros clientes la posibilidad de desplegar entornos Ceph sobre infraestructura dedicada, ya sea como parte de proyectos basados en Proxmox o en arquitecturas personalizadas. No hablamos de alcanzar 1 TiB/s, pero sí de diseñar soluciones adaptadas a cada caso, con alta disponibilidad, escalabilidad y el rendimiento que su negocio necesita. Ceph es una pieza clave para quienes buscan independencia tecnológica y flexibilidad en el almacenamiento distribuido”, apunta Carrero.

Esta perspectiva subraya que el potencial de Ceph no se limita a récords técnicos, sino que es una herramienta versátil para empresas que quieren controlar sus datos y optimizar costes en entornos privados o híbridos.


Cifras clave del proyecto

Métrica3× ReplicaciónEC 6+2
Lectura secuencial 4 MB1,025 TiB/s547 GiB/s
Escritura secuencial 4 MB270 GiB/s387 GiB/s
Lectura aleatoria 4K25,5 M IOPS3,4 M IOPS
Escritura aleatoria 4K4,9 M IOPS936 K IOPS

Preguntas frecuentes (FAQ)

1. ¿Qué es Ceph y por qué es relevante este récord?
Ceph es un sistema de almacenamiento distribuido open source que ofrece bloques, objetos y archivos. Este récord muestra su capacidad para alcanzar cifras extremas de rendimiento sin depender de hardware propietario.

2. ¿Qué papel jugaron los procesadores AMD EPYC?
Los AMD EPYC 9454P aportaron un gran número de núcleos, alto ancho de banda de memoria DDR5 y eficiencia energética, claves para soportar cientos de OSDs por nodo.

3. ¿Por qué es importante el ajuste de PGs (Placement Groups)?
Un número óptimo de PGs por OSD mejora la distribución de datos y reduce la contención interna, aumentando el rendimiento en clústeres muy rápidos.

4. ¿Puedo usar Ceph con Proxmox en un entorno empresarial?
Sí. Proveedores como Stackscale ofrecen infraestructura optimizada para desplegar Ceph junto a Proxmox, adaptando el diseño a las necesidades específicas de rendimiento, disponibilidad y capacidad de cada cliente.

Referencias: ceph.io y Micron

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×