Un estudio revela las limitaciones ocultas de los SSD: mismos números, rendimientos radicalmente distintos

Durante años, las especificaciones de los fabricantes de unidades de estado sólido (SSD) han transmitido la idea de que todos los modelos con la misma capacidad y tecnología eran, en la práctica, equivalentes. Sin embargo, un nuevo estudio de la Universidad Técnica de Múnich y la Universidad de Copenhague demuestra que esta percepción es engañosa: dos SSD casi idénticos en papel pueden comportarse de forma radicalmente distinta en cargas reales de trabajo.

El trabajo, publicado en Proceedings of the VLDB Endowment (PVLDB) bajo el título SSD-iq: Uncovering the Hidden Side of SSD Performance, introduce un nuevo benchmark —SSD-iq— diseñado para destapar esos “datos oscuros” que los tests tradicionales no muestran.


La gran incógnita: ¿realmente importaba qué SSD elegir?

La investigación parte de una pregunta aparentemente sencilla: ¿da igual qué modelo de SSD se use en un sistema de bases de datos? Hasta ahora, arquitectos y administradores se han guiado por las métricas estándar: lecturas y escrituras secuenciales, operaciones aleatorias por segundo (IOPS) y, a veces, latencia nominal. El problema, según los autores, es que estas métricas son incapaces de capturar fenómenos internos clave, como la amplificación de escritura (WAF) o la latencia bajo carga.

En los experimentos, realizados sobre nueve SSD de los principales fabricantes (Samsung, SK Hynix, Intel, Micron, Western Digital y Kioxia, además de unidades en la nube de AWS), los investigadores descubrieron diferencias de hasta 2,5 veces en WAF y latencias que se disparaban de microsegundos a milisegundos. Todo ello en modelos que, sobre el papel, ofrecían cifras casi idénticas.


El talón de Aquiles: la amplificación de escritura (WAF)

Uno de los hallazgos más significativos fue el impacto del WAF. Mientras que un HDD clásico puede escribir en el mismo sitio, un SSD necesita borrar bloques completos y recolocar páginas válidas, generando escrituras adicionales invisibles para el usuario.

  • Alibaba ya había reportado WAF de hasta 8 en sus cargas cloud, y NetApp de más de 10 en entornos empresariales.
  • En los experimentos de Haas y su equipo, los WAF medidos oscilaron entre 1,9 y más de 6, según el modelo.
  • Esto significa que un SSD puede escribir internamente 6 veces más de lo que el sistema operativo cree, reduciendo su vida útil y aumentando costes de reposición.

Además, contra todo pronóstico, las cargas con acceso sesgado (Zipf o Two-Zone), habituales en bases de datos, no mejoraban el WAF. De hecho, en muchos modelos lo empeoraban, lo que indica que los controladores usan algoritmos de recolección de basura (GC) muy básicos, incapaces de aprovechar patrones de acceso no uniformes. Solo algunos modelos de Intel y Western Digital mostraron señales de algoritmos más inteligentes.


Latencia bajo carga: la cara oculta de los milisegundos

Otro punto crítico fue la latencia. Según las fichas técnicas, las lecturas tardan unos 75-80 μs y las escrituras unos 15 μs. Sin embargo, bajo carga sostenida:

  • Algunos modelos mantuvieron latencias estables en torno a 20 μs.
  • Otros se dispararon a más de 10 ms en percentiles altos (p99.9).

Para aplicaciones OLTP que dependen de confirmaciones instantáneas en los registros de transacciones (WAL), este salto es devastador: una operación que debería ser instantánea puede convertirse en un cuello de botella para todo el sistema.


El benchmark SSD-iq: medir lo que importa

Frente a esta opacidad, los investigadores desarrollaron SSD-iq, un conjunto de pruebas open source disponible en GitHub (https://github.com/gabriel-haas/ssdiq). A diferencia de benchmarks populares orientados a uso doméstico, SSD-iq introduce métricas críticas para entornos de bases de datos y data centers:

  1. WAF real: medido con la interfaz OCP NVMe o estimado por rendimiento.
  2. Latencia bajo carga: incluida en percentiles altos (p99.9).
  3. Rendimiento en accesos sesgados: patrones Zipf y Two-Zone que imitan cargas reales.
  4. Sobreaprovisionamiento (OP): espacio oculto reservado por el fabricante para gestionar la GC.

Estos parámetros ofrecen una imagen mucho más fiel del comportamiento real de un SSD y permiten comparar modelos de forma útil para arquitecturas de misión crítica.


Casos prácticos: Samsung vs Micron

Para ilustrar la importancia, el equipo comparó dos modelos casi idénticos en especificaciones y precio: el Samsung PM9A3 y el Micron 7450 PRO, ambos con 960 GB.

  • El Samsung ofreció mejor estabilidad de latencia bajo carga, llegando a 20.000 transacciones por segundo en TPC-C.
  • El Micron mostró menor WAF (más vida útil), pero peor rendimiento en cargas OLTP, cayendo a 15.000 TPS en steady state.

La elección, por tanto, no es trivial: depende de si se prioriza rendimiento inmediato o durabilidad del hardware.


Implicaciones: sostenibilidad y futuro

Los autores también subrayan el impacto en sostenibilidad. Cada SSD sustituido antes de tiempo genera residuos electrónicos y costes energéticos asociados a la fabricación. Reducir el WAF con algoritmos más avanzados no solo prolonga la vida útil, sino que también reduce la huella ambiental de los data centers.

De cara al futuro, tecnologías como ZNS (Zoned Namespace) y FDP (Flexible Data Placement) permitirán que el host colabore en la gestión de datos, abriendo la puerta a mitigar gran parte de estos problemas. SSD-iq podría convertirse en la referencia para evaluar estas nuevas generaciones de discos.


Conclusión

El estudio de Haas y sus colegas derriba un mito persistente: los SSD no son intercambiables. Los números de las fichas técnicas no bastan, y los benchmarks clásicos ocultan más de lo que muestran. Con SSD-iq, por primera vez se puede medir lo que realmente importa: latencia bajo carga, amplificación de escritura y sostenibilidad.

Si la industria y los reviewers adoptan este benchmark, podríamos estar ante un cambio de paradigma en cómo evaluamos y elegimos almacenamiento en la era de la IA y las transacciones en tiempo real.


Preguntas frecuentes (FAQ)

¿Qué es la amplificación de escritura (WAF) en un SSD?
La WAF mide cuántas escrituras internas realiza el SSD por cada escritura lógica del sistema. Un WAF de 4 significa que por cada GB escrito, el SSD realmente escribe 4 GB, reduciendo drásticamente su vida útil.

¿Por qué los benchmarks tradicionales no muestran estas diferencias?
Porque se centran en pruebas simples (lectura/escritura secuencial o aleatoria) que no reproducen la complejidad de cargas reales en bases de datos o sistemas cloud. No miden ni WAF ni latencias extremas bajo carga.

¿Qué ventajas aporta SSD-iq frente a otros tests?
Introduce métricas realistas: WAF, OP, latencia en percentiles altos y rendimiento en accesos sesgados. Esto refleja mejor el comportamiento en entornos OLTP, cloud y aplicaciones empresariales.

¿Dónde se puede descargar SSD-iq?
SSD-iq es open source y está disponible en GitHub: https://github.com/gabriel-haas/ssdiq. Incluye scripts y datos para reproducir los experimentos.

Más información en informe SSD-iq.

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×