Los discos duros aguantan más: Backblaze desmonta la “curva de la bañera” y ve picos de fallos mucho más tarde (y más bajos)

Silvia A. Feliz

Durante décadas, cualquiera que se asomara a la ingeniería de fiabilidad se encontraba con el mismo dibujo: una “curva de la bañera”. Al principio, un pequeño bache de fallos tempranos; después, una meseta tranquila; al final de la vida útil, un repunte conforme el hardware se desgasta. Sencillo, elegante, tranquilizador. El problema es que, con datos reales y masivos delante, ya no encaja. Eso es lo que afirma Backblaze —conocida por publicar trimestralmente su base de datos de fallos de discos— tras 13 años de telemetría continua y cientos de miles de unidades monitorizadas en sus centros de datos: los discos duros están rindiendo mejor y duran más, y el patrón de fallos que observan no es la clásica U de manual.

La compañía ha vuelto a comparar tres fotografías históricas: 2013, 2021 y 2025. El contraste habla por sí solo. En 2013, el pico de tasa anualizada de fallos (AFR) se situaba en torno al 13,73 % a los 3 años y 3 meses (con otro máximo cercano, 13,30 % a los 3 años y 9 meses). En 2021, el máximo subía a 14,24 %, pero mucho más tarde, a los 7 años y 9 meses. Y en 2025… la “pared” se retrasa aún más y además se hace mucho más baja: pico de 4,25 % a los 10 años y 3 meses. Es decir, tres veces menor que los picos de 2013 y 2021 y claramente al borde final de la vida de las unidades. En el extremo opuesto, el “arranque” de la curva también ha mejorado: entre 0 y 1 año de vida, apenas supera el 1,30 % de AFR (la AFR trimestral más reciente se sitúa en 1,36 %).

Qué es (y qué no es) la “curva de la bañera”

La curva de la bañera es un atajo visual: los dispositivos fallan más al principio (defectos de fabricación que se manifiestan pronto), menos en su edad adulta (fallo constante bajo), y más al final por desgaste. Tiene valor didáctico, pero simplifica: trata el tiempo como única variable y asume que el entorno, los modelos, el firmware, los perfiles de carga y los procesos operativos no cambian. En un centro de datos real, esas condiciones nunca son idénticas. Los operadores intentan estandarizar temperatura, vibraciones, alimentación y cargas, sí; pero hay cohortes de compra, modelos distintos, actualizaciones y cambios operativos que afectan a la foto final.

back blaze Bathtub 6 Drive failure total comparison

Backblaze lo ha comprobado sobre su propio histórico. En 2013 analizó una flota mucho más pequeña y con más variabilidad —unos 35.000 discos en aquellos años, con más de 100 PB en producción a septiembre de 2014— que incluía muchas unidades de consumo reutilizadas en chasis (el llamado drive farming, “descapotar” los discos de sus carcasas comerciales para montarlos en bastidores), algo que añadía posibilidades de “golpes” operativos. En 2021, la base de cálculo era muy superior —en torno a 206.928 discos— tras ampliar el CPD de Sacramento, abrir Phoenix y Ámsterdam, lanzar Backblaze B2 y salir a bolsa. En 2025, el recuento rozaba los 317.230 discos (cierre de Q2-2025, con las exclusiones habituales del informe).

A más muestra, menos “dientes de sierra” estadísticos… salvo que exista un problema real en un modelo o se entre de lleno en la zona de fin de vida. Y a más madurez operativa, mejor higiene de flota: compras en bloque, criterios más finos al desmantelar, estándares de aceptación distintos. Todo eso deforma la curva respecto al ideal teórico. Pero el resultado agregado apunta en una dirección clara: la fiabilidad media ha mejorado, y los picos contundentes de AFR llegan ahora más tarde y más abajo.

Cómo han cambiado los datos (y por qué importan)

La propia Backblaze reconoce que comparar 2013 con 2021 y 2025 exige contexto:

Tamaño y composición de la flota. En 2013, menos discos y mayor dispersión (incluidos muchos “de consumo” readaptados). En 2021 y 2025, flotas mucho mayores y más homogéneas para el entorno de CPD. Con menos discos, cada fallo pesa más y los picos son más “ruidosos”.
Cohortes de compra. Comprar a gran escala supone que muchas unidades del mismo modelo entren a la vez. Si el modelo sale “rana”, el pico de fallos se agrupa; si es un modelo robusto, la curva se aplana durante años.
Desmantelado distinto. La estrategia actual puede retirar discos que siguen bien (por gestión del riesgo o para crecer en capacidad) antes de que fallen. Eso reduce población sin el “pico” de fallos que uno esperaría si las unidades se llevaran hasta el final.
Metodología. Para reconstruir la “edad” de discos iniciales sin registro diario completo (caso 2013), la compañía calculó la fecha de introducción combinando horas encendidas (SMART 9) y la primera fecha conocida; a partir de ahí, cruza fallos vs. edad para derivar AFR. Con más trazabilidad, el cálculo es más limpio.

El efecto combinado de estos factores explica por qué la forma de la curva de 2021 y 2025 se parece, pero el nivel ha mejorado: AFR baja y estable gran parte de la vida útil y repunte final que ya no es una montaña, sino más bien un escalón tardío.

Lo que dice 2025 (y lo que sugiere para 2029)

Volviendo a los números:

Pico 2013: 13,73 % de AFR a 3 años y 3 meses (y 13,30 % a 3 años y 9 meses).
Pico 2021: 14,24 % a 7 años y 9 meses.
Pico 2025: 4,25 % a 10 años y 3 meses.
AFR año 0–1 (2025): ~1,30 %; AFR trimestral reciente: 1,36 %.

Traducción: más longevidad y más previsibilidad. La propia Backblaze se compromete a revisitar el análisis en 2029 para ver si el pico de fallos se desplaza aún más a la derecha (y si baja otro tanto).

¿Se equivocaba la curva clásica? No del todo, pero sí se queda corta

La curva de la bañera no es “falsa”; es incompleta. Sirve como intuición cuando el tiempo es la variable que más pesa y el entorno es relativamente homogéneo. Pero, en un CPD moderno, conviven:

Variación por modelo y lote (control de calidad, firmware, densidad).
Cambios operativos (nuevos CPDs, racks, mejor enfriamiento).
Decomisiones con criterios de riesgo y capacidad.
Perfiles de carga distintos en el tiempo (más secuencial vs. más aleatorio, picos vs. sostenido).

Esos matices aplanan el tramo central y mueven el repunte final. Lo importante de 2025 no es que la U “haya desaparecido”, sino que el pico final se ha retrasado (hasta la década de vida) y se ha encogido (en torno a un tercio del nivel de hace unos años). Para los responsables de infraestructura, eso se traduce en menos sorpresas y más años útiles por unidad.

Qué significa para un CPD (y qué no conviene olvidar)

Modelos, no marcas. La variabilidad modelo a modelo sigue existiendo. La buena noticia: en agregado, la longevidad mejora. La prudencia: vigilar cada SKU con métricas de RMA/AFR y cohortes de compra.
Estrategia de compra. Distribuir adquisiciones en oleadas atenúa riesgos de picos por lote. Comprar todo de golpe facilita la logística… pero también concentra los fallos si el modelo sale irregular.
Desmantelado con criterio. Retirar a tiempo reduce fallos visibles. Llevar los discos “hasta que caigan” puede sonar eficiente, pero eleva el riesgo de picos al final. El equilibrio depende del perfil de servicio y del RTO/RPO de la plataforma.
SMART no es una bola de cristal. Ayuda, pero no detecta todos los fallos inminentes. La telemetría útil es multifuente: tasas de reintento, errores de E/S, latencia de operaciones, temperaturas y vibración por rack.
Ambiente estable = mejor AFR. La obsesión del CPD (temperatura, humedad, vibración, alimentación) suma. Reduce el “ruido” y deja ver antes si un modelo o una serie se desmarca.

Un dato clave: lo que “no falla” también cuenta

Hay un detalle metodológico decisivo: con el desmantelado anticipado, algunos discos abandonan la flota funcionando. Eso baja la población en tramos finales sin generar los picos de fallos esperables si se estiran “hasta el último byte”. No es trampa; es operación real. Para comparar curvas de años distintos, hay que leer “entre líneas”: qué disco se compró, cuándo, cómo se usó y cuándo salió.

¿Y para el usuario común? Traducción rápida

Los discos duros actuales, usados en CPD, duran más que hace una década.
Las probabilidades de fallo temprano son bajas (AFR ~1,30 % el primer año).
El repunte de fallos aparece, de media, mucho más tarde (en 2025, pasado el décimo año) y con un nivel notablemente inferior.

Eso no garantiza que su disco de casa vaya a durar x años: no soporta la misma carga, temperatura, vibración ni procesos que en un CPD. Pero como tendencia, es una buena noticia para cualquiera que aún confía su vida digital a platos giratorios.

Preguntas frecuentes

¿Qué es exactamente la “tasa anualizada de fallos” (AFR) y por qué importa?
La AFR es la probabilidad anual de que falle un disco dentro de una población. Permite comparar cohortes y edades con una métrica homogénea. En 2025, Backblaze reporta una AFR trimestral del 1,36 % y pico de 4,25 % a los 10 años y 3 meses de vida media.

Si los discos mejoran, ¿puedo olvidarme de la curva de la bañera?
No. La curva clásica es útil como intuición, pero incompleta. En CPD modernos, el patrón real depende de modelo, entorno, cohortes, firmware y operación. La tendencia de 2025 dice: menos fallos tempranos, meseta larga y repunte tardío más suave.

¿Qué ha cambiado entre 2013, 2021 y 2025 para que la curva mejore tanto?
Tres cosas: más datos (flotas de 206.928 y 317.230 discos frente a ~35.000 en los inicios), mejor operación (compra y decom más sofisticados) y un parque de modelos más robusto para el uso en CPD. Eso reduce ruido, retrasa el pico y baja su altura.

¿Qué puede hacer un equipo de sistemas para aprovechar esta tendencia?
Seguir las métricas por modelo, comprar en oleadas, ajustar decom a su RTO/RPO, monitorizar más allá de SMART (latencias, I/O, errores, temperatura, vibración), y probar sus planes de recambio y recuperación. Los discos duran más, pero el diseño de la plataforma sigue marcando la diferencia.