La interrupción, que afectó a Yandex Cloud y otros servicios críticos, se debió a una doble falla en la subestación de soporte y es considerada la primera de esta magnitud en 15 años.
El pasado 30 de marzo, el principal centro de datos de Yandex sufrió una interrupción de servicio sin precedentes que afectó a múltiples servicios de la compañía, incluyendo su plataforma de nube Yandex Cloud. El incidente fue atribuido a una falla simultánea en ambas líneas de suministro de energía de alta tensión provenientes de una subestación cercana a Moscú, según informó la compañía en un comunicado oficial y en una detallada entrada en su blog técnico en Habr.
Este centro de datos, inaugurado en la década de 2010 en un terreno previamente industrial, se encontraba estratégicamente ubicado cerca de una potente subestación de 220 kV, que hasta ahora no había registrado fallos desde su entrada en funcionamiento en 1960. Yandex había dispuesto dos líneas de alimentación independientes de 110 kV, lo que en teoría garantizaba redundancia suficiente para evitar interrupciones. Sin embargo, ambas fallaron simultáneamente, desencadenando lo que la empresa ha calificado como un evento “con una probabilidad de ocurrencia de una vez cada 20 años”.
Un apagón eléctrico que puso a prueba todos los sistemas
El apagón, que comenzó a las 12:25 (hora local), obligó a activar los generadores diésel de emergencia y a depender de los sistemas DUPS (fuentes de alimentación ininterrumpida diesel-rotativas). Aunque los elementos críticos como la infraestructura de red y los servicios de monitorización continuaron operativos, la zona de disponibilidad ru-central1-b de Yandex Cloud quedó completamente inactiva durante horas. Algunos servicios desplegados en múltiples zonas también experimentaron problemas de disponibilidad.
El restablecimiento del suministro desde la subestación llegó a las 15:30, y el proceso de reactivación completa de la infraestructura y los servicios se extendió hasta las 00:00 del día siguiente. La complejidad del procedimiento, que requirió validaciones manuales y supervisión directa de ingenieros, alargó el tiempo de recuperación.
Lecciones y medidas futuras
Yandex ha anunciado que este evento ha motivado una revisión completa de su modelo de resiliencia energética, incluyendo la posibilidad de añadir un tercer nivel de respaldo basado en generadores, además de los dos existentes. También implementará ejercicios de recuperación ante desastres más exigentes, con simulaciones de fallos dobles, y mejorará la automatización de los procesos de arranque en frío de sus sistemas.
En paralelo, se continuará con el fortalecimiento de las herramientas de resiliencia multizona en Yandex Cloud. Destaca entre ellas “Zonal Shift”, una tecnología de desvío de tráfico que ya demostró su eficacia al permitir a los clientes con arquitecturas distribuidas mitigar el impacto redirigiendo automáticamente las cargas a otras zonas disponibles.
Advertencia para toda la industria
El incidente ha servido como un recordatorio para los operadores de infraestructuras críticas: incluso los sistemas más robustos pueden fallar si los riesgos excepcionales no se tienen en cuenta. «La multizona ya no es una opción, es una necesidad para cualquier servicio con misión crítica», advirtió Yandex en su informe.
La empresa, conocida como “el Google ruso”, opera cinco centros de datos en el país, ubicados en Vladimir, Sasovo, Ivanteevka, Mytishchi y Kaluga Oblast, este último inaugurado recientemente con 63 MW de capacidad. Desde su separación estructural con sus operaciones europeas, ahora bajo el nombre de Nebius, Yandex ha redoblado su apuesta por reforzar su infraestructura dentro de Rusia.
Este evento, aunque controlado sin pérdidas significativas, servirá como caso de estudio para toda la industria tecnológica, demostrando la importancia de la planificación extrema, la redundancia y la transparencia en la gestión de incidentes críticos.