13 junio 2025
Cloud, Noticias
3 minutos de lectura

Caída global en Google Cloud: un error en el sistema de cuotas provoca horas de interrupciones a nivel mundial

Antonio

La nube de Google vivió el 12 de junio una de las mayores interrupciones globales de los últimos años, afectando a servicios críticos para empresas y usuarios en todo el mundo. El incidente, que comenzó a las 19:51 (hora española), se prolongó durante al menos tres horas y media, afectando a decenas de productos de Google Cloud Platform (GCP) y Google Workspace, desde servicios de infraestructura hasta correo electrónico, almacenamiento y analítica de datos.

¿Qué ocurrió?

Según la información oficial publicada por Google, la causa principal fue una actualización automática incorrecta de cuotas en el sistema de gestión de APIs, que se distribuyó globalmente y provocó el rechazo masivo de peticiones externas. El fallo afectó a la gestión de cuotas de API, bloqueando solicitudes legítimas y causando respuestas de error 503 en cascada en servicios como Compute Engine, Cloud Storage, BigQuery, App Engine, Cloud SQL, Cloud Run, Vertex AI, Cloud Pub/Sub, Cloud DNS, Gmail, Google Drive y Google Calendar, entre otros.

Aunque Google detectó el error rápidamente y aplicó una mitigación temporal al desactivar la comprobación de cuotas conflictivas, el proceso de recuperación fue desigual. En la región us-central1 (Iowa), donde se concentran muchos recursos, la restauración fue más lenta por una sobrecarga en la base de datos de políticas de cuotas.

Impacto para empresas y usuarios

Durante varias horas, miles de organizaciones en Europa, Asia y América experimentaron fallos intermitentes en el acceso a paneles de control, APIs, backups automáticos, ejecución de aplicaciones, automatizaciones y servicios de IA, además de servicios de oficina como Gmail y Drive. Aunque los recursos en ejecución no se detuvieron, la imposibilidad de acceder a la administración, consultar logs, monitorizar incidencias o escalar recursos generó incertidumbre y problemas de continuidad para equipos de TI.

Especialmente grave fue el impacto en servicios gestionados de datos, como Cloud Bigtable, BigQuery, Spanner, Firestore, Cloud SQL o Cloud Storage, donde se registraron interrupciones de lectura y escritura, así como en productos clave de inteligencia artificial como Vertex AI y Looker Studio.

Google señala que el incidente no debería haber ocurrido y ha anunciado medidas inmediatas:

Blindar la plataforma de gestión de APIs para evitar fallos ante datos corruptos o inválidos.
Mejorar la validación, pruebas y monitorización antes de la propagación global de cambios de metadatos.
Reforzar los sistemas de manejo de errores y pruebas ante escenarios de datos no válidos.

¿Cómo afectó a España y Europa?

Entre los centros de datos afectados estuvieron los de Madrid, Finlandia, París, Berlín, Londres, Milán, Frankfurt, Bruselas y Varsovia, además de las regiones multizona europeas. El incidente se extendió a toda la infraestructura cloud y workspace, impactando a grandes y pequeñas empresas, gobiernos, startups y administraciones públicas que dependen de Google para su actividad diaria.

Recuperación y estado actual

A las 22:49 (hora española), Google confirmaba que la mayoría de servicios estaban recuperados, salvo ciertas operaciones residuales en regiones muy afectadas (como us-central1) y servicios de IA como Vertex AI Online Prediction, que restablecieron la normalidad unas horas después. No obstante, la compañía reconoció la gravedad del incidente y se comprometió a publicar un informe técnico detallado con el análisis raíz y las acciones de mejora.

Reflexión: ¿qué se puede aprender?

Este incidente recuerda que, aunque la nube ofrece alta disponibilidad, automatización y escalabilidad, ningún proveedor está exento de fallos catastróficos en su plano de control. Las empresas deben:

Implementar estrategias multicloud y copias de seguridad independientes.
Documentar planes de contingencia y respuesta ante caída de proveedores externos.
Monitorizar servicios críticos desde plataformas externas.
Evaluar periódicamente los SLA y la capacidad de recuperación ante errores sistémicos.

Google, por su parte, afronta la presión de recuperar la confianza de miles de empresas afectadas. El ecosistema espera detalles sobre el error de diseño y las medidas implementadas para evitar que un simple fallo de cuotas vuelva a desencadenar una caída a nivel global.

Fuente: Google Status