El “race condition” que tumbó Virginia: anatomía de la caída de AWS en us-east-1 y las lecciones que deja para arquitectos cloud
AWS ha publicado el informe post-mortem de la interrupción que el 19 y 20 de octubre dejó fuera de juego a la región N. Virginia (us-east-1) y arrastró a decenas de servicios. El detonante fue tan sutil como devastador: un fallo de carrera (race condition) en la automatización interna que gestiona el DNS de Amazon DynamoDB. Ese bug terminó aplicando un plan DNS vacío sobre el endpoint regional dynamodb.us-east-1.amazonaws.com, impidiendo su resolución. Sin el “catálogo” que coordina a buena parte del plano de control de AWS, el efecto dominó no tardó en llegar: IAM, STS, EC2, Lambda, NLB, ECS/EKS/Fargate, Redshift y otros servicios encadenaron errores durante horas. La compañía reconoce que tuvo que detener la automatización responsable a nivel global,