Google Cloud : une mise à jour automatique provoque une panne mondiale

Par:
francoistonic

mar, 17/06/2025 - 08:08

Une panne majeure a fortement impacté Google Cloud le 12 juin dernier provoquant l'indisponibilité de nombreux services de la plateforme et par un effet cascade des services utilisant Google Cloud (dont Spotify, Discord, Snapchat, NPM). Google a rapidement précisé que la cause de la panne était une mauvaise gestion API qui s'est propagée sur la plateforme. Il a fallu 3 heures pour résoudre le problème. Les services Google touchés ont été Gmail, Drive, Meet, Voice, Lens, Chat, Search, etc. En tout des dizaines de services n'étaient plus accessibles.

Selon Google, des données invalides ont impacté les API Google Cloud et ces erreurs n'ont pas été détectées par le système, mettant en évidence un système de tests et de gestions des erreurs trop faibles. Rapidement, Google a évoqué une mise à jour non valide sur les quotas de requêtes ce qui a entraîné le rejet des requêtes API externes. Des champs vides étaient présentes dans les metadonnées ce qui n'aurait pas dû être le cas. Pour remettre en fonctionnement les API, les équipes ont contourné le système fautif. Le problème est apparu dans la région cloud us-central1 avant d'impacter le reste du monde, la propogration de la mise à jour étant automatique. 

Google, dans la publication sur le panne, explique : Un changement de politique a été inséré dans les tables Spanner régionales utilisées par Service Control pour les politiques. Compte tenu de la nature globale de la gestion des quotas, ces métadonnées ont été répliquées en quelques secondes. Ces données contenaient des champs vides inattendus (sic!). Service Control a ensuite effectué des contrôles de quotas régionaux sur les politiques de chaque datastores régionales. Les champs vides correspondant à ce changement de politique ont été récupérés et le chemin de code ayant rencontré le pointeur nul a été testé, provoquant une boucle de crash des binaires. Ce phénomène s'est produit globalement pour chaque déploiement régional. Bref, un effet cascade. 

Selon Google, dans les 2 minutes qui ont suivi le début du crash, les équipes en charge de la fiabilité ont détectées le problème. Dans les 10 minutes, la cause du problème avait été identifié et l'alerte donnée. Dans les grandes régions Google Cloud, le redémarrage de la tâche Service Control a eu un effet cascade. Après 2h40, le problème a été résolué sur la région us-central-1 et une partie du trafic API avait été envoyée sur d'autres bases de données régionales pour réduire les erreurs.