La panne mondiale de Facebook, Whatsapp et Instagram était due à un problème de configuration réseau BGP

Par:
fredericmazue

mar, 05/10/2021 - 13:51

Hier 4 octobre 2021, Facebook, ainsi que les réseaux sociaux Whatsapp et Instagram lui appartenant, ont connu une panne mondiale d'une durée de 6 heures, pendant lesquelles tous ces services ont été totalement inaccessibles.

Facebook a publié un mea-culpa. Nous sommes désolés pour les désagréments causés par la panne d'aujourd'hui sur nos plateformes. [...] La cause sous-jacente de cette panne a également eu un impact sur de nombreux outils et systèmes internes que nous utilisons dans nos opérations quotidiennes, compliquant nos tentatives pour diagnostiquer et résoudre rapidement le problème.

Nos équipes d'ingénieurs ont appris que les changements de configuration sur les routeurs backbone qui coordonnent le trafic réseau entre nos centres de données ont causé des problèmes qui ont interrompu cette communication. Cette perturbation du trafic réseau a eu un effet en cascade sur la façon dont nos centres de données communiquent, entraînant l'arrêt de nos services.

Ces explications de Facebook, destinées au grand public, sont assez sibyllines. Plus techniquement, les ingénieurs de Facebook ont fait une erreur de configuration de leurs routeurs, ce qui a cassé la configuration BGP du réseau Internet relative à Facebook.

BGP signifie Border Gateway Protocol. Il s'agit d'un mécanisme permettant d'échanger des informations de routage entre des systèmes autonomes (AS) sur Internet. Les gros routeurs qui font fonctionner Internet ont d'énormes listes constamment mises à jour - dites tables de routage - des routes possibles qui peuvent être utilisées pour livrer chaque paquet réseau à leurs destinations finales, autrement dit assurer le trafic sur Internet. Sans BGP, les routeurs Internet ne sauraient pas quoi faire et Internet ne fonctionnerait pas.

En effet Internet est un réseau de réseaux liés par BGP. BGP permet à un réseau d'annoncer sa présence à d'autres réseaux qui forment Internet. L'erreur de configuration des routeurs de Facebook a fait de que ses services ne 's'annonçaient' plus sur Internet via BPG ce qui les a donc rendus invisibles pour ce protocole et donc inaccessibles pour les visiteurs.

Pour les lecteurs qui souhaitent comprendre encore plus en détails le fonctionnement d'Internet, l'entreprise américaine Cloudflare qui propose un réseau de distribution de contenu, a publié un très intéressant billet de blog technique. En effet Cloudflare a vécu et analysé la panne de Facebook en direct. A lire ici.