Facebook : une petite mise à jour qui a entraîné une panne majeure

Télécom SudParis

Hervé DEBAR est Directeur adjoint et Directeur de la Recherche et des formations doctorales de Télécom SudParis. Dans cet article publié le 5 octobre 2021 dans The Conversation France (https://theconversation.com/facebook-une-petite-mise-a-jour-qui-a-entraine-une-panne-majeure-169292), il s'exprime sur l'interruption des services opérés par Facebook le 4 octobre 2021. 

 

En fin de journée le 4 octobre, de nombreux utilisateurs ont été dans l’incapacité de se connecter à leurs comptes Facebook, Instagram ou WhatsApp. Tous ces services sont la propriété de l’entreprise Facebook, et ils ont été affectés par le même type de panne : une mise à jour accidentelle et erronée des informations de routage vers les serveurs de Facebook.

Le fonctionnement de l’Internet repose sur un ensemble de technologies, dont deux sont impliquées dans l’incident d’hier, BGP (border gateway protocol) et DNS (domain name system).

Rappelons que pour communiquer, chaque machine doit disposer d’une adresse IP. Une communication sur Internet consiste à mettre en relation deux adresses IP. Le contenu de chaque communication est découpé en paquets, échangés par le réseau entre une source et une destination.

Le fonctionnement du BGP (border gateway protocol)

Hervé Debar

Internet est composé d’un ensemble de « systèmes autonomes » (autonomous system ou AS en anglais). Il en existe plusieurs dizaines, certains très gros, d’autres plus petits. Certains AS sont interconnectés par des points d’échange qui leur permettent d’échanger des données. Chacun de ces systèmes est composé d’un ensemble de matériels appelés routeurs, reliés entre eux par des liens de communication optique ou électrique. Une communication sur Internet circule sur ces liens, et les routeurs sont chargés de faire passer une communication d’un lien à un autre suivant des règles de routage. Chaque AS est connecté au moins à un autre, voire plusieurs.

Lorsqu’un utilisateur connecte sa machine à Internet, il le fait en général par l’intermédiaire d’un fournisseur d’accès Internet (FAI). Ce FAI est lui-même un « système autonome ». Il dispose de plages d’adresse et en attribue une à chaque machine de ses clients. Chaque routeur recevant un paquet examine les deux adresses source et destination et décide de transférer le paquet sur le lien suivant, en fonction des règles de routage transmises dans ses tables.

Afin de peupler ces règles de routage, chaque AS diffuse vers les autres des informations décrivant la manière d’associer une plage d’adresses qu’il possède à un chemin de systèmes autonomes. Cette diffusion se fait par le protocole BGP (border gateway protocol), de proche en proche. Chaque routeur dispose ainsi de l’ensemble des informations nécessaires pour acheminer un paquet.

Le système de nommage DNS (domain name system)

L’utilisation des adresses IP étant peu transparente pour l’utilisateur final, Internet propose le système de nommage DNS (domain name system). Pour les serveurs disponibles sur Internet, cela permet d’associer « facebook.com » à l’adresse IP « 157.240.196.35 ».

Chaque possesseur de nom de domaine met en place (ou délègue) un serveur DNS qui associe les noms de domaine avec des adresses IP. C’est lui qui est considéré comme la source la plus fiable (autorité) de l’information DNS. C’est souvent la première cause de panne, car si la machine n’arrive pas à résoudre un nom (c’est-à-dire à associer le nom demandé par l’utilisateur à une adresse), l’utilisateur final reçoit un message d’erreur.

Chaque opérateur majeur de l’Internet, Facebook mais aussi Google, Netflix, Orange, OVH… possède un (ou plusieurs) AS et pilote le service BGP associé en relation avec ses pairs. Il possède également un ou plusieurs serveurs DNS qui font autorité sur ses domaines.

La panne

En fin de matinée le 4 octobre, Facebook a procédé à une modification de sa configuration BGP et l’a diffusée aux AS auxquels il est connecté. Cette modification a entraîné la disparition des routes vers Facebook, pour l’ensemble de l’Internet.

Les communications en cours avec les serveurs de Facebook se sont en conséquence interrompues, à mesure que l’effacement des routes se propageait d’AS en AS, puisque les routeurs n’étaient plus en mesure d’acheminer les paquets.

La conséquence la plus visible pour les utilisateurs a été une interruption du service DNS et un message d’erreur, puis que les serveurs DNS des FAI n’étaient plus en mesure (en raison de la panne BGP) de contacter le serveur autorité de Facebook.

Du côté de Facebook, cette panne a également entraîné des perturbations très importantes puisqu’aucun accès à distance n’était plus possible (donc concrètement, plus aucune possibilité de télétravailler). Les employés de Facebook se sont retrouvés dans l’impossibilité de communiquer entre eux, puisqu’ils utilisaient les mêmes outils pour leurs échanges. Il a donc été nécessaire de recourir à une intervention sur place dans les centres de calcul. Les contrôles d’accès des bâtiments étant également des services en ligne, cet accès semble s’être révélé plus complexe que prévu.

Finalement, le nom de domaine « facebook.com » n’étant plus référencé a été identifié comme libre par plusieurs sites spécialisés pendant la durée de la panne, et a été présenté comme un candidat à enchères.