lundi 31 août 2020

Pas de Foot à la télé ? Voici la raison technique (Règle Flowspec mal configurée chez Centurylink)

Pas de Foot à la télé ? Voici la raison technique (Règle Flowspec mal configurée chez Centurylink)

Le fournisseur d'accès Internet américain CenturyLink a subi une panne technique majeure dimanche suite à une mauvaise configuration dans l'un de ses centres de données. Les dégâts ont été majeurs et ont été ressentis sur tout l'Internet. La panne de CenturyLink a entraîné une baisse de 3,5 % du trafic web mondial. L'incident a fait tomber des services tels que Cloudflare, Reddit, Hulu, AWS, Blizzard, Steam, Xbox Live, Discord, et des dizaines d'autres.

Au moins 10.000 sociétés clientes de l'entreprise ont souffert de problèmes de connexion pendant plusieurs heures, selon Downdetector. En France, les abonnés de Téléfoot, la nouvelle chaîne qui retransmet les matchs de football de la Ligue 1 française se sont retrouvés avec un écran noir sur les applications de la chaîne lors de la retransmission de la 2ème journée du championnat.

"Que ce soit pour Reims - Lille (à 13 heures), comme pour les matches de 15 heures (Saint-Etienne - Lorient, Angers - Bordeaux, Nantes - Nîmes et Metz - Monaco), les téléspectateurs ont exprimé leur colère face aux nombreux ratés de l'application : absence de commentaire lors des matches en multiplex, coupure du flux vidéo, match non disponible" mentionne l'Equipe à ce sujet.

publicité

Tous les supports OTT de Téléfoot ont lourdement été impactés

Plusieurs plateformes de différentes chaînes numériques, dont MyCanal ou F1 TV, ont également été touchées par la panne mondiale. Tous les supports OTT de Téléfoot (application, site internet, tv connectée) ont lourdement été impactés. Téléfoot aurait également eu des problèmes avec son second fournisseur, utilisé en back-up en cas de problème de ce type précise toujours l'Equipe. "À Téléfoot, on assure chercher dans l'urgence un nouveau prestataire" mentionne aussi le quotidien sportif. "La chaîne dit présenter ses excuses à ses abonnés OTT et prévoit d'effectuer un geste commercial envers ces derniers".

En raison de la nature technique de la panne - impliquant à la fois un pare-feu et un routage BGP (Border Gateway Protocol) - l'erreur s'est propagée vers l'extérieur du réseau de CenturyLink et a touché d'autres fournisseurs de services Internet, finissant par causer des problèmes de connectivité pour de nombreuses autres entreprises.

Cloudflare, qui a également été sévèrement touché aujourd'hui, a déclaré que le problème de propagation vers l'extérieur de CenturyLink a conduit à une baisse de 3,5% du trafic Internet mondial, ce qui en ferait l'une des plus grandes pannes d'Internet jamais enregistrées.

Cause profonde : Règle Flowspec mal configurée

Selon une page de statut de CenturyLink, le problème provient du centre de données de CenturyLink à Mississauga, une ville proche de l'Ontario, au Canada. L'entreprise affirme que la cause première de l'incident est une panne du à une règle Flowspec. Flowspec est une extension du protocole BGP qui permet aux entreprises d'utiliser les routes BGP pour distribuer des règles de pare-feu sur leur réseau. Les règles de Flowspec sont généralement utilisées pour traiter les incidents de sécurité, tels que les détournements BGP ou les attaques de DDoS, car elles permettent aux entreprises de modifier l'ensemble de leur réseau pour réagir et atténuer les attaques en quelques secondes.

CenturyLink a déclaré que son centre de données de Mississauga a envoyé une règle Flowspec incorrecte qui a empêché les routes BGP de la société de fonctionner. Cloudflare pense que CenturyLink a mis tout son réseau en boucle en annonçant un tout nouvel ensemble de routes BGP, puis en abandonnant accidentellement toutes les routes via la règle Flowspec mal configurée.

Les routes BGP maintiennent l'Internet en état de marche. C'est un type de message que les sociétés Internet se transmettent entre elles. Les routes BGP indiquent à chaque fournisseur d'accès à l'internet quel bloc d'adresses IP est disponible sur son réseau. Comme la commande Flowspec incorrecte de CenturyLink a fait tomber certains des routeurs de son réseau, certains de ces routeurs ont également commencé à annoncer des routes BGP incorrectes vers d'autres services Internet voisins de "niveau 1". Cela a fait tomber d'autres réseaux dans un effet de dominos.


La panne a pris sept heures pour être réparée

CenturyLink a résolu le problème en prenant la rare mesure de dire à tous les autres fournisseurs d'accès Internet de niveau 1 de se déconnecter et d'ignorer tout trafic provenant de son réseau. Les entreprises prennent rarement ce genre de décisions, car cela entraîne une perte totale de connectivité pour tous leurs clients.

Au total, CenturyLink a dû réinitialiser tout son équipement et recommencer à fonctionner avec des tables de routage BGP propres, un processus qui a pris près de sept heures, de 12:13 UTC à 18:58 UTC environ, a déclaré la compagnie. "Il s'agit d'une panne d'Internet mondiale importante", a déclaré Matthew Prince, co-fondateur & PDG de Cloudflare, dans son analyse de la panne.

En 2018, CenturyLink avait déjà été victime d'un bug massif affectant les distributeurs de billets et les appels d'urgence (911) aux Etats-Unis. 

En 2016, .

Aucun commentaire:

Enregistrer un commentaire