Nem lehetett távolról javítani a hibát, egy hálózati zavar lavinaszerű folyamatot indított el, ami végül a teljes leálláshoz vezetett.
Egy konfigurációs hiba okozta a világ legnépszerűbb közösségi oldala, a Facebook szolgáltatásának hétfő délutántól éjfélig tartó globális kimaradását. A közösségi platformon kívül sok más szolgáltatást – képmegosztót, csevegőprogramokat, VR-sisakokat és okosszemüveget – kínáló cég történetének ez volt az eddigi leghosszabbra nyúlt szolgáltatáskiesése. A hiba okaival kapcsolatban nem közöltek részleteket, de szakértők szerint a BGP nevű hálózati technológia okozta a hibát.
A mérnöki csapatok arról értesültek, hogy az adatközpontok közötti forgalmat koordináló routerek konfigurációjának változtatása megzavarta a kommunikációt. A hálózati zavar lavinaszerű hatással volt az adatközpontok kommunikációjára, ami végül a szolgáltatásaink leállásához vezetett
– írta közleményében a Facebook infrastruktúráért felelős alelnöke, Santosh Janardhan.
A BGP a border gateway protocol elnevezést takarja, olyan routereket, amelyek nagyobb hálózatok közötti adatcsomagok irányítását végzik. Ha ezek nem működnek, az internet nagyobb szolgáltatók hálózataiból álló szigetekre esik szét. A hálózatok folyamatosan változnak, de mivel az adatcsomagoknak így is el kell jutniuk a rendeltetési helyükre, a routerek megosztják egymással az új címeket, hogy új útvonalakat tervezhessenek. Ha ez utóbbiba hiba kerül, az végigvonul a rendszeren.
Aki próbált már útvonalat tervezni, az tudja, hogy a különböző helynevek, körülmények, fizetős utak, a legrövidebb-leggyorsabb optimalizáció igen bonyolulttá teheti a folyamatot. A hálózaton is hasonlóan bonyolult a helyzet, az algoritmusnak nagyon sok különböző megfontolás alapján kell döntenie az optimális útvonalról (például hálózati költségek alapján).
A Facebook maga építette BGP-rendszerét, ami az adatközpontjaik közötti információmozgást irányítja, és ugyanakkor gyorsan frissíthető. A szakértők szerint egy ilyen rutinszerű frissítés során ment félre valami. A Cloudflare technikai vezetőjének magyarázata szerint hirtelen nagyon sok frissítést látott, amelyek az útvonalak törléséről szóltak.
A leállás azért húzódott el, mert Facebook mérnökeinek az adatközpontokban személyesen kellett javítaniuk a hibát, miközben a többi alkalmazott céges beléptetőrendszer hiányában Outlookon levelezve próbált kommunikálni, a Google Docs és a Zoom helyett pedig az Apple FaceTime-ot és a Discordot használták.
A közösségi háló viselt ügyeivel kapcsolatos, küszöbön álló kongresszusi meghallgatás miatt felmerül a szándékosság kérdése, de ezt nehéz bizonyítani, mivel az IT-osztály egyik tagjának szerencsétlen hibája ugyanúgy boríthatta a rendszert.