Zum Inhalt springen Weiter zur Suche
Testversion
Blog

Der Facebook-Ausfall war kein DDoS-Angriff, aber er wirft ein Schlaglicht auf die Planung der digitalen Resilienz

Der gestrige, nicht gerade unauffällige Ausfall von Facebook, Instagram und WhatsApp, der sich auch auf andere Websites und Plug-ins auswirkte, hat uns daran erinnert, wie wichtig die digitale Ausfallsicherheit für eine erfolgreiche Online-Präsenz ist. Dies ist auch eine Mahnung für jede Organisation, einschließlich der Netzwerke von Dienstleistern und der Anbieter von Colocation, Rechenzentren oder Hosting, die zunehmend kritische Anwendungen und Infrastrukturen beherbergen.

Der Ausfall dauerte am Montag, dem 4. Oktober, etwa sechs Stunden und hatte Berichten zufolge auch Auswirkungen auf interne Systeme, die offenbar von den Ressourcen des Ausfalls abhängig waren, einschließlich des Zugangs zu den physischen Facebook-Anlagen. Adam Mosseri von Instagram verglich den Ausfall mit einem "Schneetag" für Facebook-Mitarbeiter, da sie effektiv nicht arbeiten konnten.

Die Auswirkungen auf das Geschäft waren eindeutig und zeigen die Folgen der mangelnden Widerstandsfähigkeit. Es wurden u. a. folgende Punkte berichtet:

  • Morningstar berichtet, dass die Facebook-Aktie um 4,9 Prozent gefallen ist und über 40 Milliarden Dollar an Marktkapitalisierung verloren hat
  • In demselben Artikel heißt es, dass dies einen Einnahmeverlust von 164.000 Dollar pro Minute bedeutet
  • Marken- und Vertrauensverlust (und potenzieller Gewinn der Konkurrenz, z. B. Twitter)
  • DownDetector meldete über 14 Millionen Probleme, die aufgrund von Kaskadeneffekten gemeldet wurden
  • Die wirtschaftlichen Auswirkungen über Facebook selbst hinaus sind natürlich weitaus größer

Ausfälle können durch viele Dinge verursacht werden. Eine der ersten Diskussionen innerhalb der A10 war, ob es sich um einen DDoS-Angriff handelte. Diese Frage wurde auch von externen Parteien gestellt. Die Website war nicht erreichbar, die Server reagierten nicht, es gab nicht einmal eine Fehlerseite, also könnte es sein. Das A10-Sicherheitsforschungsteam konnte jedoch keine ungewöhnlichen Aktivitäten auf unseren Honeypots oder anderen Überwachungssystemen feststellen, bemerkte aber die DNS- und BGP-Probleme. Dies deutet darauf hin, und wurde gestern spät bestätigt, dass zentrale Infrastrukturprobleme den Ausfall verursacht haben. Facebook sagte gestern:

"Unsere Ingenieurteams haben festgestellt, dass Konfigurationsänderungen an den Backbone-Routern, die den Netzwerkverkehr zwischen unseren Rechenzentren koordinieren, Probleme verursacht haben, die diese Kommunikation unterbrochen haben. Diese Unterbrechung des Netzwerkverkehrs hatte einen kaskadenartigen Effekt auf die Art und Weise, wie unsere Rechenzentren kommunizieren, und brachte unsere Dienste zum Stillstand."

Wenn Sie mehr lesen möchten, finden Sie bei ThousandEyes einen technischen Artikel über den Ausfall, der die DNS- und BGP-Details abdeckt, während KrebsOnSecurity ebenfalls eine detaillierte Zusammenfassung bietet.

Ausfälle werden passieren, egal wie gut wir planen. Das ist eine Tatsache, mit der IT-Experten immer zurechtkommen müssen. Die Herausforderung, vor der wir stehen, besteht darin, dieses Risiko so weit wie möglich zu minimieren und wie wir in Krisenzeiten reagieren. Auch wenn nicht alle Maßnahmen speziell auf den Facebook-Ausfall zutreffen, gibt es doch einige bewährte Verfahren:

  • Entscheidungen und Pläne zur Minderung der größten Risiken treffen
  • Informieren Sie sich darüber, welche Cybersicherheitsdienste, wie z. B. DDoS-Schutz, Ihr Rechenzentrumsanbieter anbietet.
  • Erstellen Sie einen internen Plan, wie und wen Sie einbeziehen und benachrichtigen, sowie einen externen Kommunikationsplan
  • Entwicklung von Ausfallsicherungsplänen für die gesamte Infrastruktur und Beseitigung einzelner Ausfallsicherungspunkte, z. B. durch globalen Server-Lastausgleich und andere Techniken
  • Sicherstellen, dass Sicherheitssysteme vorhanden sind, die sowohl Anomalien überwachen als auch schändliche Aktivitäten eindämmen
  • Eliminierung menschlicher Fehler durch Automatisierung und prozessorientierte Kontrollen und Abgleiche

Die Betonung der digitalen Widerstandsfähigkeit, sowohl bei der Technologie als auch bei der Planung, wird zu einem immer wichtigeren Thema. Und dies wird durch Beispiele wie den Facebook-Ausfall noch verstärkt. Er führt uns die Auswirkungen von Ausfallzeiten deutlich vor Augen.

Ich bin mir sicher, dass das interne Facebook-Team, das mit der Behebung dieses Ausfalls betraut ist, gestern keinen "Schneetag" hatte.



Paul Nicholson
|
Oktober 5, 2021

Paul Nicholson verfügt über 24 Jahre Erfahrung in der Arbeit mit Internet- und Sicherheitsunternehmen in den USA und Großbritannien. In seiner jetzigen Position ist Nicholson verantwortlich für die globale... Mehr lesen