·

Weltweite Ausfälle: Cloudflare sorgt für Großausfall

CloudFlare Logo

Die Großausfälle häufen sich: Diesmal hat es Cloudflare getroffen. Mit in den Abgrund gerissen wurden dabei Dienste wie ChatGPT, X, Stack Overflow und viele weitere große Dienste.

Was macht Cloudflare eigentlich?

Technisch gesehen ist Cloudflare eine Art Reverse-Proxy. Es steht damit zwischen den anfragenden Endnutzern (oder Diensten) und den eigentlichen Anwendungsservern. Aufgrund der weltweit verteilten Kapazität, der hervorragenden Netzanbindung und dem sehr guten Schutz gegen DDoS-Angriffe ist Cloudflare äußerst beliebt, wenn es darum geht, die eigenen Dienste hochverfügbar anzubieten.

Was passiert ist

Offenbar ist Cloudflare Opfer eines Bugs in den internen Systemen geworden.

Wie bereits beschrieben ist Cloudflare gerade wegen seines DDoS-Schutzes sehr beliebt. Damit es das auch leisten kann, muss es natürlich neben Lastspitzen und anderen Indikatoren möglichst zuverlässig erkennen, wann eine Anfrage von einem legitimen Nutzer und wann von einem bösartigen Bot kommt.

Die dazu notwendigen Daten werden bei Cloudflare in einer Datenbank vorgehalten, die dann in eine Konfigurationsdatei geschrieben werden. Diese Datei wird dann auf die einzelnen Knoten verteilt und dort verarbeitet.

Eine Berechtigungsänderung sorgte nun offenbar dafür, dass diese Datei mit unsinnigen und duplizierten Informationen überschwemmt wurde. Die einzelnen Knoten waren dann nicht mehr in der Lage die Datei zu verarbeiten – aufgrund ihrer schieren Größe.

Warum der Ausfall Stunden andauerte

Was erwartet ein solch spezialisierter Anbieter, wenn reihenweise die eigenen Systeme ausfallen? Genau – eine massive DDoS-Attacke. Das lag auch daher nahe, da erst wenige Tage zuvor andere Anbieter massiv von solchen Attacken getroffen wurde.

In der Folge suchte man zunächst eine ganze Weile in der falschen Richtung, bevor man dann die eigentliche Ursache identifizieren und eliminieren konnte.

Das ist natürlich unglücklich gelaufen, aber gerade als IT-Dienstleister können wir das sehr gut nachvollziehen.

Was man daraus lernen kann

Es ist davon auszugehen, dass Cloudflare nicht nur die internen Systeme verbessern wird, um solchen Fehler vorzubeugen, sondern insbesondere das Monitoring verbessern wird, um dem eigentlichen Problem künftig schneller auf der Spur zu sein.

Interessanter aber ist, dass sich hier wieder einmal ein großes Problem der immer stärkeren Zentralisierung kritischer Systeme zeigt: Durch einen einzigen Fehler bei einem einzigen Anbieter fallen reihenweise Dienste aus.

Es gilt gerade diese Zentralisierung stärker zu hinterfragen. Es gibt natürlich auch andere Anbieter für derartige Dienste, aber offenbar verlassen sich selbst Branchen-Größen wie OpenAI hier auf einen einzigen Dienstleister. Im Sinne der Resilienz sollte diese Strategie dringend hinterfragt werden. Auch ein echter Angriff – das zeigt die Reaktion von Cloudflare – hätte das Potenzial den Dienst über Stunden und im Extremfall Tage ausfallen zu lassen.