Hinweis: Der Vorfall bei OVH in Strasbourg ist noch keine Woche alt. In diesem Beitrag haben wir uns große Mühe gegeben, zwischen Fakten, Vermutungen und unserer eigenen Meinung zu unterscheiden. Noch immer gibt es viele Unklarheiten, insbesondere auch zur Brandursache. Wir haben sämtliche Informationen, soweit wie möglich, mit Belegen versehen, sodass eine eigene Meinungsbildung möglich ist.
Tobi & Fiete
In der Nacht vom 10. März 2021 brach im OVH-Rechenzentrum SGB2 in Strasbourg ein Feuer aus. Man würde erwarten, dass das in Rechenzentren mit ihren ausgeklügelten Brandmelde- und Bekämpfungsanlagen nichts Dramatisches sein sollte: häufig werden beispielsweise feuerbeständige Materialien mit einer Brandfrüherkennung und einer Gaslöschanlage kombiniert, welche innerhalb kürzester Zeit die Raumluft mit einem nicht-brennbaren Gasgemisch ersetzt. In diesem Fall fraß sich der Brand jedoch rasch durch alle Stockwerke und vernichtete das komplette Gebäude. Über 10.000 Server in SGB2 und SGB1 wurden Raub der Flammen, außerdem mussten die Gebäude SBG3 und SBG4 aufgrund der Löscharbeiten stillgelegt werden. OVH als günstiger Anbieter für dedizierte Server und Cloud-Produkte wird gerne von Resellern aller Art als Infrastrukturanbieter genutzt, die wiederum Dienstleistungen an Privatpersonen, kleinere Betriebe und Agenturen anbieten. Viele davon dürften bisher selten bis nie Backups gemacht haben, wodurch der Brand umso verheerendere Auswirkungen haben dürfte. Insgesamt sollen durch den Vorfall 3,6 Millionen Websites auf mehr als 460.000 Domains betroffen sein.
In diesem Beitrag wollen wir einmal zusammentragen, was für Faktoren dafür gesorgt haben könnten, dass es zu diesem verheerenden Unglück kam, was wir daraus lernen können und wie dieser Brand vielleicht auch in Zukunft den Bau von Rechenzentren beeinflussen könnte.
Wer ist OVH?
OVH ist ein französischer Betreiber von weltweit 31 Rechenzentren mit mehr als 380.000 Servern und einem Glasfasernetz mit einer Gesamtkapazität von über 20 TBit/s. Mit über 2.200 Mitarbeitenden wurde 2019 ein Umsatz von über 600 Mio. Euro erzielt. OVH bietet viel “unmanaged” Produkte an, d.h. die Kunden sind bei der Nutzung der meisten Angebote selbst für sämtliche Software (inkl. Backups) verantwortlich. Der Anbieter kümmert sich ausschließlich um die Bereitstellung und den Betrieb der Hardware.
Was wir bislang wissen
Das Rechenzentrum am Standort Strasbourg wurde 2013 nach dem Vorbild des Rechenzentrums am Hauptsitz Roubaix errichtet. Es besteht mittlerweile aus 4 Gebäuden – SBG1 bis SBG4. Wie beim RBX4 wurde dabei für das Gebäude SBG2 eine Konstruktion aus Holz und Stahl und einer äußeren Blechverkleidung gewählt. Im Unterschied zum Standort Roubaix wurde in Straßburg ein Doppelturm gebaut, laut eigenen Angaben um die Stabilität im Falle eines Erdbebens zu erhöhen. Im Bild sieht man auch ein Innenskelett aus Stahl, welches wohl ebenfalls dem Zweck der Stabilität dient und auf Bildern von RBX4 nicht vorhanden ist. Insbesondere die Böden und Decken wurden dabei offenbar aus Holz hergestellt.
Neuartig für ein Rechenzentrum war schon in Roubaix die Wahl als sechs- bis siebentöckiges Gebäude in Ringform. Die Breite des Gebäuderings wurde dabei gerade so gewählt, dass nebeneinander eine Reihe an Server-Racks und ein Gang für Mitarbeitende Platz hatte. Die Innenseiten Richtung Hof wurden dabei mit einer Vielzahl an Radiatoren versehen, um die entstende Wärme Richtung Innenhof abzuführen. Dort sollte offenbar ein Kamineffekt entstehen, der die Wärme nach oben abführte (vgl. Video 1:45). Auf allen sechs Etagen konnten somit ca. 600 Racks untergebracht werden – Platz für maximal ca. 12.000 Server. Zum Einsatz kam auch das von OVH schon länger verwendete Konzept, die einzelnen Server über selbst konzeptionierte Wasserkühlungen zu kühlen. Ziel sollte offenbar sein, durch Außenluft ein günstiges Temperaturmanagement zu erzielen und den knapp bemessenen Platz auf der Halbinsel am Rhein möglichst effizient zu nutzen. Durch die besondere Architektur und die Wasserkühlung der Server konnte somit ein PUE-Wert (Power Usage Effectiveness) von 1,1 erreicht werden, das heißt dass pro 100 W Stromverbrauch durch Server nur zusätzliche 10 W für die Kühlung benötigt werden. Andere Rechenzentren mit weniger optimierter Kühlung haben PUE-Werte von 1,35 – 1,5, es werden pro 100 W Leistung also 35 – 50W für die Kühlung benötigt.
Ein Tweet von 2013 lässt vermuten, dass die zentrale Stromversorgung für das Rechenzentrum im Erdgeschoss des Turminneren steht. Satellitenaufnahmen zeigen, dass das Erdgeschoss im Innenhof überdacht ist und große Lüftungsrohre aus dem Dach ragen. Bilder von 2014 zeigen die Erweiterung der Stromversorgung durch einen zusätzlichen Transformator im äußeren Bereich des Erdgeschosses. Daraus lässt sich schließen, dass potentielle Brandursachen zentral im Erdgeschoss untergebracht waren und sich ein dort entzündetes Feuer leicht auf die darüber befindlichen Stockwerke nach oben ausbreiten könnte.
Als Nachteil dieser Konstruktion musste dadurch auf einige Möglichkeiten des Brandschutzes verzichtet werden: So lässt die Außenluftkühlung keine CO2-Löschanlage zu und die kompakte Bauweise lässt sich kaum in einzelne Brandabschnitte unterteilen. Ein Forumsbeitrag von April 2013, welcher von einem Mitarbeiter des französischen Konkurrenten online.net (mittlerweile Scaleway) geschrieben wurde, kommt zu folgendem Schluss:
Offenbar wurde genau diese Konstruktionsweise für OVH nun zum Verhängnis. Durch noch unbekannte Ursache brach gegen 1 Uhr nachts ein Feuer aus – Mutmaßungen zufolge könnte eine USV, welche am Vortag noch vom Hersteller gewartet wurde, für den Brand verantwortlich gewesen sein. Binnen kurzer Zeit geriet das Feuer außer Kontrolle, durch die starke Rauchentwicklung musste sich die Feuerwehr bald aus dem Inneren zurückziehen. Insgesamt waren 100 Feuerwehrfrauen und -männer mit über 40 Fahrzeugen vor Ort. Einige Design-Entscheidungen könnten zu dieser starken Ausdehnung geführt haben:
- Holz als Konstruktionsmittel für ein Gebäude, das u.a. kritischer Infrastruktur dient
- Frischluftkühlung mittels Radiatoren – Berichten zufolge wurden Server (und Radiatoren?) noch mindestens eine Stunde nach Ausbruch des Brandes weiterhin mit Strom versorgt. Die Radiatoren könnten eine Beschleunigung des Brandes bewirkt haben.
- Der Rundbau mit Kamineffekt könnte auch hier den Brand verstärkt haben, da so immer frische Luft nachgezogen wurde und er sich einmal angefacht nicht mehr abstellen lässt.
- Die Kompakte Bauweise der Gesamtanlage erschwert es, die Brandbekämpfung auf einzelne Bereiche zu beschränken, sodass auch die anderen Gebäude SBG3 und SBG4 vorübergehend stillgelegt und gekühlt werden mussten.
Wie ist der aktuelle Stand
Octave Klabe, CEO von OVH, veröffentlichte am 11. März ein detailliertes Statement mit den aktuellen Informationen als Video auf Twitter. Kommende Woche sollen die Rechenzentren SBG1, SBG3 und SBG4 wieder hochgefahren werden, nachdem die zerstörte 20KV-Versorgung grunderneuert wurde. Für Kunden aus SBG2 werden an anderen Standorten über 10.000 neue Server in Betrieb genommen.
Was können wir aus dem Vorfall lernen?
Dieser Vorfall zeigt natürlich, dass Backups generell nie eine schlechte Idee sind. Daneben gibt es jedoch noch ein paar weitere Aspekte, die eine Betrachtung wert sind:
- Die Cloud ist nicht unfehlbar! Selbst wenn Anbieter eine Verfügbarkeit von 99,999% versprechen, eine lange Liste an Sicherungsmaßnahmen und Redundanzen vorweisen können und eine bunte Sammlung an Zertifizierungen ihr Eigen nennen können, ist das trotzdem keine absolute Sicherheit (die es bei egal welcher Maßnahme ohnehin nie geben kann!).
- Backup ist nicht gleich Backup! Bei Frachtwerk sind wir gebrannte Kinder, was Serverausfälle, Datenverlust und Backups betrifft und haben – hoffentlich – schmerzhaft daraus gelernt. Seitdem wir 2020 ca. 95% unserer Infrastruktur verloren haben, sind wir sehr sorgfältig geworden, was unsere Backups betrifft. Daher haben wir uns dazu entschlossen, Backups georedundant und provider-unabhängig zu erstellen. Unseren präferierten Anbieter für die Speicherung von Borg-Backups konnten wir damit nicht wählen, da er ebenso wie unser Serveranbieter auf der Infrastruktur von Hetzner aufbaut. Unsere Wahl ist daher auf ein Rechenzentrum in den Niederlanden gefallen. Darüber hinaus hoffen wir, durch Backups auf mehreren Ebenen (Full-Disk, Dateien, Anwendungsexporte) und mit unterschiedlichen Technologien gut für die Zukunft gewappnet zu sein.
- Datenverluste sind nicht das einzige Risiko! Eine Herausforderung vieler OVH-Kunden war, dass die Backup-Speicher, die durch OVH zur Verfügung gestellt wurden aus Sicherheitsgründen nur von der IP-Adresse des primären Servers (Quelle?) erreichbar waren. Da der primäre Server aber ein Raub der Flammen wurde, waren somit auch die Backups über längere Zeit nicht erreichbar. Es lohnt sich also auch als Agentur oder kleine Firma, eine Risiko-Analyse durchzuführen und gedanklich mal die unterschiedlichen Bedrohungen und ihre Folgen durchzuspielen! Das können Datenverluste, aber auch unerreichbare Server, Netzwerkprobleme, ungewollte Veröffentlichungen vertraulicher Daten und vieles mehr sein.
- Es ist sinnvoll, einen Plan zu haben! Genauso wichtig wie die Risikobetrachtung ist es, für die unterschiedlichen Szenarien funktionierende Desaster-Recovery-Pläne zu haben, die beschreiben, wer wann was zu tun hat, um wieder arbeitsfähig zu werden. Je nach Ausmaß des Schadens geht unter Umständen wertvolle Zeit verloren, wenn erst eine Strategie zur Schadensbekämpfung entwickelt werden muss. Desaster-Recovery-Pläne lassen sich zudem meist gut mit Mitarbeitenden üben, damit im Ernstfall niemand vom Ausmaß der Situation überrascht ist.
Wie könnte der Vorfall Rechenzentren in der Zukunft verändern?
Als Reaktion auf diesen Vorfall werden sicherlich viele Rechenzentrumsbetreiber die Sicherheit ihrer eigenen Rechenzentren überprüfen und gegebenenffalls überarbeiten – schließlich dürfte schon alleine der Imageverlust für OVH immens groß sein.
Eine von vielen Maßnahmen wird vermutlich sein, vermehrt auch schon in Früherkennung von Bränden zu investieren, um Brände nach Möglichkeit schon punktuell kurz nach Entstehen bekämpfen zu können. Sollte sich der Verdacht, dass eine defekte Batterie-USV den Brand ausgelöst haben sollte, wäre auch denkbar, unter Berücksichtigung der Gesamtkosten nur kleine Teile eines Rechenzentrums (die sich aber schwer mit Wasser löschen lassen) mit Gaslöschanlagen zu versehen. Je nach Lage wird es sich gegebenenfalls auch anbieten, Rechenzentren noch deutlich stärker zu entzerren, sodass einzelne Module (Stromversorgung, Notstrom, Racks, Klima) sich im Brandfall nicht gegenseitig beeinträchtigen oder Brände erschwert auf andere Bereiche übergreifen (unserer Einschätzung nach scheint das im Fall von SBG2 aber aufgrund der Lage kaum möglich zu sein). OVH wird sicherlich auch die Ringbauweise auf den Prüfstand stellen, da der eigentlich hilfreiche Kamineffekt im Brandfall schnell zum Verhängnis werden kann, wenn er sich nicht mehr eindämmen lässt. Die Turmbauweise erinnert damit auch ein wenig an eine mögliche best pracise zum Anfeuern von Kaminholz.
Bezüglich der Reseller und deren Kunden wird vermutlich klarer geworden sein, dass ein Infrastrukturanbieter wie OVH keine 100-prozentige Datensicherheit bieten kann und ein eigenes Backup-Konzept in jedem Fall notwendig ist. Vielleicht wird auch bei Kunden präsenter, dass ein Snapshot vor Ort im selben Rechenzentrum kein Backup darstellt.
Eine Überlegung wert ist sicherlich auch die Frage, ob die Klimatisierung der beste Ort ist, um Geld zu sparen. Vielleicht wird durch diesen Brand der Fokus nochmals mehr Richtung effizienterer Prozessoren oder klimaeffizienter Software gelenkt. Bisher wird die Effizienz von Software kaum beachtet, doch das könnte sich zunehmend ändern, wie hier auf dem 36C3 beleuchtet. Möglicherweise richtet sich die Abrechnung von Servernutzung eines Tages ja mal mehr nach dem tatsächlichen Energieverbrauch, um den Kühlungsaufwand finanziell besser kompensieren zu können!
Titelbild: ovh.com
basti
14. März 2021Interessant ist auch der Bau der weiteren Rechenzentren in RBX siehe https://lafibre.info/ovh-datacenter/data-center-ovh-roubaix-4/
Das RZ SBG3 hat eine Außenhülle aus Beton und ist wohl deshalb nicht mit abgebrannt. Siehe https://twitter.com/olesovhcom/status/866744201366691840
Fiete
14. März 2021ja ein paar Infos von RBX4 haben wir hier zum Vergleich herangezogen, da die Bauweise offenbar recht ähnlich zu sein scheint.
Mich würde durchaus interessieren, warum man für SBG3 doch wieder eine konventionelle Bauweise gewählt hat – ist man sich der Risiken bewusst geworden? Und interessant wäre auch zu wissen, wie viel Probleme OVH mit Staub in RBX4 hat!