DNS-Ausfall 21.3.2024 bis 23.03.2024

Am Donnerstag, 21.3.2024 überraschte uns unsere Systenüberwachung, dass viele unserer Dienste nicht von extern verfügbar waren. Die Ursache war letztlich, dass die DNS-Namenseinträge für die Domains und Subdomains unserer Dienste nicht auflösbar waren, die Dienste an sich (also die virt. Maschinen sowie Webservices) erfolgreich im Hintergrund weiterliefen. Die DNS-Einträge für z.B. os4x.com, seon.de oder c-works.de sind bei unserem Hoster Server4you hinterlegt. In der WHOIS-Datenbank werden die genutzten DNS-Einträge gespeichert, und diese DNS-Server (welche bei Server4you betrieben werden) waren nicht erreichbar. Wir haben direkt versucht den Hoster telefonisch zu erreichen, jedoch ohne Erfolg: „kein Anschluss unter dieser Nummer“, „besetzt“: keine Möglichkeit den Support zu erreichen. Mails an den Hoster wurden nicht zugestellt, da deren Mailserver auch offline war, sowie deren eigene Domain server4you.de keine Namensauflösung für den Mailserver bereithielt (der Nameserver war nicht verfügbar, der den MX-Record hätte liefern sollen). Da die Homepage des Hosters auch nicht verfügbar war, war die Lage sehr unklar. Durch Recherchen via X/Twitter konnten wir herausfinden, dass am selben Server-Standort mehrere Hoster ihren Platz haben (z.B. Plusserver, iNetSolutions, GoDaddy), das 2015 bezogene „Datadock“-Rechenzentrum (interessant: nur 7 Gehminuten vom 2022 abgebrannten OHV-Standort entfernten) weist eine kritische Situation auf, es wurde über Wassereintritt spekuliert.

Am Morgen des 22.3. um 7:47 Uhr wurde von Plusserver verkündet, es gäbe ein Problem in einem Batterie-Raum. Nachmittags um 14:51 verkündete der Rechenzentrums-Betreiber, es gab am Donnerstag-Morgen einen kleinen Brand im Batterie-System, die Server sind unbeschadet, die Stromversorgung temporär ausgefallen, man arbeite an der Wiederherstellung der Stromversorgung. Dies zog sich bis ins Wochenende hin.

Am Samstagvormittag, 23.3. konnte der Betreiber Server4you wieder telefonisch erreicht werden, jedoch ohne technischen Support, man müsse sich gedulden. Ein Eskalations-Management gäbe es nicht, auch keine Möglichkeit höhere Stellen zu kontaktieren. Auf unser Drängen wurde ein Kontaktversuch aufgenommen, dass unsere Domaineinträge für wenigstens die wichtigsten Dienste umkonfiguriert werden, wir hatten am Freitag schon Cloudflare als mögliche Alternative für DNS-Dienste auserkoren und Vorbereitungen getroffen. Dieser Vorschlag wurde am Samstag bis 20:37 Uhr von Server4you durch Änderung der WHOIS-Datenbank umgesetzt, sodass wir manuell alle Domains und Subdomains bei Cloudflare wieder aufsetzen konnten. Am Sonntag, 24.3. war dies bis um ca. 13 Uhr durchgeführt, sodass alle Dienste wieder über die DNS-Server von Cloudflare erreichbar sind und alle Kunden arbeitsfähig werden.

Wir haben aus diesem Vorfall gelernt, dass es keine versprochene Redundanz gibt (egal bei welchem Provider) und werden für zukünftige kritische Situationen geeignete Backup-Maßnahmen vorbereiten. Die Kommunikation während dieses Ausfalls war nicht möglich (weder unsere eigene noch die von Server4you), wir haben eine an einem weiteren Serverstandort gehostete Statusseite für Sie eingerichtet: https://www.c-works-status.com.

Server4you arbeitet derzeit noch an der Wiederherstellung der Stromversorgung (derzeit muss ein 19to schweres Kabel per LKW geliefert werden, das wegen Sonntagsfahrverbot erst heute geliefert werden kann; Details sh. https://www.server4you.de). Andere Firmen wie Plusserver haben den Standort eilig verlassen und verluden Ihre Server per LKW nach Köln (sh. https://status.plusserver.com/incidents/s6lzkwsc3tbj).

Für technische Details stehen wir Ihnen gerne zur Verfügung, wir versuchen Ihnen alles zu erklären und hoffen, dass der Ausfall keinen elementaren Schaden bei Ihnen hinterlassen hat. Maßnahmen wie autom. stündliches Abholen zur Verfügung gestellter Dateien per OFTP2 haben bei den von uns gehosteten System wenigstens für etwas Entspannung gesorgt.