Post Mortem: Störung der Erreichbarkeit durch Firewalls
Analyse und Mitigation
Montag, 29.01.2024, Vormittag
Am 29.01.2024 gegen 9:30 hat unser Monitoring flappende Verbindungen zu unseren Geräten in den Peering- und Transit-Colocations Frankfurt und Hamburg gemeldet. Eine erste Analyse zeigte keine Auffälligkeiten.
Kurze Zeit später häufen sich die Meldungen zu Störungen beim Verbindungsaufbau. Wir vermuten Probleme mit den Peers/Transitpartnern in Hamburg oder Frankfurt, deaktivieren die Strecken im Wechsel und prüfen die Routenpropagierung, stellen soweit allerdings keine Unstimmigkeiten fest.
Zu einem späteren Zeitpunkt beobachten wir einen nicht komplett reproduzierbaren Packet Loss, den wir auch von unseren externen Monitorings nachstellen können. Aufgrund des Fehlerbildes vermuten wir weiterhin einen Fehler im Bereich des Routings.
Nach Prüfung und Sichtung vergangener Anpassungen stellen wir weiterhin keine Fehlkonfiguration des Routings fest. Beide Strecken sind wieder aktiv (Ausgangszustand), die Erreichbarkeit von außen ist zu diesem Zeitpunkt unterbrochen. Wir weiten die Suche auf die periphären Netzwerkkomponenten aus, obwohl das Fehlerbild hierfür sehr unspezifisch ist.
Da weiterhin Ausfälle vorkommen, erweitern wir den Radius unserer Fehlerquellensuche. Wir starten beide Clusterkomponenten unserer Firewall neu. Nach dem Neustart sind alle Seite wieder erreichbar.
Gegen frühen Nachmittag stellen wir erneute steigenden Packet Loss bis hin zur Nichterreichbarkeit fest. Wir prüfen die Geräte weiterhin ohne Befund. Wir beobachten allerdings, dass die Geräte im Cluster nach einem Neustart korrekt funktionieren, ehe sie nach einigen Minuten erneut beginnen, Traffic nicht weiterzuleiten. Wir lösen das Cluster auf und sind ab 15:15 wieder stabil erreichbar.
30.01.2024, früher Morgen
Das Fehlerbild des Vortags zeigt sich erneut. Wir beobachten diffusen Packet Loss, bis der Traffic vollständig zum Erliegen kommt. Wir schwenken auf das (seit gestern passive) Ersatzgerät ohne Clustering und stellen die Erreichbarkeit wenig später wieder her.
Maßnahmen und Behebung
Die Ursache der Störungen vermuten wir in einem laufzeitbedingten Softwarefehler der Geräte unseres Firewall Clusters. Diese tauschen wir nun aus. Ersatzhardware eines anderen Herstellers ist bereits vor Ort, sodass wir umgehend starten. Wir binden die Geräte derzeit netzwerkseitig ein, um ggf. sehr kurzfristig auf die neue Hardware schwenken zu können.
Update (08.02.2024):
Die Störung der Hardwarekomponenten auf Ebene der Firewalls wurde am 30. Januar behoben und die Erreichbarkeit der Webprojekte damit sichergestellt. Parallel liefen die Vorbereitungen für den finalen Hardwareaustausch. In der Nacht zum 1. Februar konnten wir den Austausch der Hardwarekomponenten in einem ersten Teilbereich unserer Netzwerkarchitektur durchführen. Nachdem das Monitoring in den darauffolgenden Tagen positive Ergebnisse ergab, wurde die Umstellung der noch ausstehenden Netzbereiche eingeleitet. Diese Wartung haben wir auf zwei Nächte aufgeteilt. So wurde ein weiterer Teilbereich in der Nacht zum 7. Februar und die letzten Netzbereiche in der darauffolgenden Nacht umgestellt. Seit den frühen Morgenstunden des 8. Februar läuft der gesamte Traffic unseres Netzwerkes auf den neuen Hardwarekomponenten.
Kommentare
So können wir auf Kundenseite(Admins) wenigstens einen Analyse auf technischer Ebene mitverfolgen und nachvollziehen und entsprechend kommunizieren.
mfg YE
Darf man noch erfahren welchen Hersteller ihr einsetzt? Also alte Router sowie auch neue Router?
danke für deine Nachfrage. Wir geben grundsätzlich keine Informationen zu verwendeter Hardware nach außen. Vielen Dank dein Verständnis und viele Grüße
Katarina
Aber im vergleich zu anderen Hostern habt ihr ganz schön massive Probleme seit 2018, bei den derartigen Preisen erwartet man wirklich was anderes.
das sehe ich auch so!
Solche Probleme hat selbst der Billighoster Netcup nicht. Wenn das so weiter geht werde ich mein Pakt umziehen.
Ob das jetzt bei anderen Hostern mit Fehlern in dem Ausmaß auch passiert, kann ich nicht sagen. Für uns jedenfalls ist der Schaden als kleine Agentur sehr groß, wenn alle unsere Kundenseiten, E-Mails und unsere automatisierten Dienste nicht funktionieren.
Mit Angeboten für Kunden wie z.B. Netflix brauchen wir mehr Sicherheit bei Euch!
Das Problem ist die Länge der Ausfälle. Wenn irgendwas mal eine Stunde steht hat da jeder Verständnis für, wir Agenturen und auch unsere Kunden. Wenn aber Firmen gefühlt den ganzen Tag keine Mails verschicken können, der Internetauftritt bei der wichtigsten Messe im Jahr den ganzen Tag nicht aufrufbar ist und ich nicht mal Zugriff auf die DNS habe um Plan B zu aktivieren, hat das Konsequenzen für uns und wir verlieren Kunden.
Ich würde mir wünschen, wenn Ihr anstatt den Fokus auf neue Produkte und wie Ihr mehr Geld verdienen könnt, jetzt erstmals eure Prozesse dahingehend analysiert wie Ihr längere Ausfallzeiten von mehr als einer Stunden verhindern könnt, indem Ihr für mehr Redundanz sorgt.
Das liegt tatsächlich in der Eigenverantwortung der Agentur. Es ist unumgänglich, dass Serverausfälle vorkommen können und auch werden. Aus diesem Grund entscheide ich mich stets dafür, die Hosting-Dienste für Webseiten und die Dienste für Domänen sowie E-Mails bei unterschiedlichen Anbietern zu nutzen. Ich würde dir auch raten, diese Strategie zu verfolgen. So wird im Falle eines Ausfalls bei einem der Anbieter entweder die Webseite oder die E-Mail-Funktion beeinträchtigt, aber niemals beide gleichzeitig. Allerdings muss man bedenken, dass jeder Anbieter seine eigenen Herausforderungen mit sich bringt. Beispielsweise erlebt HostEurope derzeit ernsthafte Schwierigkeiten, nachdem sie von einem amerikanischen Unternehmen übernommen wurden, welches umfassende Systemänderungen vornimmt – und das leider oft zum Nachteil. Trotzdem gibt es auch Verbesserungen in manchen Bereichen.
Hauptsächlich im Mailserver Bereich in der Vergangenheit ständig Probleme und nun dieses Desaster...
Kurz: pissed!
Ich bin soweit gut zufrieden mit Mittwald, Verbesserungspotential gibt es natürlich immer, ich bin mir sicher, dass Mittwald aus den neuen Ausfällen Lehren ziehen wird für die Zukunft und den Service und die Erreichbarkeit noch mal verbessern.
Da wir alle unsererseits betreuten Websites im Rahmen unseres Services via Uptime-Tools monitoren, kann ich sagen, das Anbieter wie z.B. IONOS deutlich häufiger Ausfälle haben. Andererseits ist es, wie in diesem Thread bereits geschrieben wurde, schon so, dass diese Ausfälle i.d.R. recht kurz sind (5-45min., meist nicht mehr als eine halbe Stunde).
Nach absolut perfekten Jahren mit mittwald hatten wir zuletzt ein massives Dilemma mit einem 1. mStudio-Versuch. Letztlich mussten wir komplett zurückrudern, wobei der Support das komplette Kundenprojekt zurück in die 'alte Welt' portierte und uns somit maximal entgegenkam. Sehr gutmütiger A-Kunde und daher trotz einigem Wirbel nochmal gutgegangen.
Relativ kurz darauf nun diese 2-Tages-Ausfall-Attacke über den gesamten Agenturserver hinweg - das war richtig hart. Gerade mit einem größeren Projekt in der Pre-Launch-Phase, was gar nicht gut kam. Auch gerade weitere Bestandskunden nach mw umgezogen - die statt mit "Premium Hosting" (stimmt ja für gewöhnlich auch absolut!) mit Totalausfall begrüßt wurden. Peinlich.
Das kratzt schon am Vertrauen in Summe (da kann ich Jörg verstehen). Das mStudio hätte noch nicht live gehen dürfen und solche LANGEN Ausfälle müssen sicher verhindert werden. Wenn wir als Agenturen mit mittwald auf EINE Karte setzen, muss die Ausfallsicherheit einfach erhöht werden, weil da sehr schnell Arbeitsplätze und die Agentur selbst dran hängt, wie Florian geschrieben hat. Das ist dann nicht mehr witzig, sondern ganz schnell existenziell - egal ob für einen Mitarbeiter oder ein ganzes Unternehmen.
Erst Bestehendes optimieren, dann Neues schaffen. Und nicht Beta releasen (s. mStudio).
Bitte, liebes mittwald-Team, nehmt Euch das zu Herzen, denn Ihr nehmt mit Agenturserver & Co. große Verantwortung auf Euch, an der letztlich Existenzen hängen (s. nochmals Florian, Marcus & Co.).
dem kann ich nur komplett zustimmen. Wir bezahlen auch seit dem Start vom mStudio im Grunde nur fürs Testen ...
obwohl die Kommunikation in den vergangenen Jahren besser geworden ist. Würde ich mir wünschen das die Agenturserver Kunden, proaktiv über einen Ausfall informiert werden und wir unsere Kunden aktiv informieren können, und nicht erst bei der ersten Down Meldung des Kunden - der schon mehr weiß als wir !
Was mir allerdings unklar ist: Wie kommt es denn zu einem "laufzeitbedingten Softwarefehler der Geräte", und wie kann das zukünftig vermieden werden? Welche Schritte unternehmt ihr hinsichtlich Redundanz und Verkürzung der Ausfallzeiten?
Und eine Sache würde ich mir von eurer Seite in solchen Fällen wünschen: Einen kurzen Textbaustein, der in einfachen Worten erklärt, was los war – denn meine Auftraggeber*innen kann ich ja kaum hier auf diesen Blogeintrag verweisen, den versteht man ja nur mit entsprechendem Hintergrundwissen.
Und zu guter Letzt: Ging zu diesem Post Mortem eine Mail an eure Kund*innen raus? Ich habe m.E. keine bekommen. Hier könntet ihr noch etwas proaktiver kommunizieren – und ein Wort des Bedauerns würde dabei sicherlich helfen, den Unmut etwas zu besänftigen.
+1
Hallo zusammen, ja es wird oder wurde viel geschrieben. Ich bin nun auch schon einige Jahre bei Mittwald und kann mich im Großen und Ganzen nicht beschweren. Ja, es kann immer etwas sein, aber das ist doch heute überall und oft nicht einmal zu vermeiden, nimmt man alleine die Glasfaser, wir sind hier mit in der ersten Generation bei der Verfügbarkeit, ja das merkt man auch wie oft es da Ausfälle gibt. Ja, wir wollen alle nach Möglichkeit das alles läuft, aber es gibt jedoch auch Zeiten, wo dem nicht so ist. Was wäre, wenn es wirklich mal weltweit einen Totalausfall gäbe?