Post Mortem: Störung der Erreichbarkeit durch Firewalls

|  (aktualisiert am 08.02.2024)

Am 29. und 30. Januar war die Erreichbarkeit unserer Systeme gestört. Was war los? Wie haben wir das Problem gelöst? Antworten findest du in diesem Post Mortem.

Analyse und Mitigation

Montag, 29.01.2024, Vormittag
Am 29.01.2024 gegen 9:30 hat unser Monitoring flappende Verbindungen zu unseren Geräten in den Peering- und Transit-Colocations Frankfurt und Hamburg gemeldet. Eine erste Analyse zeigte keine Auffälligkeiten.

Kurze Zeit später häufen sich die Meldungen zu Störungen beim Verbindungsaufbau. Wir vermuten Probleme mit den Peers/Transitpartnern in Hamburg oder Frankfurt, deaktivieren die Strecken im Wechsel und prüfen die Routenpropagierung, stellen soweit allerdings keine Unstimmigkeiten fest.

Zu einem späteren Zeitpunkt beobachten wir einen nicht komplett reproduzierbaren Packet Loss, den wir auch von unseren externen Monitorings nachstellen können. Aufgrund des Fehlerbildes vermuten wir weiterhin einen Fehler im Bereich des Routings.

Nach Prüfung und Sichtung vergangener Anpassungen stellen wir weiterhin keine Fehlkonfiguration des Routings fest. Beide Strecken sind wieder aktiv (Ausgangszustand), die Erreichbarkeit von außen ist zu diesem Zeitpunkt unterbrochen. Wir weiten die Suche auf die periphären Netzwerkkomponenten aus, obwohl das Fehlerbild hierfür sehr unspezifisch ist.

Da weiterhin Ausfälle vorkommen, erweitern wir den Radius unserer Fehlerquellensuche. Wir starten beide Clusterkomponenten unserer Firewall neu. Nach dem Neustart sind alle Seite wieder erreichbar.

Gegen frühen Nachmittag stellen wir erneute steigenden Packet Loss bis hin zur Nichterreichbarkeit fest. Wir prüfen die Geräte weiterhin ohne Befund. Wir beobachten allerdings, dass die Geräte im Cluster nach einem Neustart korrekt funktionieren, ehe sie nach einigen Minuten erneut beginnen, Traffic nicht weiterzuleiten. Wir lösen das Cluster auf und sind ab 15:15 wieder stabil erreichbar.

30.01.2024, früher Morgen
Das Fehlerbild des Vortags zeigt sich erneut. Wir beobachten diffusen Packet Loss, bis der Traffic vollständig zum Erliegen kommt. Wir schwenken auf das (seit gestern passive) Ersatzgerät ohne Clustering und stellen die Erreichbarkeit wenig später wieder her. 

Maßnahmen und Behebung

Die Ursache der Störungen vermuten wir in einem laufzeitbedingten Softwarefehler der Geräte unseres Firewall Clusters. Diese tauschen wir nun aus. Ersatzhardware eines anderen Herstellers ist bereits vor Ort, sodass wir umgehend starten. Wir binden die Geräte derzeit netzwerkseitig ein, um ggf. sehr kurzfristig auf die neue Hardware schwenken zu können.

Update (08.02.2024):

Die Störung der Hardwarekomponenten auf Ebene der Firewalls wurde am 30. Januar behoben und die Erreichbarkeit der Webprojekte damit sichergestellt. Parallel liefen die Vorbereitungen für den finalen Hardwareaustausch. In der Nacht zum 1. Februar konnten wir den Austausch der Hardwarekomponenten in einem ersten Teilbereich unserer Netzwerkarchitektur durchführen. Nachdem das Monitoring in den darauffolgenden Tagen positive Ergebnisse ergab, wurde die Umstellung der noch ausstehenden Netzbereiche eingeleitet. Diese Wartung haben wir auf zwei Nächte aufgeteilt. So wurde ein weiterer Teilbereich in der Nacht zum 7. Februar und die letzten Netzbereiche in der darauffolgenden Nacht umgestellt. Seit den frühen Morgenstunden des 8. Februar läuft der gesamte Traffic unseres Netzwerkes auf den neuen Hardwarekomponenten.

Ähnliche Artikel:

Weiße Schrift auf blauem Hintergrund: Post Mortem  - Störung im Cloud Hosting Storage am 31. Oktober und 4. November
mittwald

Post Mortem: Störung im Cloud Hosting Storage

Infos zum zeitlichen Verlauf, der Ursache und den Optimierungen nach den Erreichbarkeitsproblemen am 31.10. und 4.11.

mittwald Mitarbeiter im Kreis von Agenturmitarbeitern. Dazu weißer Text Agenturen zu Gast bei mittwald
mittwald

Let’s talk – Agenturen zu Gast bei mittwald

Was muss Hosting in Zukunft können? Welche Features wünschen sich Agenturen? Darüber haben wir uns mit 30 Agenturen ausgetauscht.

Text vor blauem Hintergrund: Post Mortem - Störung im Cloud Hosting am 27. September 2024
mittwald

Post Mortem zur Störung im Cloud Hosting Stack infolge eines DDoS

Am 27. September kam es zu einer Störung im Cloud Hosting infolge einer DDos-Attacke. Hier findest du alle Hintergrundinfos.

Schrift auf blauem Hintergrund: Post Mortem - Störung im Cloud Hosting am 20. September 2024
mittwald

Post Mortem: Störung im Cloud Hosting Stack

Informationen zur Störung und den DDoS-Attacken vom 20. - 22. September.

Schriftzug "It's a wrap" auf dem Logo von Head in the Cloud
mittwald

So war Head in the Cloud 2024

It’s a wrap! Kluge und inspirierende Köpfe auf einem Haufen. Hier gibt's alle Infos zum Event, inkl. Fotos und Aufzeichnung des Livestreams.

Kommentare

YE am
Danke sehr für die Transparenz, gerne weiter so.
So können wir auf Kundenseite(Admins) wenigstens einen Analyse auf technischer Ebene mitverfolgen und nachvollziehen und entsprechend kommunizieren.
mfg YE
YE am

Darf man noch erfahren welchen Hersteller ihr einsetzt? Also alte Router sowie auch neue Router?

Katarina am
Hey YE,

danke für deine Nachfrage. Wir geben grundsätzlich keine Informationen zu verwendeter Hardware nach außen. Vielen Dank dein Verständnis und viele Grüße
Katarina
EF am

Aber im vergleich zu anderen Hostern habt ihr ganz schön massive Probleme seit 2018, bei den derartigen Preisen erwartet man wirklich was anderes.

Daniel am

das sehe ich auch so!

Stefan am
Ich erlebe auch viel zu viele Probleme bei Mittwald. Gerade auch im Mailserver Bereich.
Solche Probleme hat selbst der Billighoster Netcup nicht. Wenn das so weiter geht werde ich mein Pakt umziehen.
Marcus am
Klar, dass es immer wieder unvorhergesehene Probleme geben kann. Mehr Stabilität wünschen wir uns natürlich. Sehe den Schaden vor allem bei uns als Agentur ... - da laufen die Telefone heiss und die Kunden springen nach und nach ab.
Ob das jetzt bei anderen Hostern mit Fehlern in dem Ausmaß auch passiert, kann ich nicht sagen. Für uns jedenfalls ist der Schaden als kleine Agentur sehr groß, wenn alle unsere Kundenseiten, E-Mails und unsere automatisierten Dienste nicht funktionieren.
Matthias am
Seit Eurem Mega-Ausfall vor einigen Jahren gibt es doch immer wieder merkliche Ausfälle und Störungen. Wir nutzen für einige Kunden auch andere Hosts, die im Vergleich zu Euch entweder nie (!) Ausfälle haben oder die so kurze Ausfälle haben, dass man sie nicht als solche wahrnimmt.

Mit Angeboten für Kunden wie z.B. Netflix brauchen wir mehr Sicherheit bei Euch!
Florian am
Mir ist gerade die Kündigung eines unserer wichtigsten Kunden auf den Tisch geflattert. Macht ca. 10.000 Euro weniger Umsatz im Jahr. Mal schauen ob ich den Arbeitsplatz des Mitarbeiters retten kann, der diesen Kunden betreut hat.

Das Problem ist die Länge der Ausfälle. Wenn irgendwas mal eine Stunde steht hat da jeder Verständnis für, wir Agenturen und auch unsere Kunden. Wenn aber Firmen gefühlt den ganzen Tag keine Mails verschicken können, der Internetauftritt bei der wichtigsten Messe im Jahr den ganzen Tag nicht aufrufbar ist und ich nicht mal Zugriff auf die DNS habe um Plan B zu aktivieren, hat das Konsequenzen für uns und wir verlieren Kunden.

Ich würde mir wünschen, wenn Ihr anstatt den Fokus auf neue Produkte und wie Ihr mehr Geld verdienen könnt, jetzt erstmals eure Prozesse dahingehend analysiert wie Ihr längere Ausfallzeiten von mehr als einer Stunden verhindern könnt, indem Ihr für mehr Redundanz sorgt.
Zorast am

Das liegt tatsächlich in der Eigenverantwortung der Agentur. Es ist unumgänglich, dass Serverausfälle vorkommen können und auch werden. Aus diesem Grund entscheide ich mich stets dafür, die Hosting-Dienste für Webseiten und die Dienste für Domänen sowie E-Mails bei unterschiedlichen Anbietern zu nutzen. Ich würde dir auch raten, diese Strategie zu verfolgen. So wird im Falle eines Ausfalls bei einem der Anbieter entweder die Webseite oder die E-Mail-Funktion beeinträchtigt, aber niemals beide gleichzeitig. Allerdings muss man bedenken, dass jeder Anbieter seine eigenen Herausforderungen mit sich bringt. Beispielsweise erlebt HostEurope derzeit ernsthafte Schwierigkeiten, nachdem sie von einem amerikanischen Unternehmen übernommen wurden, welches umfassende Systemänderungen vornimmt – und das leider oft zum Nachteil. Trotzdem gibt es auch Verbesserungen in manchen Bereichen.

Jörg am
Totaler Vertrauensverlust!
Hauptsächlich im Mailserver Bereich in der Vergangenheit ständig Probleme und nun dieses Desaster...
Kurz: pissed!
Andreas am
Ich kann den Ärger der Vorposter tlw. nachvollziehen - finde aber, dass insgesamt wenig Ausfälle sind. Im Prinzip müsste man hier die generelle Uptime/Verfügbarkeit hernehmen zum Vergleich. Ich denke, dass diese bekannt ist.

Ich bin soweit gut zufrieden mit Mittwald, Verbesserungspotential gibt es natürlich immer, ich bin mir sicher, dass Mittwald aus den neuen Ausfällen Lehren ziehen wird für die Zukunft und den Service und die Erreichbarkeit noch mal verbessern.
Benjamin am
Wir hatten in den letzten 15 Jahren mit so ziemlich allen Hostern am Markt zu tun und überall gibt es Themen. Letztlich haben wir uns für mittwald entschieden, weil der Service hervorragend ist und sowohl Setup als auch Performance stimmen.

Da wir alle unsererseits betreuten Websites im Rahmen unseres Services via Uptime-Tools monitoren, kann ich sagen, das Anbieter wie z.B. IONOS deutlich häufiger Ausfälle haben. Andererseits ist es, wie in diesem Thread bereits geschrieben wurde, schon so, dass diese Ausfälle i.d.R. recht kurz sind (5-45min., meist nicht mehr als eine halbe Stunde).

Nach absolut perfekten Jahren mit mittwald hatten wir zuletzt ein massives Dilemma mit einem 1. mStudio-Versuch. Letztlich mussten wir komplett zurückrudern, wobei der Support das komplette Kundenprojekt zurück in die 'alte Welt' portierte und uns somit maximal entgegenkam. Sehr gutmütiger A-Kunde und daher trotz einigem Wirbel nochmal gutgegangen.

Relativ kurz darauf nun diese 2-Tages-Ausfall-Attacke über den gesamten Agenturserver hinweg - das war richtig hart. Gerade mit einem größeren Projekt in der Pre-Launch-Phase, was gar nicht gut kam. Auch gerade weitere Bestandskunden nach mw umgezogen - die statt mit "Premium Hosting" (stimmt ja für gewöhnlich auch absolut!) mit Totalausfall begrüßt wurden. Peinlich.

Das kratzt schon am Vertrauen in Summe (da kann ich Jörg verstehen). Das mStudio hätte noch nicht live gehen dürfen und solche LANGEN Ausfälle müssen sicher verhindert werden. Wenn wir als Agenturen mit mittwald auf EINE Karte setzen, muss die Ausfallsicherheit einfach erhöht werden, weil da sehr schnell Arbeitsplätze und die Agentur selbst dran hängt, wie Florian geschrieben hat. Das ist dann nicht mehr witzig, sondern ganz schnell existenziell - egal ob für einen Mitarbeiter oder ein ganzes Unternehmen.

Erst Bestehendes optimieren, dann Neues schaffen. Und nicht Beta releasen (s. mStudio).

Bitte, liebes mittwald-Team, nehmt Euch das zu Herzen, denn Ihr nehmt mit Agenturserver & Co. große Verantwortung auf Euch, an der letztlich Existenzen hängen (s. nochmals Florian, Marcus & Co.).
Thomas Tiedtke am

dem kann ich nur komplett zustimmen. Wir bezahlen auch seit dem Start vom mStudio im Grunde nur fürs Testen ...

Eric Harrer am
Natürlich ist es nie schön, wenn es einen Ausfall gibt, aber Eure Außenkommunikation in dieser kritischen Phase war wirklich top ?. Ich hatte jederzeit Einblick in den aktuellen Status, den Ihr wunderbar transparent kommuniziert habt, am Telefon, auf Twitter/X und über Eure Statusseite https://www.mittwald-status.de/. Meinen Kunden konnte ich so den Stand klar kommunizieren.
Marc Widmann am
Moin Jungs,
obwohl die Kommunikation in den vergangenen Jahren besser geworden ist. Würde ich mir wünschen das die Agenturserver Kunden, proaktiv über einen Ausfall informiert werden und wir unsere Kunden aktiv informieren können, und nicht erst bei der ersten Down Meldung des Kunden - der schon mehr weiß als wir !
Herrmann am
Du kannst die Statusmeldungen unter https://www.mittwald-status.de/ abonnieren.
Alex am
Vielen Dank für die Aufklärung!

Was mir allerdings unklar ist: Wie kommt es denn zu einem "laufzeitbedingten Softwarefehler der Geräte", und wie kann das zukünftig vermieden werden? Welche Schritte unternehmt ihr hinsichtlich Redundanz und Verkürzung der Ausfallzeiten?

Und eine Sache würde ich mir von eurer Seite in solchen Fällen wünschen: Einen kurzen Textbaustein, der in einfachen Worten erklärt, was los war – denn meine Auftraggeber*innen kann ich ja kaum hier auf diesen Blogeintrag verweisen, den versteht man ja nur mit entsprechendem Hintergrundwissen.

Und zu guter Letzt: Ging zu diesem Post Mortem eine Mail an eure Kund*innen raus? Ich habe m.E. keine bekommen. Hier könntet ihr noch etwas proaktiver kommunizieren – und ein Wort des Bedauerns würde dabei sicherlich helfen, den Unmut etwas zu besänftigen.
Gregor Wendland am

+1

Hans Stellmacher am

Hallo zusammen, ja es wird oder wurde viel geschrieben. Ich bin nun auch schon einige Jahre bei Mittwald und kann mich im Großen und Ganzen nicht beschweren. Ja, es kann immer etwas sein, aber das ist doch heute überall und oft nicht einmal zu vermeiden, nimmt man alleine die Glasfaser, wir sind hier mit in der ersten Generation bei der Verfügbarkeit, ja das merkt man auch wie oft es da Ausfälle gibt. Ja, wir wollen alle nach Möglichkeit das alles läuft, aber es gibt jedoch auch Zeiten, wo dem nicht so ist. Was wäre, wenn es wirklich mal weltweit einen Totalausfall gäbe?