Statement Wartungsarbeiten

  • Hallo,


    seit unseren Wartungsarbeiten (Wochenende vom 19.03.) hatten wir einige unvorhersehbare Ausfälle. Jeder dieser Ausfälle und die darauffolgenden Wartungsarbeiten waren in ihrer Form und Dauer absolut unvermeidbar.

    Zu keinem Zeitpunkt haben wir "Däumchen gedreht" oder die Arbeiten aufgeschoben. Die Personen, auf welche es im jeweiligen Moment ankam, haben alles daran gesetzt, schnellstmöglich ihre Aufgaben zu erledigen. Das einzige, was uns an einer noch schnelleren Behebung gehindert hat, waren die Arbeitsverträge, welchen wir im echten Leben nachgehen müssen.



    Zur Erklärung von all dem:

    MyPlayPlanet läuft seit dem 19.3.2021 auf drei physikalisch unabhängigen Root-Servern mit unterschiedlichen Standorten. Diese Server sind untereinander in einem Cluster-Verbund gekoppelt, sodass theoretisch zu jeder Zeit ein Server mit seiner gesamten Rechenkapazität entfallen kann, ohne dass die User hiervon etwas mitbekommen. Daher sprechen wir auch ständig von der „Ausfallsicherheit“. Ich beschreibe es absichtlich als „Theorie“ da die Einrichtung dieses Cluster-Verbundes noch nicht zu 100% abgeschlossen war. Die einzige vorübergehende Schwachstelle ist der Root-III, auf welchem derzeit sämtliche Daten liegen. Diese sind derzeit noch als einziges Element auf einen spezifischen Server in Form des Root-III angewiesen.


    Warum ist das gesamte Netzwerk nun trotzdem für einen längeren Zeitraum down?

    Der Grund hierfür ist sehr simpel: menschliches Versagen. Durch einen kleinen Fehler in der Bedienung ist es passiert, dass ausgerechnet das Betriebssystem unseres Root-III einen irreversiblen Schaden mit großer Auswirkung erlangt hat. Dieser Schaden hat dazu geführt, dass der gesamte Root-III-Server neu aufgesetzt werden musste. Und Ja, mit neu aufsetzen meine ich neu aufsetzen: Plattmachen. Neumachen.



    Keine Angst, eure Daten sind natürlich immer noch unbeschadet vorhanden, lediglich das Betriebssystem des Root-III wurde beschädigt. Auch ist unser Netzwerk entsprechend abgesichert, sodass ein möglicher Angriff auf diesen Server aussichtslos ist. Wir speichern Backups auf all unseren Server in Deutschland und Finnland – theoretisch kann also das ganze Rechenzentrum abbrennen.


    Wir bedauern die erneute Downtime und setzen alles daran, unser Versprechen mit der Ausfallsicherheit zukünftig zu erfüllen.



    Beste Grüße


    Tischkante

  • Hey,

    wir waren mal wieder nicht erreichbar. Weil wir uns das Ganze selbst nicht mehr erklären konnten, haben wir bei unserem Rechenzentrum nachgehakt. Tatsächlich hat Hetzner in den letzten Wochen stark mit vSwitches zu kämpfen. Dies begründet nicht nur den derzeitigen Ausfall, sondern auch die Ausfälle, welche wir vor dem Root-III Problem hatten.


    Es liegt mit absoluter Sicherheit nicht an uns, daher können wir im Moment auch nichts weiter machen als zu hoffen, dass diese ihr Problem beheben können.



    Tischkante