Heute mussten wir ein Hotfix installieren, in machen Fenstern war das rote Kreuz, also das Schließen-Knopf nicht zu sehen.
Wie funktioniert das mit dem Update, wenn wir Tagsüber ein Update installieren müssen? Also wie geht ein Hotfix?
Zuerst wird von uns eine Meldung auf unserer Twitter/ Status-Seite veröffentlicht:
Sobald ein Fehler identifiziert und korrigiert wurde, kommt das Einspielen eines Updates.
Das Identifizieren und Beheben eines Fehlers kann natürlich unterschiedlich lang dauern. Bisher konnten wir die “hässlichen” Fehler immer innerhalb weniger Minuten korrigieren.
Zum Beispiel heute:
- ca. 5min gebraucht um den Fehler zu identifizieren
- ca. 5min benötigt, um die Fehlerbeseitigung zu programmieren,
- ca. 5min dauert es, eine neue Lemniscus-Version zu bauen und bereitzustellen
Es werden dann neue Server hochgefahren und die bekommen die neue Lemniscus Version installiert. Auf den neuen Servern wird die Fehlerbehebung getestet.
Jetzt werden die neuen Server mit den Alten getauscht - das machen wir, in dem wir die IP-Adressen von “my.lemniscus.de” im Namensdienst ändern.
Kunden, die erst jetzt lemniscus laden, bekommen ab diesen Moment bereits die neue Version zu sehen. Alle anderen müssen den IP-Wechsel erst mitbekommen, das kann ein paar Minuten dauern. Sobald der IP-Wechsel erkannt wurde, wird die Seite automatisch neu geladen.
Bis hier hat kein Kunde ein Ausfall, der Wechsel findet praktisch nahtlos statt. Nur das eventuelle Neuladen der Seite wird eventuell bemerkt.
An der Grafik kann man erkennen, wie die Netzwerklast bei den alten Servern abnimmt und bei den neuen zunimmt. Normalerweise stellen wir erst um, wenn die meisten Anwender auf den neuen Servern umgesattelt sind. Bei einem Hotfix (wichtiges Update) schon etwas früher.
Ca. 30 Minuten später werden die alten Server mit der neuen Version überspielt. Das kann tatsächlich dazu führen, dass die Browser, die noch die alte IP-Adresse haben, die Seite für ca. 2 bis 3 Minuten nicht laden können. Und das ist der Grund, warum wir normalerweise Updates nur spät in der Nacht durchführen.
An der Grafik sieht man auch das Update der älteren Server. Die Lücken in der Grafik zeigen, wann die Server nicht erreichbar waren - knapp unter 2min.