WodGuru w ogniu 馃敟鈽狅笍馃敟

wodguru fire

10 Marca – dzie艅, kt贸ry wni贸s艂 w moje 偶ycie sporo siwych w艂os贸w, co najmniej dwa nowe wrzody na 偶o艂膮dku i du偶o wa偶nych lekcji na przysz艂o艣膰.

Po ka偶dym upadku, wstajemy silniejsi.

WodGuru od samego pocz膮tku by艂o postawione na serwerach firmy OVH. Nie mogli艣my narzeka膰, kilka lat temu mieli jedn膮 3-godzinn膮 przerw臋 opisan膮 tutaj, poza tym – by艂o stabilnie. Plan przeniesienia systemu na AWSa czy innego A偶ura (wi臋ksze firmy dostarczaj膮ce hosting) by艂 zawsze z ty艂u g艂owy. No ale dzia艂a艂o. OVH to du偶a i znana firma, serwer by艂 mocny… wi臋c to nigdy nie by艂 najwi臋kszy priorytet.

Ka偶dy upadek nas czego艣 uczy. Im mocniej uderzymy, tym wi臋cej lekcji wyci膮gamy z upadku. Wy偶ej opisana 3-godzinna przerwa z listopada 2017 spowodowa艂a, 偶e opr贸cz robienia backup贸w bazy danych i trzymania ich na serwerach backupowych OVH, zacz臋li艣my wysy艂a膰 backupy na serwery AWS, 偶eby w przypadku awarii OVH zawsze mie膰 do nich dost臋p.

Backupy by艂y robione co 2 godziny. W przypadku gdy bomba spada na serwery OVH, mo偶emy w kr贸tkim czasie, odpali膰 drugi serwer z maksymalnie 2 godzinn膮 strat膮 danych.

Wszystko dzia艂a艂o super latami, nasza czujno艣膰 zosta艂a u艣piona. Obudzili艣my si臋 10 Marca.

Co dok艂adnie wydarzy艂o si臋 10 Marca?

We wtorek, 10 Marca oko艂o godziny 1 w nocy jedna z 32 serwerowni OVH – znajduj膮ca si臋 w Strasbourgu, stan臋艂a w p艂omieniach. Odci臋tych od internetu zosta艂o 3.6 miliona stron www, a WodGuru by艂o jedn膮 z nich.

W budynku by艂y 4 serwerownie, jedna z nich (SBG2) zosta艂a zniszczona przez po偶ar. Danych z niej nie uda si臋 najprawdopodobniej odzyska膰. SBG1 zosta艂a cz臋艣ciowo dotkni臋ta przez po偶ar. SBG3 i 4 zosta艂y nienaruszone.

Bez wzgl臋du na to, na kt贸rym serwerze by艂y przechowywane dane, wszystko zosta艂o odci臋te od pr膮du i b臋dzie wraca膰 online dopiero po 19.03.2021.

W internecie jest mn贸stwo artyku艂贸w o po偶arze, podrzuc臋 tutaj kilka link贸w:

10 Marca z perspektywy WodGuru.

Oko艂o 8 rano zosta艂em obudzony telefonem. Jak si臋 okaza艂o, mia艂em ju偶 sporo nieodebranych po艂膮cze艅 w tym dniu. Powiedziano mi, 偶e WodGuru si臋 nie 艂aduje. Pewnie jaka艣 b艂ahostka. Pewnie maj膮 problemy z internetem albo wkrad艂 si臋 inny prosty ludzki b艂膮d – pomy艣la艂em. Id膮c do komputera, my艣la艂em g艂贸wnie o tym co zjem na 艣niadanie. Nie zdawa艂em sobie sprawy, 偶e najbli偶sze 艣niadanie (i to na szybko) zjem dopiero kolejnego dnia.

Faktycznie, WodGuru si臋 nie 艂adowa艂o. Nawet u mnie. Nawet na moim telefonie. A nawet na telefonie 呕ony! Zacz膮艂em szuka膰 czy system pluje jakimi艣 b艂臋dami, lecz nie mog艂em si臋 do nich dosta膰. Nie mog艂em si臋 dosta膰 do serwera. W przeci膮gu kilku minut, po sznurku uda艂o si臋 dotrze膰 do informacji o po偶arze.

Well, fuck 馃う鈥嶁檪锔

Chwil臋 p贸藕niej okaza艂o si臋, 偶e nasz serwer znajduje si臋 w SBG2 – jedyna z 4 serwerowni, kt贸ra ca艂a sp艂on臋艂a. Tak wi臋c – oficjalnie przeszli艣my do „chmury” (sucharek 馃憤)

Mniejsza z tym, czy nasze dane sp艂on臋艂y czy nie, na ten moment nie mamy do nich dost臋pu i pr臋dko go nie odzyskamy. To wiemy na pewno i tylko to si臋 liczy. Trzeba jak najszybciej odpali膰 system z tym co mamy. Rozpocz臋li艣my prace nad nowym serwerem, pad艂o na AWS. Teoretycznie mamy wszystko co potrzeba, 偶eby to postawi膰 WodGuru na nogi w do艣膰 szybkim czasie.

W mi臋dzyczasie, zosta艂a utworzona strona ze statusem naszych prac: https://wod.guru/pl/status. Stara艂em si臋 odpowiada膰 na wszystkie z setek wiadomo艣ci i telefon贸w. Niedzia艂aj膮cy produkt to jedno. Brak wiedzy dlaczego nie dzia艂a i brak kontaktu z supportem to druga, cholernie istotna sprawa. Robi艂em co mog艂em, 偶eby ka偶dy by艂 na bie偶膮co informowany o statusie prac.

Mimo do艣膰 nieciekawej sytuacji i sp贸藕nionej reakcji sz艂o ca艂kiem dobrze. Do czasu…

Tutaj posypa艂o si臋 bardzo du偶o przekle艅stw. Brzuch rozbola艂. Ostatni backup bazy jaki mamy na zewn臋trznym serwerze jest z dnia 02.03.2021 10:00 馃. Okaza艂o si臋, 偶e miejsce na serwerze backupowym wyczerpa艂o si臋 po wygenerowaniu backupu z dnia 2.03.2021 10:00. Ostatni „health check”, czy backupy si臋 dobrze zgrywaj膮 na serwer backupowy mia艂 miejsce z pocz膮tkiem miesi膮ca (1.03.2021), wtedy wszystko by艂o ok..

Widok z panelu serwera backupowego w OVH

No jasny chuj.

Brak danych z okresu 2.03 – 9.03 mocno skomplikowa艂 spraw臋. Najpierw przywr贸cili艣my dost臋p dla w艂a艣cicieli i pracownik贸w klub贸w, aby w miar臋 mo偶liwo艣ci przywr贸cili utracone dane. Udost臋pnili艣my wszystkie logi, kt贸re mieli艣my z tego okresu w innych narz臋dziach (np. wysy艂ane maile). Dali艣my mo偶liwo艣膰 r臋cznego w艂膮czenia aplikacji dla klubowicz贸w, w dogodnym dla siebie momencie.

Opr贸cz 7 dni danych, stracili艣my te偶 assety – loga klub贸w, zdj臋cia profilowe klubowicz贸w itp. Stracili艣my te偶 blog i wszystkie na nim wpisy, kt贸re aktualnie powoli odbudowujemy.

Czy uda si臋 odzyska膰 te dane? Raczej nie, ale dowiemy si臋 na 馃挴 w nadchodz膮cych tygodniach. P贸ki co, dzia艂amy po staremu. M膮drzejsi, z kilkoma dodatkowymi zmarszczkami.

Jakie lekcje zosta艂y wyci膮gni臋te

Na ko艅cu, nie liczy si臋 sam upadek, tylko to czego nas nauczy艂. A nauczy艂 nas bardzo du偶o.

Aktualna infrastruktura jest do艣膰 podobna do tej sprzed po偶aru, tyle 偶e na AWSie i na lepszej i szybszej maszynie. Plan na najbli偶sze tygodnie jest ambitny i zak艂ada porozrzucane r贸偶nych element贸w na r贸偶ne serwery minimalizuj膮c ryzyko. WodGuru b臋dzie du偶o stabilniejsze a postawienie systemu w przypadku awarii od zera, b臋dzie kwesti膮 minut.

Co zawiod艂o:

  • Brak aktualnej informacji o problemie z generowaniem backup贸w.
  • Powolna reakcja na awari臋.
  • Brak 艣wiadomo艣ci, 偶e WodGuru z czas贸w pierwszej awarii z 2017 roku, to zupe艂nie inne WodGuru ni偶 teraz. Wtedy wsp贸艂pracowali艣my z 40 klubami, teraz jest ich ponad 160. Baza danych szybko ro艣nie, a z ni膮 odpowiedzialno艣膰 za Wasze dane. Ka偶da awaria ma ma du偶o wi臋kszy impakt i ci膮gnie za sob膮 du偶o wi臋ksze konsekwencje.

Rozwi膮zania:

  • Jeste艣my w trakcie tworzenia systemu automatycznych powiadomie艅 o statusie serwera i r贸偶nych narz臋dzi podpi臋tych do systemu. Opr贸cz tego czy generuj膮 si臋 backupy, b臋dziemy monitorowa膰 b艂臋dy, dzia艂anie p艂atno艣ci online, wysy艂ki sms贸w i maili. Musimy by膰 pierwszymi kt贸rzy dowiaduj膮 si臋 o problemach i szybko na nie reagowa膰, bez wzgl臋du na por臋 dnia. Jeszcze nie wykombinowa艂em, jak ewentualna awaria mnie wyrwie z 艂贸偶ka. Prawdopodobnie, sko艅czy si臋 na zamontowaniu alarmu i podpi臋ciu go do WodGuru 馃し鈥嶁檪锔
  • Data is king. Nasz biznes to nic innego jak uporz膮dkowane wy艣wietlanie danych, kt贸re Wy i Wasi klubowicze generujecie. Dane s膮 najwa偶niejsz膮 cz臋艣ci膮 systemu, Wy je nam powierzacie a my musimy o nie odpowiednio dba膰. Bezpiecze艅stwo i stabilno艣膰 waszych danych musi stale si臋 polepsza膰. Nie mo偶emy w tej kwestii osiada膰 na laurach. W momencie jak wyczerpiemy wszystkie nasze pomys艂y na poprawienie si臋 w tej kwestii, b臋dziemy szuka膰 rad u ekspert贸w w tej dziedzinie.

O wszystkich dzia艂aniach b臋dziemy Was na bie偶膮co informowa膰.

Zako艅czenie

Ko艅cz膮c, chcia艂em bardzo mocno podzi臋kowa膰 Wam za wsparcie. Mn贸stwo os贸b trzyma艂o kciuki. Sporo os贸b specjalnie nie wydzwania艂a, 偶eby da膰 nam wi臋cej czasu na prac臋.

Bardzo cz臋sto s艂ysza艂em od Was, 偶e nie mamy na takie rzeczy wp艂ywu, 偶e to nie nasza wina. Z tym akurat totalnie nie mog臋 si臋 zgodzi膰. Po偶aru mo偶e nie wznie艣li艣my my, ale to jak jeste艣my na niego przygotowani zale偶y tylko od nas. Byli艣my przygotowani na maksymalnie 3 z plusem.

Tomek

1 Comment

  1. Gruby

    Szatek dzi臋ki za ten post. Nie jestem Twoim klientem ale jako technik wiem czego mog艂e艣 do艣wiadczy膰. Lekcje kt贸re opisa艂e艣 wykorzystam w pracy z klientami (je偶eli nie masz nic przeciwko) bo to dotyka dok艂adnie clue mojej roboty. Nawet ju偶 wykorzysta艂em gdy gadali艣my z EU o wdro偶eniu na francuskiej chmurze.
    Szcz臋艣cia 偶ycz臋 i stabilno艣ci (serwer贸w)!

Jak znale藕膰 wi臋cej klient贸w, jak zmniejszy膰 koszty, jak lepiej zarz膮dza膰 klubem i mie膰 wi臋cej czasu dla siebie!

1锔忊儯 Raz w tygodniu.

2锔忊儯 Najwa偶niejsze informacje z bran偶y fitness.

3锔忊儯 Zero spamu!

 

Zapisz si臋 do WodLettera:

Wy艣lemy ebook na Twojego maila.

Ten bezp艂atny ebook pomo偶e Ci zwi臋kszy膰 liczb臋 rezerwacji na zaj臋cia, jednocze艣nie oszcz臋dzaj膮c Tw贸j cenny czas ka偶dego dnia!

*Tylko dla w艂a艣cicieli klub贸w!