Výpadok T-mobile

Výpadok T-mobile
« kdy: 01. 07. 2020, 11:26:35 »


Ahoj, vieme čo sa deje v T-mobile?
Tak dlhý výpadok značí stratu dát. Že by ransomware?


RDa

  • *****
  • 2 618
    • Zobrazit profil
    • E-mail
Re:Výpadok T-mobile
« Odpověď #1 kdy: 01. 07. 2020, 11:35:36 »
Me by to taky zajimalo, prece to nemohli mit na jednom serveru a cluster/cloud jen tak nepadne (snad tam nejsou nemehla, co udelaj deploy spatne verze na vsechny stroje).

Na webech se pise:

„V současné době evidujeme výpadek interních aplikací T-Mobile, jenž byl způsoben pádem diskového pole. Výpadek postihl všechny obslužné kanály operátora, včetně samoobslužných. Na odstranění závady se intenzivně pracuje, plné obnovení provozu očekáváme do 15:00,“ řekl mluvčí operátora Jiří Janeček.
« Poslední změna: 01. 07. 2020, 11:38:25 od RDa »

Re:Výpadok T-mobile
« Odpověď #2 kdy: 01. 07. 2020, 11:42:01 »
Njn ale výpadok diskového poľa? Neverím, že mali len jedno. Tak dlhý výpadok nemôže byť spôsobený vadným HW. To verím, že by borci zo storage vyriešili. Toto bude podľa mňa pracné vyťahovanie záloh z pások a kontrola konzistencie dát...

Medo77

  • ****
  • 297
    • Zobrazit profil
    • E-mail
Re:Výpadok T-mobile
« Odpověď #3 kdy: 01. 07. 2020, 12:38:29 »
Diskove pole mohlo byt kludne len jedno. Viem minimalne o jednom velkom (myslim si, ze velkom) hosting providerovi pouzivajuci spickove pole v pocte 1 ks (a mozno ticho dufaju, ze sa na urovni firmware nic nestane, ale pole stalo taky majland, ze tomu naozaj veria, ze to bude bezat dlho bez chyb). A bezi z toho vsetko - web, sql, file virtualky ...
(mozno na backupy maju ine pole, to uz neviem).

Alza tiez krachla na jednom diskovom poli - ale viac menej mali prestoj na rozhodnuti, ci opravovat a zachranovat data, alebo to hodit za hlavu, a ist do posledneho backupu ... (a nehovorime o zrovna zanedbatelnom objeme dat, takze to tiez chvilu trvalo).

Takze ak sa pole seklo, ale po restarte je ok (alebo tomu veria, ze to bolo anomalia), a stoja na restori, dost dobre sa moze jednat o restore velkych DB, a tam je cas vypocitatelny/priblizne odhadnutelny (rychlost media so zalohami, prepustnost siete, rychlost zapisu na cielovej destinacii).
T-mobile nie je alza, ale podla toho, co vsetko spracuvaju/loguju sa nemusi tiez jednat o drobcekov (databaz).

Re:Výpadok T-mobile
« Odpověď #4 kdy: 01. 07. 2020, 12:48:06 »
Zaujímavé, dodávali sme jeden projekt do Deutsche Telekom a všetko bolo zdvojené. Appka v clustri, LUNy z 2 diskových polí, mpathd, atď atď. A to bola jedna funkcionalita, ktorá prijala XML, urobila chytristiku a poslala XML ďalej. A mali sme 2 mašiny na prod, 2 mašiny na test a nejaké virtuálky na vývoj. Stále si myslím, že tento výpadok nebol na úrovni HW, HA a dôsledok SPOF. Ale zas DTAG neni T-mobile no.


alfi

  • ****
  • 334
    • Zobrazit profil
    • E-mail
Re:Výpadok T-mobile
« Odpověď #5 kdy: 01. 07. 2020, 12:59:51 »
Pokud vím, tak ty pole klekly dvě (jedno záložní?). Něco takového se stalo už kdysi, ještě v dobách tzones, pole so rozbilo a v rámci recovery ještě jednou. A pak se několik dnů kopírovala týden stará verze ze záloh.. :)

Re:Výpadok T-mobile
« Odpověď #6 kdy: 01. 07. 2020, 13:02:31 »
Heh tak to je ako naše slávne disaster recovery cvičenie.
 - Malo úspešnosť 50%.
Disaster sa podarila, Recovery nie.

Re:Výpadok T-mobile
« Odpověď #7 kdy: 01. 07. 2020, 13:22:37 »
já vsázím, že nebyla záloha pole, díky šetření...

Re:Výpadok T-mobile
« Odpověď #8 kdy: 01. 07. 2020, 13:47:28 »
Jako k dnešnímu dni by měly vstoupit v platnost nové tarify pro rámcovou smlouvu se Škoda Auto, ale snad v tom nemají takový bordel, aby to podělalo něco co musí být oproti správě celé republiky detail.

Re:Výpadok T-mobile
« Odpověď #9 kdy: 01. 07. 2020, 14:03:10 »
Me by to taky zajimalo, prece to nemohli mit na jednom serveru a cluster/cloud jen tak nepadne (snad tam nejsou nemehla, co udelaj deploy spatne verze na vsechny stroje).
Bez ohledu na to, kolik máte serverů nebo clusterů, vždycky je to nakonec jedna velká databáze - samozřejmě v ideálním případě clusterovaná, replikovaná a distribuovaná. Nicméně dojde-li k porušení integrity dat celé databáze, musíte ji prostě celou vypnout a nějakým způsobem data opravit. A může se klidně stát, že i když máte zálohy a rozhodnete se jít cestou obnovy (a ztráty dat od poslední zálohy), že obnova z nějakého důvodu nepojede tak rychle, jak čekáte. Jednou jsem byl třeba svědkem incidentu, kdy zálohovací systém obnovoval zálohu asi 30 hodin, přestože podle tvrzení dodavatele to mělo být něco kolem hodiny. V takové situaci sice můžete řvát na dodavatele, ale rychlejšímu obnovení služby to stejně nepomůže.

Re:Výpadok T-mobile
« Odpověď #10 kdy: 01. 07. 2020, 14:10:26 »
To by mě zajímalo, co na těch polích měli. Jestli vShere, nebo openstack.
Já pár desítek TB ve vSphere (samozřejmě rozházených mezi několik polí) zálohuji přes ghettovcb na zálohovací pole s tím, že v nejhorším to z toho zálohovacího pole přímo spustím (samozřejmě s omezeným IOPS, ale aspoň to nejdůležitější nějak pojede, než se to za běhu přesype jinam).
Mít všechno na jednom poli je sebevražda, i když je to 3PAR.
Nicméně smetí z rozsypaného obřího openstacku si tedy dávar dohromady dost dobře představit neumím.

TakyPatrik

Re:Výpadok T-mobile
« Odpověď #11 kdy: 01. 07. 2020, 15:30:30 »
Zaujímavé, dodávali sme jeden projekt do Deutsche Telekom a všetko bolo zdvojené...
V čechách jsou zdvojené jen ceny...