Spravuji taky pár věcí, které by měly běžet 24x7 a nejsou to úplně malé systémy (menší ISP síť, středně velká podniková síť vč. 24x7 provozů a větší části řešení v HA). Jsme na to sice asi 4 ale žádné pohotovosti nedržíme a některé z těch věcí by pravděpodobně nikdo jiný dohromady nedal (nebo by to trvalo dlouho, nebylo by to udělané správně...).
Po pravdě na to ani pohotovosti držet nechceme - dlouhodobě mimo signál nebývám (když ano tak na známých místech a když ten průšvih bude opravdu veliký, tak si tam pro mě prostě dojedou), párkrát do roka nějakou tu poruchu rád vyřeším (klidně i o půlnoci, do háje posílám jen dispečery, kteří volají ve 4 ráno kvůli něčemu co nefunguje od večera, to jim nevadilo ale teď by s tím potřebovali hnout...). Z hlediska platu jsem ochoten toto pro firmu kdykoliv udělat, práce zaplacené dostanu a má to i své další výhody:
- nemusím třeba týden v měsíci nosit telefon 24 hodin na krku, můžu si dát pivko kdy se mi zachce (takhle bych během týdenní pohotovosti nesměl ani kapku...)
- nemusím nikde být do hodiny, vlastně tam nemusím být vůbec (ale když už mě seženou, já sedím doma u televize tak je zase odmítnout taky nemůžu...), můžu kdykoliv kdekoliv odjet, i mimo signál... (to ale kolegové většinou ví. Ne že bych jim to musel hlásit ale jsou to kamarádi takže spolu mluvíme, víme co kdo...)
-když už tam mimo pracovní dobu dojedu, něco opravím, vyřeším... tak mi lidi poděkují, vedení je rádo a jak jednotlivec tak celé oddělení tím získává lepší pozici (ti lidé jsou loajální, udělají pro firmu něco navíc...). S troškou nadsázky tam jsem vlastně "za hrdinu" (což je pořád lepší než být za pitomce, který dorazil o hodinu později než měl).
Jak už jsem ale říkal - všechna řešení stavíme s ohledem na spolehlivost, vše co je jen trošku možné se snažíme mít v HA což třeba znamená:
- servery jsou téměř výhradně nad vmware clusterem, data na diskovém poli se dvěma řadiči... na téhle technologii jsme ještě neměli výpadek nikdy (neříkám, že se nemůže stát)
- síťové prvky jsou taky redundantní (např. dva switche ve STACKu, servery jsou "nic teamingem" zapojeny do obou...), v místě kde jsou kritická pracoviště jsou koncové switche taky dva (samozřejmě zapojené do dvou různých páteřních)
- provozně kritické pracovní stanice jsou taky více-méně zdvojené, zapojené do různch switchů (takže při poruše koncového switche jim fungují 3 počítače z 6ti což je stav, se kterým jsou schopni do dalšího dne přežít)
- samozřejmosté je zdvojené napájení (dvě UPS v RACKu, na každé je polovina switchů), stejně je zdvojené napájení pro kritická PCčka (např. 3 a 3 na různých UPS)
- záloha energie dieselagregátem je pak již spíše třešnička na dortu
Tzn. můj názor z pohledu menší až střední firmy je: raději za peníze firmy postavte co nejspolehlivější řešení čímž jednoznačně snížíte počet kritických poruch a tím i tlak na váš servis. Vyberte si v práci šikovného kolegu (jestli máte vlastní vývoj... tak nevěřím, že tam někoho s určitým zájmem o infrastrukturu nenajdete), občas s ním udělejte nějakou seanci a seznamte ho s prostředím, novýma věcma... a tohohle kolegu informujte, kd\ž budete plánovat nějakou větší nedostupnost (výlet na vodu kde skoro nikde není signál...), on vás pak při nějakém průšvihu trošku zastane a zmírní napětí ve firmě (ze situace "nemůžeme Frantu sehnat" na "aspoň nějak se to řeší a Franta by se snad měl během pár hodin ozvat na telefonu". Pokud možno nevymýšlejte žádné krávoviny ale snažte se věci dělat standardně, dokumentovat je... Pokud máte nějaký systém ve stavu, že se někde uvnitř občas něco stane, je třeba tam vléz a spravit to několika krutými SHELLovými příkazy a ono to zas dlouho poběží tak jednoznačně něco děláte špatně, je potřeba do toho investovat (i peníze firmy), předělat to...