Zrovna databáze je aplikace, která by neměla padat nikdy. Pokud dojde k pádu databáze, znamená to, že je někde nějaký problém – chyba paměti, disku apod. Je dost pravděpodobné, že máte poškozená data, když nad tím databázi necháte znovu nastartovat, nejspíš dojde k tomu, že se bude poškození dat šířit dál.
Nemám pocit, že by někdo reportoval problémy s automatickým restartem, a přiznám se, že mám pocit, že se to v případě Postgresu ani nijak extra neřeší. Většina restartů je způsobená neodborným zásahem admina (použítím killu) nebo OOM killerem. Může se stát, že se hitne chyba Postgresu (ale to není časté). Ve zmíněných případech by k poškození db dojít nemělo a neslyšel jsem, že by docházelo. Osobně bych se restartu Postgresu nebál, protože co udělá normální admin - zkusí Postgres nastartovat co nejdřív a případnou investigaci nechá na později - nebo bude řešit, pokud Postgres nenastartuje. Dost firem používá dohledové systémy nebo různé stupně HA, které při nedostupnosti Postgresu samy zkusí Postgres nastartovat nebo restartovat. Nevidím moc rozdíl jestli restart udělá systém, HA nebo admin.
Samozřejmě, že po jakémkoliv restartu chce udělat investigaci proč - nemělo by k tomu docházet - a pokud by k tomu docházelo z hw problémů, tak je to průser. Mám pocit, že jsem to za posledních 10 let nezažil. Nějaké nechtěné restarty mohou způsobit chyby v extenzích nebo špatně použité extenze (untrasted languages), ale moc se to neděje. Často používané extenze už jsou poměrně odladěné a prověřené. Dneska se doporučuje zapnout kontrolní součty na datových stránkách (pozor by default jsou vypnuté), a pokud by docházelo k nechtěným restartům, tak je něco špatně a chce to investigovat. K poškození databáze by dojít nemělo, pokud nedojde k poškození filesystému.
U jednoho zákazníka jsem kdysi řešil restarty Postgresu cca 3x za den - zákazník provozoval aplikaci několik měsíců bez poškození databaze, ale s nepříjemnými důsledky na dostupnost. Dodavatel jen doporučil výkonnější hw, což byla samozřejmě blbost. Pak se ukázalo, že dost nešťastně používají untrusted pl perl, a že si nevědomky permanentně rozbíjejí obsluhu jednoho signálu. Dalo se to fixnout během několika minut, když člověk věděl, že jak to funguje a jaké jsou tam souvislosti.