Fórum Root.cz
Hlavní témata => Server => Téma založeno: David 25. 05. 2021, 09:01:41
-
Ahoj, začaly se objevovat problémy se ZFS polem; nejprve na NVMe discích, tak jsem sestavil druhé pole, ovšem tam se chyby objevily také. Odhadujete to také na chybu RAM? V serveru je sice Xeon, ale deska&paměti neumí ECC, a to teď podezírám, že je největší problém. Jak bych to prosím mohl diagnostikovat? Přijde mi krajně nepravděpodobné, že začnou chybovat disky v takovém množství. Doplním, že opakovaný scrub nepomohl (ba dokonce to nejspíš zhoršil, kdy "opravil" správná data). Děkuji.
pool: rpool
state: ONLINE
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
scan: scrub repaired 0B in 00:01:08 with 0 errors on Thu May 20 20:11:40 2021
config:
NAME STATE READ WRITE CKSUM
rpool ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
nvme-Samsung_SSD_970_EVO_250GB_part2 ONLINE 0 0 2
nvme-Samsung_SSD_970_EVO_250GB_part2 ONLINE 0 0 2
errors: 1 data errors, use '-v' for a list
pool: tank
state: ONLINE
status: One or more devices has experienced an unrecoverable error. An
attempt was made to correct the error. Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
using 'zpool clear' or replace the device with 'zpool replace'.
see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-9P
scan: scrub repaired 3.50M in 03:43:06 with 0 errors on Thu May 20 23:51:14 2021
config:
NAME STATE READ WRITE CKSUM
tank ONLINE 0 0 0
raidz2-0 ONLINE 0 0 0
ata-WDC_WD30EFRX-68EUZN0_WD ONLINE 0 0 1
ata-ST3000VX000-1CU166 ONLINE 0 0 5
ata-ST3000VX010-2H916L ONLINE 0 0 0
ata-ST3000VX010-2H916L ONLINE 0 0 1
-
https://www.memtest.org/
Nechat projít aspoň dva kompletní průchody.
-
Na desktope mám roky zfs raidz a nikdy som sa nestretol s tým, že by som mal zlé cksum na viacerých diskoch naraz. Raz mi robil problém SATA kábel, druhý raz to bol vadný disk. V takomto prípade by som ako prvé urobil dôkladný test RAM, skontroloval radič a káble, prípadne preložil celé diskové pole do iného počítača a skúsil ho tam.
-
Na desktope mám roky zfs raidz a nikdy som sa nestretol s tým, že by som mal zlé cksum na viacerých diskoch naraz. Raz mi robil problém SATA kábel, druhý raz to bol vadný disk. V takomto prípade by som ako prvé urobil dôkladný test RAM, skontroloval radič a káble, prípadne preložil celé diskové pole do iného počítača a skúsil ho tam.
Takovéto problémy může způsobovat cokoliv, třeba i zdroj. Stačí, aby kolísal v zátěži. Na to se nepřijde ani při testu RAM, ani při testu jednotlivých komponent.
Ale od testu RAM bych začal taky.
-
nikdy se mi nic takoveho nestalo.
Pouzivam ZFS protoze 100% verim, ze se o vse postara. (nedostane se do situace, kdy nedokaze bity zachranit).
Jediny problem je skutecne RAM, tam musi byt ECC to je snad jediny pripad, kdy je ZFS bezmocna.
Ale co vim, tak v ZFS daji "zapnout kontrolni soucty na pameti" (uvozovky, protoze si nepamatuji detaily). Je to performance hit ale melo by to kompenzovat chybejici ECC.
-
uz je samozrejme pozde, ale:
hodne stara diskuse, nevim, jak je to ted na ktere platforme:
enable the unsupported ZFS_DEBUG_MODIFY flag (zfs_flags=0x10). This will checksum the data while at rest in memory, and verify it before writing to disk, thus reducing the window of vulnerability from a memory error.