ZFS checksum errors u více disků najednou

David

ZFS checksum errors u více disků najednou
« kdy: 25. 05. 2021, 09:01:41 »
Ahoj, začaly se objevovat problémy se ZFS polem; nejprve na NVMe discích, tak jsem sestavil druhé pole, ovšem tam se chyby objevily také. Odhadujete to také na chybu RAM? V serveru je sice Xeon, ale deska&paměti neumí ECC, a to teď podezírám, že je největší problém. Jak bych to prosím mohl diagnostikovat? Přijde mi krajně nepravděpodobné, že začnou chybovat disky v takovém množství. Doplním, že opakovaný scrub nepomohl (ba dokonce to nejspíš zhoršil, kdy "opravil" správná data). Děkuji.

Kód: [Vybrat]
  pool: rpool
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
  scan: scrub repaired 0B in 00:01:08 with 0 errors on Thu May 20 20:11:40 2021
config:

        NAME                                                      STATE     READ WRITE CKSUM
        rpool                                                     ONLINE       0     0     0
          mirror-0                                                ONLINE       0     0     0
            nvme-Samsung_SSD_970_EVO_250GB_part2                  ONLINE       0     0     2
            nvme-Samsung_SSD_970_EVO_250GB_part2                  ONLINE       0     0     2

errors: 1 data errors, use '-v' for a list

  pool: tank
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-9P
  scan: scrub repaired 3.50M in 03:43:06 with 0 errors on Thu May 20 23:51:14 2021
config:

        NAME                                          STATE     READ WRITE CKSUM
        tank                                          ONLINE       0     0     0
          raidz2-0                                    ONLINE       0     0     0
            ata-WDC_WD30EFRX-68EUZN0_WD               ONLINE       0     0     1
            ata-ST3000VX000-1CU166                    ONLINE       0     0     5
            ata-ST3000VX010-2H916L                    ONLINE       0     0     0
            ata-ST3000VX010-2H916L                    ONLINE       0     0     1


Re:ZFS checksum errors u více disků najednou
« Odpověď #1 kdy: 25. 05. 2021, 09:31:41 »
https://www.memtest.org/
Nechat projít aspoň dva kompletní průchody.

Re:ZFS checksum errors u více disků najednou
« Odpověď #2 kdy: 25. 05. 2021, 09:38:42 »
Na desktope mám roky zfs raidz a nikdy som sa nestretol s tým, že by som mal zlé cksum na viacerých diskoch naraz. Raz mi robil problém SATA kábel, druhý raz to bol vadný disk. V takomto prípade by som ako prvé urobil dôkladný test RAM, skontroloval radič a káble, prípadne preložil celé diskové pole do iného počítača a skúsil ho tam.

Re:ZFS checksum errors u více disků najednou
« Odpověď #3 kdy: 25. 05. 2021, 09:42:39 »
Na desktope mám roky zfs raidz a nikdy som sa nestretol s tým, že by som mal zlé cksum na viacerých diskoch naraz. Raz mi robil problém SATA kábel, druhý raz to bol vadný disk. V takomto prípade by som ako prvé urobil dôkladný test RAM, skontroloval radič a káble, prípadne preložil celé diskové pole do iného počítača a skúsil ho tam.

Takovéto problémy může způsobovat cokoliv, třeba i zdroj. Stačí, aby kolísal v zátěži. Na to se nepřijde ani při testu RAM, ani při testu jednotlivých komponent.

Ale od testu RAM bych začal taky.

Re:ZFS checksum errors u více disků najednou
« Odpověď #4 kdy: 25. 05. 2021, 10:31:40 »
nikdy se mi nic takoveho nestalo.
Pouzivam ZFS protoze 100% verim, ze se o vse postara. (nedostane se do situace, kdy nedokaze bity zachranit).

Jediny problem je skutecne RAM, tam musi byt ECC  to je snad jediny pripad, kdy je ZFS bezmocna.

Ale co vim, tak v ZFS daji "zapnout kontrolni soucty na pameti" (uvozovky, protoze si nepamatuji detaily). Je to performance hit ale melo by to kompenzovat chybejici ECC.





Re:ZFS checksum errors u více disků najednou
« Odpověď #5 kdy: 25. 05. 2021, 10:34:34 »
uz je samozrejme pozde, ale:

hodne stara diskuse, nevim, jak je to ted na ktere platforme:
 enable the unsupported ZFS_DEBUG_MODIFY flag (zfs_flags=0x10). This will checksum the data while at rest in memory, and verify it before writing to disk, thus reducing the window of vulnerability from a memory error.