Linuxový souborový systém s línou deduplikací

Wasper

  • ***
  • 119
    • Zobrazit profil
    • E-mail
Linuxový souborový systém s línou deduplikací
« kdy: 30. 05. 2023, 15:08:53 »
Zdravim vespolek
Nemate prosim nekdo zkusenost/doporuceni, jestli existuje pod Linuxem pouzitelny filesystem, ktery umi deduplikovat data na nem, a da se realne pouzit/nekdo ho pouzivate?

O co jde - hraju si s neuronkama, prakticky kazdy projekt ma jine requirementy (uz jsem rikal, ze nenavidim ekosystem kolem Pythonu?) a vysledkem je dost pres desitku venv-u, ktere jsou z vetsi casti hodne podobne, a jen mamuti jako pytorch uziraji tretinu disku, coz je dost nemile.

Jako last resort mam programek, co prochazi disk a kdyz se shoduje sha256 tak ze 2 fajlu udela pres hardlink jeden, ale jestli to jde nejak elegantneji, tak se rad priucim a zkusim neco noveho.
« Poslední změna: 30. 05. 2023, 15:47:05 od Petr Krčmář »


Jose D

  • *****
  • 885
    • Zobrazit profil
Re:Linux filesystem s (lazy) deduplikaci
« Odpověď #1 kdy: 30. 05. 2023, 16:06:56 »
jako podklad pro volume s docker containery atp jsem svého času používal VDO, které se vyskytuje v RHEL-like OS..

Funguje to? jo.
Dal bych za to ruku do ohně? no, do hodně malého ohníčku jo.


Re:Linuxový souborový systém s línou deduplikací
« Odpověď #2 kdy: 31. 05. 2023, 07:42:33 »
openzfs? (a hodne RAM).
ale za vykon teda ruku nedam.

Re:Linuxový souborový systém s línou deduplikací
« Odpověď #3 kdy: 31. 05. 2023, 13:23:17 »
Kód: [Vybrat]
rdfind -makehardlinks true /path/to/dir



Re:Linuxový souborový systém s línou deduplikací
« Odpověď #5 kdy: 02. 06. 2023, 15:29:13 »
Kód: [Vybrat]
rdfind -makehardlinks true /path/to/dir
Tohle zmiňoval už tazatel.
Potíž vidím v tom, že ty dva sloučené soubory se stanou jedním. Takže když následně jeden soubor upravíte, změní se i pod druhým jménem. Potřebujete "copy on write" = jakmile se jeden soubor změní, duplicita padá a od té chvíle hezky každej po svym prkně. Tohle může zajistit jedině FS :-/

Re:Linuxový souborový systém s línou deduplikací
« Odpověď #6 kdy: 02. 06. 2023, 15:47:32 »
Teoreticky deduplikaci umí ZFS, Btrfs a XFS. Prakticky se ZFS nedá použít bez spousty RAM, dělá deduplikaci za chodu.

XFS a Btrfs dělají deduplikaci na požádání, například duperemove. Použití na XFS a Btrfs je stejné: https://gist.github.com/AnatomicJC/d51072e09f4f17c05042f639e7b1f4c6

Nebo jde použít cp --reflink=auto -vr venv1 venv2, to potom venv2 nezabírá skoro nic. Až se tam něco změní, tak až pak teprve ty změny budou něco zabírat. A samozřejmě změna ve venv2 nezmění nic ve venv1 jako v případě hard nebo soft linku.