Fórum Root.cz

Hlavní témata => Server => Téma založeno: Wasper 30. 05. 2023, 15:08:53

Název: Linuxový souborový systém s línou deduplikací
Přispěvatel: Wasper 30. 05. 2023, 15:08:53
Zdravim vespolek
Nemate prosim nekdo zkusenost/doporuceni, jestli existuje pod Linuxem pouzitelny filesystem, ktery umi deduplikovat data na nem, a da se realne pouzit/nekdo ho pouzivate?

O co jde - hraju si s neuronkama, prakticky kazdy projekt ma jine requirementy (uz jsem rikal, ze nenavidim ekosystem kolem Pythonu?) a vysledkem je dost pres desitku venv-u, ktere jsou z vetsi casti hodne podobne, a jen mamuti jako pytorch uziraji tretinu disku, coz je dost nemile.

Jako last resort mam programek, co prochazi disk a kdyz se shoduje sha256 tak ze 2 fajlu udela pres hardlink jeden, ale jestli to jde nejak elegantneji, tak se rad priucim a zkusim neco noveho.
Název: Re:Linux filesystem s (lazy) deduplikaci
Přispěvatel: Jose D 30. 05. 2023, 16:06:56
jako podklad pro volume s docker containery atp jsem svého času používal VDO, které se vyskytuje v RHEL-like OS..

Funguje to? jo.
Dal bych za to ruku do ohně? no, do hodně malého ohníčku jo.

Název: Re:Linuxový souborový systém s línou deduplikací
Přispěvatel: pruzkumbojem 31. 05. 2023, 07:42:33
openzfs? (a hodne RAM).
ale za vykon teda ruku nedam.
Název: Re:Linuxový souborový systém s línou deduplikací
Přispěvatel: Petr Gajdusek 31. 05. 2023, 13:23:17
Kód: [Vybrat]
rdfind -makehardlinks true /path/to/dir
Název: Re:Linuxový souborový systém s línou deduplikací
Přispěvatel: bmn 01. 06. 2023, 23:00:47
https://btrfs.readthedocs.io/en/latest/Deduplication.html
Název: Re:Linuxový souborový systém s línou deduplikací
Přispěvatel: František Ryšánek 02. 06. 2023, 15:29:13
Kód: [Vybrat]
rdfind -makehardlinks true /path/to/dir
Tohle zmiňoval už tazatel.
Potíž vidím v tom, že ty dva sloučené soubory se stanou jedním. Takže když následně jeden soubor upravíte, změní se i pod druhým jménem. Potřebujete "copy on write" = jakmile se jeden soubor změní, duplicita padá a od té chvíle hezky každej po svym prkně. Tohle může zajistit jedině FS :-/
Název: Re:Linuxový souborový systém s línou deduplikací
Přispěvatel: Jan Fikar 02. 06. 2023, 15:47:32
Teoreticky deduplikaci umí ZFS, Btrfs a XFS. Prakticky se ZFS nedá použít bez spousty RAM, dělá deduplikaci za chodu.

XFS a Btrfs dělají deduplikaci na požádání, například duperemove. Použití na XFS a Btrfs je stejné: https://gist.github.com/AnatomicJC/d51072e09f4f17c05042f639e7b1f4c6

Nebo jde použít cp --reflink=auto -vr venv1 venv2, to potom venv2 nezabírá skoro nic. Až se tam něco změní, tak až pak teprve ty změny budou něco zabírat. A samozřejmě změna ve venv2 nezmění nic ve venv1 jako v případě hard nebo soft linku.