Fórum Root.cz
Hlavní témata => Server => Téma založeno: Wasper 30. 05. 2023, 15:08:53
-
Zdravim vespolek
Nemate prosim nekdo zkusenost/doporuceni, jestli existuje pod Linuxem pouzitelny filesystem, ktery umi deduplikovat data na nem, a da se realne pouzit/nekdo ho pouzivate?
O co jde - hraju si s neuronkama, prakticky kazdy projekt ma jine requirementy (uz jsem rikal, ze nenavidim ekosystem kolem Pythonu?) a vysledkem je dost pres desitku venv-u, ktere jsou z vetsi casti hodne podobne, a jen mamuti jako pytorch uziraji tretinu disku, coz je dost nemile.
Jako last resort mam programek, co prochazi disk a kdyz se shoduje sha256 tak ze 2 fajlu udela pres hardlink jeden, ale jestli to jde nejak elegantneji, tak se rad priucim a zkusim neco noveho.
-
jako podklad pro volume s docker containery atp jsem svého času používal VDO, které se vyskytuje v RHEL-like OS..
Funguje to? jo.
Dal bych za to ruku do ohně? no, do hodně malého ohníčku jo.
-
openzfs? (a hodne RAM).
ale za vykon teda ruku nedam.
-
rdfind -makehardlinks true /path/to/dir
-
https://btrfs.readthedocs.io/en/latest/Deduplication.html
-
rdfind -makehardlinks true /path/to/dir
Tohle zmiňoval už tazatel.
Potíž vidím v tom, že ty dva sloučené soubory se stanou jedním. Takže když následně jeden soubor upravíte, změní se i pod druhým jménem. Potřebujete "copy on write" = jakmile se jeden soubor změní, duplicita padá a od té chvíle hezky každej po svym prkně. Tohle může zajistit jedině FS :-/
-
Teoreticky deduplikaci umí ZFS, Btrfs a XFS. Prakticky se ZFS nedá použít bez spousty RAM, dělá deduplikaci za chodu.
XFS a Btrfs dělají deduplikaci na požádání, například duperemove. Použití na XFS a Btrfs je stejné: https://gist.github.com/AnatomicJC/d51072e09f4f17c05042f639e7b1f4c6
Nebo jde použít cp --reflink=auto -vr venv1 venv2, to potom venv2 nezabírá skoro nic. Až se tam něco změní, tak až pak teprve ty změny budou něco zabírat. A samozřejmě změna ve venv2 nezmění nic ve venv1 jako v případě hard nebo soft linku.