Zobrazit příspěvky

Tato sekce Vám umožňuje zobrazit všechny příspěvky tohoto uživatele. Prosím uvědomte si, že můžete vidět příspěvky pouze z oblastí Vám přístupných.


Příspěvky - Kit

Stran: [1] 2 3 ... 67
1
Software / Re:Odstranění duplicit a konsolidace dat
« kdy: 13. 05. 2026, 09:09:17 »
Neviem, čo vám skrachovalo, v podstate ma to ani nezaujíma, neobťažovali ste sa sem vlepiť príkazy, ktoré ste použili, dohadovať sa o tom, čo to bolo a riešiť to je pre mňa strata času, ale z toho popisu, čo ste sem dali si myslím, že je to úplne mimo kontext toho, čo som písal ja, aj mimo mnou navrhnutého riešenia, pretože v tom nikto žiadne veľké dáta cez kolónu neposiela. To nakoniec v PowerShelli v rámci jeho štandardnej knižnice celkovo nerobí nikto, posielaný je odkaz na objekt .Net obsahujúci metadáta týkajúce sa položky súborového systému, ako napríklad cesta, dátumy, veľkosť, vlastnosti, atď., prípadne ďalšie pridané vlastnosti. Dáta zo súboru sú načítavané prúdom .Net po častiach, inkrementálny hash je tiež počítaný objektom z .Net. To všetko je uvedené už v mojom prvom príspevku.

Přes kolonu běžně posílám desítky GB dat. Jednoduchý příkaz:
Kód: [Vybrat]
tar czvf - adresář | gzip > archiv.tgzFunguje to skvěle, rychle a využiji tím 2 jádra procesoru současně.

Pro deduplikaci souborů:
Kód: [Vybrat]
sha256sum . | sort | filtr_mazající_duplicity

2
Software / Re:Odstranění duplicit a konsolidace dat
« kdy: 12. 05. 2026, 19:33:43 »
Už som vám naznačoval, že to, čo ste popisovali, je už viac ako 25 rokov vyriešené a teda žiadne súbory tam nie sú. A okrem toho, v PowerShelli idú dáta cez kolónu k spotrebiteľovi cez ešte menšiu časť pamäte ako v Linuxe. Dokumentácia aj zdrojový kód sú tuším otvorené a verejne dostupné.

Dá se to poznat tak, že tou rourou pošlu třeba 200 GB dat, když je jen 100 GB volného místa v úložišti. Pokud mám pravdu, tak to zkolabuje. Pokud nemám pravdu, tak to proběhne během několika málo sekund.

Ve Windows 10 mi to zkolabovalo.

3
Software / Re:Odstranění duplicit a konsolidace dat
« kdy: 12. 05. 2026, 17:47:20 »
Ve Windows je to tak komplikované? No jo, nemají roury...
PowerShell pochopiteľne "roury" má, a asi vás zmiatlo, že nepíšem o primitíve spájajúcom dve fázy spacovania, čo je menej dôležitý koncept, ale o celom mechanizme kolóny, označenom tak sme sa to kedysi dávno učili.

Pokud vím, tak Windows mají stále parodii na roury přes dočasné soubory. Není to efektivní a proto je uživatelé moc nepoužívají. Zejména při zpracování velkých souborů je to problém.


Je možné, že si mýlite operačný systém a programovací jazyk? To by sa v kombinácii s tým ako autoritatívne sa vyjadrujete k príspevkom ostatných asi nemalo stávať.

Jasne píšem, že je to pre PowerShell a ten predsa beží aj na Linuxe aj na MasOS. Tak prečo do toho montujete Windows, mimochodom vo verzii 95, možno 98? Odvtedy už tie veci, ktoré spomínate fungujú inak a to už je minimálne štvrť storočia. Okrem toho v prvej odpovedi spomínam aj iné programovacie jazyky. Mechanizmus vyraďovania súborov, ktoré nie sú duplikátmi ostane rovnaký.

V Linuxu je podpora pipe službou operačního systému, není tedy součástí aplikace. Vůbec nevyužívá souborový systém, data jdou od producenta ke konzumentovi přes velmi malou část operační paměti. Ve Windows je podpora emulována přes soubory a tím má mizerný výkon. Netuším, zda to v pozdějších verzích napravili, ale nemám to jak zjistit. V desítkách to ještě nebylo a obávám se, že to tam stále není.

4
Software / Re:Odstranění duplicit a konsolidace dat
« kdy: 12. 05. 2026, 13:59:54 »
Ve Windows je to tak komplikované? No jo, nemají roury...
PowerShell pochopiteľne "roury" má, a asi vás zmiatlo, že nepíšem o primitíve spájajúcom dve fázy spacovania, čo je menej dôležitý koncept, ale o celom mechanizme kolóny, označenom tak sme sa to kedysi dávno učili.

Pokud vím, tak Windows mají stále parodii na roury přes dočasné soubory. Není to efektivní a proto je uživatelé moc nepoužívají. Zejména při zpracování velkých souborů je to problém.

Citace
Takže když v bloku n+1 změním písmenko, tak jsou soubory stále shodné?
- ak je ale kontrolný súčet za prvých n blokov rovnaký, tak ten rozdiel v jednom bajte zistíte v iterácii n+1, do iterácie n sú súbory kandidátmi na duplikáty, ale v iterácii n+1 nimi byť prestanú a tiež ich vyradíte z ďalšieho spracovania

Inak, mohol som asi použiť i na označenie čísla iterácie, ale to už je teraz jedno.

Takže ty soubory stejně musím projít celé, ale už chápu, že jen některé.

5
Software / Re:Odstranění duplicit a konsolidace dat
« kdy: 12. 05. 2026, 10:48:58 »
Súbory, ktoré majú rovnakú veľkosť a nemajú rovnaký inkrementálny hash z prvých n blokov nie sú duplikátmi a nie je teda pre ne nutné počítať hash od bloku n+1. Vlastne možno ani nemusí byť počítaný inkrementálny hash, ale stačí prostý hash z daného bloku, ale to je v podstate jedno, lebo vypočítať hash je lacné v porovnaní so získaním dát z úložiska.

Takže když v bloku n+1 změním písmenko, tak jsou soubory stále shodné?

6
Software / Re:Odstranění duplicit a konsolidace dat
« kdy: 12. 05. 2026, 10:01:32 »
Sám jsem deduplikaci pomocí hash úspěšně udělal v Bashi na své sbírce filmů. Najde shodu i když mají různé názvy.
Pokud tě zajímají jen přesné duplicity, tak je to v pohodě, i když to na velkém úložišti bude prostě trvat (přečíst celý disk a prohnat ty TB skrz CPU...), a rozdělil bych to tedy na "spočítej hash pro všechno a ulož do sqlite" a pak dál pracoval už jen s tou sqlite (protože dělat random seek v txt, co má pár MB, taky není nejrychlejší, když to děláš milionkrát).

Jaký random seek? Proženu to sortem a projdu sekvenčně

7
Software / Re:Odstranění duplicit a konsolidace dat
« kdy: 12. 05. 2026, 00:15:52 »
sam mam zkusenost, ze delat hash jednotlivych souboru a porovnavat je overkill.
.
Postup v skratke pre PowerShell: ...

Ve Windows je to tak komplikované? No jo, nemají roury...

8
Software / Re:Odstranění duplicit a konsolidace dat
« kdy: 12. 05. 2026, 00:12:23 »
sam mam zkusenost, ze delat hash jednotlivych souboru a porovnavat je overkill.
udelat deduplikovani relativne malych textaku a zdrojaku a xml asi jde, ale u velkych obrazku a binarnich souboru je to skoro nemozne.
takze ja bych to zkusil jen na nazvech adresaru a nazvech souboru, cesty a nazvy souboru jde zpracovat bud skripty nebo pomoci ai.
az v poslednim kroku zkusit porovnat velikost, hash pro soubory se stejnou cestou a stejnym nazvem.

Sám jsem deduplikaci pomocí hash úspěšně udělal v Bashi na své sbírce filmů. Najde shodu i když mají různé názvy. Nevidím v tom žádný overkill, prostě to funguje. Skript asi na 6 řádek - bylo to nečekaně rychlé. Prostě stačí výstup sha256sum seřadit a pustit do filtru, který ty duplicity zobrazí, případně rovnou smaže.

no u nekolika gigoveho filmu mi ten hash trval i 10s, tak to se mi nechtelo zase tak cekat, takze jsem nejprve porovnaval jen nazvy adresaru a souboru.

Potřeboval jsem deduplikovat shodné soubory s potenciálně různými názvy v různých adresářích. Přes sha256 jsem měl napsán skript asi za 5 minut. Než jsem si uvařil kafe, bylo deduplikováno. Nedělám to každý den, optimalizace tedy nedává smysl.

9
Software / Re:Odstranění duplicit a konsolidace dat
« kdy: 11. 05. 2026, 22:25:14 »
sam mam zkusenost, ze delat hash jednotlivych souboru a porovnavat je overkill.
udelat deduplikovani relativne malych textaku a zdrojaku a xml asi jde, ale u velkych obrazku a binarnich souboru je to skoro nemozne.
takze ja bych to zkusil jen na nazvech adresaru a nazvech souboru, cesty a nazvy souboru jde zpracovat bud skripty nebo pomoci ai.
az v poslednim kroku zkusit porovnat velikost, hash pro soubory se stejnou cestou a stejnym nazvem.

Sám jsem deduplikaci pomocí hash úspěšně udělal v Bashi na své sbírce filmů. Najde shodu i když mají různé názvy. Nevidím v tom žádný overkill, prostě to funguje. Skript asi na 6 řádek - bylo to nečekaně rychlé. Prostě stačí výstup sha256sum seřadit a pustit do filtru, který ty duplicity zobrazí, případně rovnou smaže.

10
Software / Re:Odstranění duplicit a konsolidace dat
« kdy: 11. 05. 2026, 19:49:49 »
Použil bych Git. Vezmeš nejstarší adresář, dáš git init, git add, git commit. Potom novější soubory přesuneš do tohoto adresáře. Znovu git add, git commit. Přesuneš další a další. Git si už s duplicitami poradí i v případě rozdílných názvů. Starší soubory pak najdeš v historii.

Samozřejmě je nutné soubory rozdělit do projektů, to dá rozum.

11
/dev/null / Re:Co nejčastěji tvoříte na Linuxu?
« kdy: 09. 05. 2026, 18:24:59 »
To je nějaká diskuse pomocné školy, ne?

vsak cely root.cz je pomocne forum pre ludi s poruchami...  ;D staci pozriet ake temy zaklada novomente, a ako dlho trva modom kym mu to zamknu, alebo poslu do zadeke... zas na druhu stranu aspon sa nieco deje, lebo inak to tu o chvilu skape... vsetci asi riesia linuxove problemy radsej s AI...  ::) teraz ma napadlo: kto je tu dlhsie iste pozna Bleka a jeho schizoidnu poruchu osobnosti... ktovie co s nim je :D
AI generuje zajímavé výsledky, ale sdělí je tak chladně a bez emocí, že při tom vůbec není žádná legrace  :)

Asi jsi ještě nezkoušel AI trolit. Je to legrace.

12
Bazar / Re:Prodám HPE Proliant Microserver Gen10 Plus
« kdy: 07. 05. 2026, 13:48:32 »
Koukám, že podle internetu je to cenově dost mimo moje možnosti a hlavně účelnost k tomu co potřebuju bohužel. Před pár lety jsem tu koupil gen8 za tisícovku, provozuju ho jako NASku, a klidně bych ještě jeden upotřebil.

Je škoda, že gen8 se už nevyrábí. Bylo to hodně muziky za málo peněz. Nástupce je sice lepší, ale cenově je už mimo. Navíc do něj přestali dávat Intel a místo malého domácího úsporného serveru začali soupeřit s firemními mašinami.

13
Sítě / Re:Vytvoření anonymní identity na internetu
« kdy: 06. 05. 2026, 13:29:56 »
Anonymní identita má smysl. Když jsem zveřejnil názor pod pravou identitou, tak mi občas bylo vyhrožováno, jednou jsem přišel o zaměstnání a podobně. Někteří lidé jsou prostě zlí. Vy, kteří mě znáte, tak víte, že nikdy nikomu nevyhrožuji, jen mám občas názory, které jsou nekonformní. Přesto bývám označován za trolla od jednotlivců, kteří by sami mohli být označeni za trolly, protože mě napadají.

Proto používám částečnou anonymitu. Nepotřebuji, abych kvůli svým názorům byl zbytečně šikanován v osobním životě.

14
/dev/null / Re:Co nejčastěji tvoříte na Linuxu?
« kdy: 02. 05. 2026, 17:37:23 »
Pro upřesnění: Netvořím na Linuxu, ale na Ubuntu. Linux je jen jádro, které se stará o prostředky.

Většinou tvořím nějaké skripty, scrapery a proxy brány, abych si usnadnil vyhledávání. Texty, prototypy programů, které mě zrovna napadnou, psal jsem na něm svou diplomku v LaTeXu, webstránky, grafy, obrázky 2D i 3D, střih videa, vývoj pro Arduino, ...

Hlavní část své práce však dělám na tabletu s Androidem, který také má linuxové jádro.

15
Hardware / Re:Mají smysl disky z bazaru do NAS?
« kdy: 29. 04. 2026, 10:15:21 »
Není nad to zjistit, že ta krabice co vám roky běží někde pod stolem je úplně k ničemu, protože polovina disků je mrtvá.

V případě dvoudiskového RAID1 by to zas tak vadit nemuselo.


nemuselo, ale mohlo. zvlášť pokud jsou oba disky ze stejné série a běží stejně dlouho, tak budou mít prakticky stejnou měrou opotřebený pohyblivý součásti a stejně vyhřátou elektroniku. takže se může velmi snadno stát, že tam dáš novej disk a ten dosud "zdravej" se při rebuildu rozsype, protože ta zátěž ho takříkajíc skopne z útesu.

Z těchto důvodu by disky v RAID1 neměly být v jedné bedně s jedním řadičem.

Stran: [1] 2 3 ... 67