Java a C# - porovnání práce se Zip souborem

Inkvizitor · « **Odpověď #30 kdy:** 29. 04. 2017, 07:36:30 »

Citace: Péťa 29. 04. 2017, 00:10:42

A teď zpátky od pana Jirsáka k Javě. Pokud to, co tvrdí trochu pomýlený pan Jirsák o ZipInputStream, je pravda, totiž že čte i nevalidní soubory v zip archivu a není to ani uvedeno v dokumentaci, tak je to, obávám se, ještě větší sračka, než si všichni mysleli, a nechci ani domýšlet, kolik tento paskvil, kterých je v Javě povícero, způsobil, za dobu své existence, škod v řádech milionů dolarů, a to na jen nejrůznějších chybách v produkci.

Trošku off topic, než se do sebe zase pustíte - tohle fakt znamená, že Java dokáže číst data ze zip souboru, který nemá konec? To by se mohlo hodit.

Reklama

Filip Jirsák · « **Odpověď #31 kdy:** 29. 04. 2017, 09:04:24 »

Citace: Inkvizitor 29. 04. 2017, 07:36:30

Trošku off topic, než se do sebe zase pustíte - tohle fakt znamená, že Java dokáže číst data ze zip souboru, který nemá konec? To by se mohlo hodit.

Ano, znamená. Ale také to znamená, že ten soubor je poškozený, a že tím pádem můžete přečíst něco, co v tom ZIPu vůbec není. Je to podobné, jako když si u souborového systému omylem smažete hlavičku – existují nástroje, které se pokusí z něj zachránit data, ale musíte počítat s tím, že dostanete spoustu souborů na jedné hromadě, kterou si pak budete muset ručně roztřídit na to, co je správné a platné, a na smetí, které se tam připletlo omylem.

Inkvizitor · « **Odpověď #32 kdy:** 29. 04. 2017, 09:19:11 »

Citace: Filip Jirsák 29. 04. 2017, 09:04:24

Citace: Inkvizitor 29. 04. 2017, 07:36:30
Trošku off topic, než se do sebe zase pustíte - tohle fakt znamená, že Java dokáže číst data ze zip souboru, který nemá konec? To by se mohlo hodit.
Ano, znamená. Ale také to znamená, že ten soubor je poškozený, a že tím pádem můžete přečíst něco, co v tom ZIPu vůbec není. Je to podobné, jako když si u souborového systému omylem smažete hlavičku – existují nástroje, které se pokusí z něj zachránit data, ale musíte počítat s tím, že dostanete spoustu souborů na jedné hromadě, kterou si pak budete muset ručně roztřídit na to, co je správné a platné, a na smetí, které se tam připletlo omylem.

Díky za odpověď, tohle jsem pochopil. Nicméně v typickém případě se zip dělá sekvenčně a nemodifikuje, nebo ne?

Filip Jirsák · « **Odpověď #33 kdy:** 29. 04. 2017, 09:41:29 »

Citace: Péťa 29. 04. 2017, 00:10:42

Tam je totiž základní kravina v tom, že je tam vůbec nějaká třída umožňující procházet zip soubor implementovaná jako nějaký potomek InputStream, protože to má být spíše potomek Iterator. Toť věc první. Druhý problém, podstatně základnější, tam je v tom, že InputStream není napsán dostatečně abstraktně. Proto vůbec vznikla taková kravina, jako je FilteredInputStream.

InputStream by se totiž měl správně jmenovat ByteInputStream. Je to totiž, stejně jako v C#, proud nad typem byte. Správně, abstraktně implementovaná třída Stream, by měla být generická, s možnosti vybrat si, nad jakou jednotkou to stream vlastně je. Protože proud může být nad byte, nad soubory, nad ip pakety, nad tenisovými míčky nebo nad molekulami vody.

Názorná ukázka toho, že čím méně toho člověk ví, tím méně informací má o tom, co všechno neví – a má pak pocit, že rozumí skoro všemu. Vaše poučování o tom, jak by něco mělo být správně architektonicky navržené, je zábavné – když si uvědomíme, že neumíte naprogramovat triviální domácí úkol, a neumíte vlastně ani správně číst a psát. Navíc celý balíček java.util.zip byl do Javy přidán v JDK 1.1, která byla vydána před dvaceti lety – takže jdete trošku s křížkem po funuse.

Citace: Péťa 29. 04. 2017, 00:10:42

Podstatně blíže abstraktnímu pojetí streamu je totiž v podstatě Iterator. To je správně abstraktně napsaný Stream.

To, že vy máte jakousi mlhavou představu, co by měl dělat váš stream, vůbec neznamená, že jsou ostatní povinni to slovo používat stejně. Java prostě na začátku zavedla pro proud bajtů označení „stream“, protože se to hodilo a slovo „stream“ v té době bylo ve světě programování volné.

Citace: Péťa 29. 04. 2017, 00:10:42

Nikdo netvrdí, že něco, co je Stream nad zip souborem, musí procházet i smazané soubory,.

Netvrdím to ani já. Kdybyste si přečetl pořádně, co jsem napsal, dozvěděl byste se, že ZipInputStream, tak, jak je implementován v JRE, nutně prochází i smazané soubory nebo staré verze souborů. A že se tak nutně musí chovat každá implementace, která bude zip soubor načítat z proudu bajtů a nebude ho někde bufferovat. Plyne to z toho, jakou má zip formát strukturu – že „hlavička“ souboru s informacemi, kde co v souboru je, je uložená až na konci souboru.

Asi vám formát toho souboru připadá hloupý, protože abyste s tím souborem mohl rozumně pracovat, musíte mít k jeho obsahu náhodný přístup. Jenže ten souborový formát vznikl už v době pevných disků, které náhodný přístup umožňují – a tahle struktura formátu má tu obrovskou výhodu, že můžete ze zip souboru získat jeden soubor, aniž byste musel procházet vše, co je před ním. A zároveň to umožňuje vytvořit zip soubor na jediný průchod.

Citace: Péťa 29. 04. 2017, 00:10:42

ValidZipInputStream by byl taky stream a vracel by klidně jen validní soubory podle té vaší zip složky.

Akorát že takový stream by si nutně musel někam bufferovat načítaná data. Což není nic, co by mělo být ve standardní knihovně, protože je to velmi implementačně závislé. Někdy budete vědět, že stačí bufferovat do RAM, někdy budete vědět, že je potřeba použít disk, někdy budete vědět, že můžete disků použít víc, někdy, že stačí bufferovat jen některé položky. To si můžete implementovat v nějaké knihovně, ale nemá to co dělat v nízkoúrovňové základní knihovně.

Citace: Péťa 29. 04. 2017, 00:10:42

Na disku máte taky data fyzicky zapsány různě napřeskáčku a některé z nich jsou smazané, připadá vám však ale, že nad soubory pak fungují streamy nějak blbě?

Máte zmatek v základních objektech, o kterých se tu bavíme. Souborový systém odpovídá zip souboru, jednotlivé soubory na tom souborovém systému odpovídají jednotlivým souborům v zipu. Ostatně existují různé nástroje, které se umí k zip souboru chovat, jako by to byl souborový systém. Streamy nad soubory v Javě (FileInputStream, FileOutputStream) operují nad jednotlivými soubory, ZipInputStream ale operuje nad celým zip souborem, tedy nad kolekcí souborů – tedy by to odpovídalo streamu nad celým souborovým systémem. Kdybyste implementoval nějaký třeba (pro jednoduchost) FATInputStream, který by měl na vstupu proud bajtů, měl byste s tím úplně stejný problém – musel byste data bufferovat (a to by vám u FAT stačilo bufferovat jen hlavičku, protože u FAT je na začátku diskového oddílu).

Citace: Péťa 29. 04. 2017, 00:10:42

Takže si v tom udělajte pořádek pane Jirskáku, zamyslete, co jsou to vlastně streamy, máte už na to věk.

Děkuji za péči. Souhlasím s tím, že jeden z nás v tom má velký guláš. A myslím si, že je to ten, kdo neumí naprogramovat takovou trivialitu, jako je rekurzivní výpis seznamu souborů v zip souboru.

Citace: Péťa 29. 04. 2017, 00:10:42

Pokud to, co tvrdí trochu pomýlený pan Jirsák o ZipInputStream, je pravda, totiž že čte i nevalidní soubory v zip archivu

Já jsem se díval do zdrojáku té třídy a na specifikaci zip formátu. Odkud své informace čerpáte vy? Navíc já jsem nepsal, že čte nevalidní soubory v zip archivu – napsal jsem, že čte i položky, které mohly být později upravené nebo smazané.

Citace: Péťa 29. 04. 2017, 00:10:42

tak je to, obávám se, ještě větší sračka, než si všichni mysleli, a nechci ani domýšlet, kolik tento paskvil, kterých je v Javě povícero, způsobil, za dobu své existence, škod v řádech milionů dolarů, a to na jen nejrůznějších chybách v produkci.

Nemyslím si, že by vás pustili k něčemu, kde by mohly vzniknout škody v řádech milionů dolarů. A lidé, kteří umí aspoň trochu programovat, nebudou používat FileInputStream, který je k ničemu, ale použijí ZipFile nebo rovnou nějakou knihovnu. A taky si zjistí něco o formátu zip a ověří si, jestli je v souladu zadání a to, co chtějí použít při implementaci.

Filip Jirsák · « **Odpověď #34 kdy:** 29. 04. 2017, 09:53:34 »

Citace: Inkvizitor 29. 04. 2017, 09:19:11

Nicméně v typickém případě se zip dělá sekvenčně a nemodifikuje, nebo ne?

Pravděpodobně ano. Nicméně vždycky je možnost, že ten zip někdo dodatečně upraví (dělal jsem to mnohokrát), taky je možné, že se někomu z důvodu snazší implementace hodí vytvořit ho „modifikovaný“ rovnou. A pak je tu samozřejmě možnost, že někdo vytvoří nějaký záškodnický plně validní zip záměrně.

Což je potřeba brát docela vážně, když uvážíte, že moderní souborové formáty kancelářských balíků (OpenDocument od OpenOffice.org a Office Open XML od Microsoftu) jsou zip archivy, zip archivy jsou třeba i binární balíčky Java programů. Takže když to rozbalíte špatně, můžete dostat jiný dokument nebo jiný program. Všechny zmíněné formáty umožňují dokument/balíček i podepsat, ale podepisuje se jen vnitřek zipu. Takže některým chybným implementacím rozbalení zipu (které by ignorovaly „hlavičku“ souboru) by bylo možné podstrčit dokumenty nebo balíčky, které by byly validním zipem, ta chybná implementace by je bez problémů rozbalila, seděly by všechny podpisy – akorát by tam bylo něco jiného, než kdybyste ten zip rozbalil správně.

Reklama

tnr · « **Odpověď #35 kdy:** 29. 04. 2017, 09:59:22 »

Paneboze, tak toto je novy level, porovnavat jazyky podlepodpory archaickeho archivu.

C# implementace si to nacte do bufferu v pameti, coz je zrovna tak spatne reseni, co kdyz budu po tcp socketu chtit nacist 100 gb zip stream?))) Hlavne uplne umele vykonstruovany problem, od kdy je podpora zip v standardni knihovne ukazka kvality jazyka? Co jazyky,co ji nemaji zadnou?

Péťa · « **Odpověď #36 kdy:** 29. 04. 2017, 12:03:51 »

Pane Jirsáku, ja vždy na root.cz obdivuji vaši vytrvalost a vervu s jakou dokazujete, že jste dost podivný člověk. Kdo jiný by taky na Twitteru likoval Merkelovou jako největšího státníka v Evropě.

Takže si to vezměme hezky popořádku. Stream je v Javě implementován dost blbě a nikdo se nad tím očividně řádně nezamyslel. Ve světě OOP mi opravdu označení pro Stream - tedy obecně proud něčeho - nepříjde vůbec nějak volné, ale naprosto jednoznačně se odkazující ke specifikaci, nad jakým typem dat to má vlastně proud má být. Viz Java 8 - Streamy.

Takže takový příklad, který vám poslouží jako taková berlička, pane Jirsáku, abyste konečně vymanil z te nevědomosti a pochopil, že bufferování nehraje roli při rozhodování, zda-li něco je stream nebo není:

Kód: [Vybrat]

class CommandInputStream extends BufferedInputStream<Command,KeyStroke> { ... }
class CompositeCommand extends Command { // ctrl+alt+del ? }

class ZipInputStream extends BufferedInputStream<ZipEntry,Byte>

Vám totiž nejde do hlavinky, že i input stream, který musí načíst nejprve celý vstupní stream, je rovněž stream. Takže ne, není pravda, co tvrdíte, že každá implementace ZipStreamu musí nutně na výstup posílat rovněž nevalidní soubory. Takto se to rozhodli udělat v Javě a je to samozřejmě špatně, protože to neuvedli v dokumentaci.

Dále, je-li v nějaké knihovně třída pro práci se zip archivy, pojmenujme ji teď lépe ZipArchive, očekává se od ní, že uživatelům umožní rozbalit soubor, který chtějí. Když nějaký uživatel bude používat tuto třídu ZipArchive, očekává, že bude správně fungovat, ne, že fungovat nebude. Je takový problém, aby se v případě, že dochází paměť, začalo prostě bufferovat na disk? Nic jiného k zajištění správné funkce ani není možné, takže proč vy vlastně tvrdíte, že je to problematické a že si to musí každý naimplementovat sám podle svých potřeb? Implementace ZipArchive je naprosto jednoznačně daná.

Pane Jirsáku, vemte si někdy taky dovolenou, oddechněte si, sportujte, nechoďte tolik na sluníčko a bude to zase fajn.

Java a C# - porovnání práce se Zip souborem

Inkvizitor

Inkvizitor

tnr

Péťa

Tnr

Péťa

Nemo7

Nemo7