Program pro stažení celého webu

Dzavy

Re:Program pro stažení celého webu
« Odpověď #15 kdy: 28. 01. 2015, 17:40:57 »
Zaprvy, na http://www.kesyl.unas.cz/pocasi-kunovice proste vubec zadna Java neni, jenom JavaScript. Zadruhy, jestli Te zajimaji historicky statisticky data, tak nechapu k cemu bys ukladal celou stranku, kdyz muzes stahnout jenom ty data z http://www.kesyl.unas.cz/pocasi-kunovice/data/dayfile.txt a mnohem snadnejs je zpracovat.

Jinak ty blaboly o 20GB RAM pro 7zip atd. jsou fakt vtipny - hlavne me zajima, jak pak budes s tim archivem s miliony soubory stranek, ktere Te poskozujou nebo se pomalu nacitaji, rozumne pracovat.


Honza1

Re:Program pro stažení celého webu
« Odpověď #16 kdy: 28. 01. 2015, 17:42:18 »
Tomáš, OMG

Ještě jsem zapomněl zmínit program ImgBurn, který yvládne udeělat ze složky souborů iso soubor (nebo bin, prostě obraz CD) včetně struktury podsložek. Můžeš sil zvolit různé verze ISO, UDF, Joilet. Nepotřebuješmechaniku a velikost výsledného archivu není omezena. Je to lepší než tar, protože to můžeš namontovat na virtuální mechaniku a prohlížet soubory bez rozbalení. Přio kompresi 7zip je velikost výsledného iso/bin podobná jako při kompresi složky souborů a rozbalení jednoho velkého iso/bin souboru je postatně rychlejší než rozbalení složky+podsložek s 100 000+ malých souborů.

Neduhy to také má. Možná je jen pro Widle, takže spouštět pod wine. Pravděpodobně jejen 32-bit takže při víc jak přibližně  1 000 000 souborů překročí velikost procesu v paměti 2 GB a finito. Když jsou názvy souborů opravdu dlouhé, zkrátí je to (můžeš si luložit log a tam je přejmenování vypsané). Nevýhodou je velká náročnost CPU při počítání stromu souborů tam kde je velký počet souborů v jedné složce, náročnost cca s druhou mocninou. 10 000 souborů ve složce pár minut, 100 000 souborů pár hodin, 1 000 000 i víc jak tejden. (předpokládám systémm souborů ISO+UDF současně - udf nemá moc omezení a iso zvládá otevřít nebo zkontrolovat arhciv či rozbalit víc programů, vč. 7zip)

Honza1

Re:Program pro stažení celého webu
« Odpověď #17 kdy: 28. 01. 2015, 17:48:48 »
Dzavy

To byl jen jeden z mnoha příkadů.

Jinak na 7zip si přečti nastavení. Při 7z a -t7z -m0=lzma -mx=9 -mfb=273 -md=1024m -ms=on JmenoArchivu.7z máš právě těch 10,5 GB + seznam souborů. Důležité je (-md=1024m). 20 GiB je opravdu extrém, jak jsem psal. Max. 16,5 jsem se co kdy dostal, to je asi těžko překonatelný rekord.

Pracovat se stránkama můžeš jednoduše, jako offline browsing. Záleží konkrétě o co jde. Mícháš moc věci dohromady, v předchozím příspěvku jsem napsal všechny důvody co mě napadly.


Honza1

Re:Program pro stažení celého webu
« Odpověď #18 kdy: 28. 01. 2015, 18:04:12 »
Dzavy

Pokud potřebuješ pár důkazních stránek, tak to ti stačí je několik málo dat (většinou 1-100 MB)
Pokud potřebuješ stránku co se pomalu načítá (delší seznamy), tak nacronuješ v době malézátěže (3 ráno) skript a dáš reap. Mezi requesty dáš pauzu, aby si moc nepřetěžoval server.
Milionz requestů - budeš zpracovávat nějaký data v různé podobně. Máš řekněme 100 000 stránek a na každé stránce pár desítek údajů. Převod do souboru txt pomocí grep, ed, gawk. Pro každej typ údaje te to na každou stránku jeden přístup, kolik celkem ? Příklad uvedu tady http://planety.astro.cz/planetky/1815-seznam-planetek

Re:Program pro stažení celého webu
« Odpověď #19 kdy: 28. 01. 2015, 19:05:26 »
Tomáš, OMG

Ještě jsem zapomněl zmínit program ImgBurn

Neduhy to také má. Možná je jen pro Widle, takže spouštět pod wine.

Mno, opravdu není nutné spouštět cokoliv pod wine, když je hromada nativním programů. Např. growisofs.

Jinak místo 7zip nebo ISO bych spíše doporučil squashfs. Je to souborový systém přímo navržený na kompresi a silnou deduplikaci (po blocích), dá se připojit (read only) a dá se k němu připisovat další data (append, nikoliv re/write). Používají jej např. různá live distra. Není problém jít do stovek GB.

-nd znamená všechny soubory v jednom adresáři, takže se jesště situace toho co viím jako problém zhorší. -m znamená -r -l inf(nekonečno) -N(stejná timstamp jako na serveru). Ale při příkazu -m nejde použít -nc (vynechá již stažené soubory).

Ano, já to také psal jako příklad pro stažení jedné URL (chci to mít v ploché struktuře bez podadresářů, stejně to jde do taru a do db), pro mirror potom používám jiné parametry wgetu (-E -H -k -K -p -r -l0).


Dejmon

Re:Program pro stažení celého webu
« Odpověď #20 kdy: 28. 01. 2015, 23:06:31 »
nic jednoduššího než stahovač celých stránek z webu je WebHTTrack.

Re:Program pro stažení celého webu
« Odpověď #21 kdy: 29. 01. 2015, 00:27:13 »
Dejmon

Ano ten byl zminen hned na zacatku, ten jsem neznal. Na jednoduche stranky se da pouzit prakticky cokoliv. Zkusenosti s s nim nemam a kdovi jak zvlada slozite veci. Otazkou je take jak lze ridit a skriptovat.

Tomas

To jsem ani neznal growisofs. Nejsis bude i 64-bit a tak narozdil od ImgBurn nespadne pri prekroceni velikosti procesu v RAM 2 GB.
Mohl by take zvladat lip dlouha a slozita jmena souboru a hlavne hodne souboru v jednom adresari (U IMG burn pri 50-100 tis. souboru jdes na kafe, a 1M souboru to je tak tyden)

squashfs jsem ani neznal, 7zip jde prikazove i pod linuxem (p7zip). Myslis ze da lepsi kompresi nez 7z u hodne podobnych stranek ?

Re:Program pro stažení celého webu
« Odpověď #22 kdy: 29. 01. 2015, 00:27:57 »
Registrovat se pod Honza1 uz neslo - to uz nekdo pouziva.

nobody

Re:Program pro stažení celého webu
« Odpověď #23 kdy: 29. 01. 2015, 00:47:51 »
ROZHODNE squashfs (balik squashfs-tools, prikazy mksquashfs/unsquashfs) s xv kompresi (-comp xv)
uz spoustu let (10? 15?) pouzivaj snad vsechny linux livecd, drive s zlib kompresi, nebo neoficialni lzma hlavne v slax

Re:Program pro stažení celého webu
« Odpověď #24 kdy: 01. 02. 2015, 20:52:38 »
Nobody

Právě LZMA používá i 7zip. Např. u bloggu sosnutéto teleportem (s komentářema a diskuzí hodně) udělal ze 7 GB 86 MB, což docela jde. Velmi důležitá je kromě vysoké komprese propojenost mezi soubory (to i podobnosti v obázcích png,gif,jpg). Nicméně squashfs může být ještě lepší.

Jinak u ImgBurn pro win (32-bit jen) je důležité upozornění na dva ad-ware, co se nebízejí při instalaci. Je potřeba v každé fázi vše prohlédnout a vyškrtnout je. ImgBurn nezvládá extrémně dlouhé názvy a přejmenuje je. U TAR a ZIP může být probléz z diakritikou. 7zip, squashfs, growisofs by měl zvládat vše OK, a hlavně jako 64-bit nespadne, když velikost procesu překročí 2 GB.

Tomáš

Co vlastně používáš, nějaké zpracování textu, vyhledávání, hledání kopií ?

Re:Program pro stažení celého webu
« Odpověď #25 kdy: 02. 02. 2015, 09:43:33 »
Tomáš

Co vlastně používáš, nějaké zpracování textu, vyhledávání, hledání kopií ?

Ne, ke každé stažené stránce mám jen čas stažení, URL a Title. Samotné stažené .html nijak dále nezpracovávám. Já to mám opravdu jen pro případ, kdy ten web zmizí, v ideálním případě to vlastně vůbec nepoužiji. Případně jen (v případě třeba EnglishRussia.com) vytáhnu ven obrázky do galerie.

offliner

Re:Program pro stažení celého webu
« Odpověď #26 kdy: 02. 02. 2015, 12:21:17 »
nechápu, proč z online internetu vyrábět nějaký nekonzistentní otisk

Dnes online je, zitra byt nemusi. Mam zalozky plny mrtvych odkazu na stranky, ke kterym se uz nikdy nedostanu.

jenda

Re:Program pro stažení celého webu
« Odpověď #27 kdy: 02. 02. 2015, 12:48:30 »
to musi byt desna ztrata, kdyz to po 4 letech uz neexistuje ;)

Peter

Re:Program pro stažení celého webu
« Odpověď #28 kdy: 02. 02. 2015, 14:15:30 »
Tomáš

Co vlastně používáš, nějaké zpracování textu, vyhledávání, hledání kopií ?

Ne, ke každé stažené stránce mám jen čas stažení, URL a Title. Samotné stažené .html nijak dále nezpracovávám. Já to mám opravdu jen pro případ, kdy ten web zmizí, v ideálním případě to vlastně vůbec nepoužiji. Případně jen (v případě třeba EnglishRussia.com) vytáhnu ven obrázky do galerie.

V prípade English Russia by som sa radšej zameral na pätičku "via" v ktorej je odkaz na pôvodný článok s obrázkami bez zmenšenia.

OMG

Re:Program pro stažení celého webu
« Odpověď #29 kdy: 02. 02. 2015, 14:37:22 »
to musi byt desna ztrata, kdyz to po 4 letech uz neexistuje ;)
to je relativni... pokud mas jako hobby neco co bavi tebe a dalsi 2 maniki, pak ztrata informaci je podstatna...