Program pro stažení celého webu

Re:Program pro stažení celého webu
« Odpověď #45 kdy: 05. 03. 2015, 14:49:02 »
To je šílený, fakt... Evidentně nemáš moc šajn, ale za to máš bujnou fantazii. :) Můžeš mi prosím říci, v čem je nelogické poslat e-mail kde napíšu "uloztodl: pan prstenu dve veze" a až přijdu k tv, podívám se na nazadný film? Co na tom přesně nedává smysl? Ještě jsem od té doby neměl čas, ale dohromady to samozřejmě dám, už mi to dobře půl roku fungovalo, než to překopali.

Podle toho jak si to napsal, tak jsem spíše pochopil, že potřebuješ vyhledávat podle názvu a následně subor stáhnout. Když to budeš dělat skriptem,  při vyhledávání vyskočí víc možností a který soubor stáhneš, ten první ? To nevíš nic o formátu a kvalitě. A pokud stáhneš souborů víc, tak budeš plejtvat dost drahej datovej limit. Spíš ych to chápal tak že máš konkrítní odkazy k souborům, co se dají stáhnout.

Jinak při stahování skriptem nejde o rychlost, když to běží pořád, 100-300 kB/s stačí. Tak by spíš šlo o to, že bez registrace můžeš navolit dopředu např. 20 souborů, které se postupně stáhnou (Jak jeden skončí, druhý začne). O to jde, že souborům máš víc a nemuéš u toho bejt a s každym novym řešit capthu (což jde asi jen přez registrovaný účet).


Re:Program pro stažení celého webu
« Odpověď #46 kdy: 05. 03. 2015, 17:06:56 »
ahoj
takový program bych potřeboval ale abyto nestahovalo ten web ale jenom hudbu a videa z toho webu. Samo by to nemohlo stahovat celí web protože by se do macu nevešel ale jenom třeba jenom některé vybrané věci.
šlo by to??
8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8)
8) 8) 8)  hoši víc jak 50% těch smajlů jsou v rámci gender equality příslušníci LGBDSM minority  8) 8) 8)
8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8) 8)

Alice

Re:Program pro stažení celého webu
« Odpověď #47 kdy: 09. 03. 2015, 08:36:03 »
Ahoj, já chtěla stáhnout z tohoto webu http://www.sea-seek.com/ebook/ všechny ty .pdf soubory , ale wget napíše
Kód: [Vybrat]
HTTP požadavek odeslán, program čeká na odpověď… 403 Forbidden
2015-03-09 08:33:26 CHYBA 403: Forbidden.
Nechce se mi klikat na každý zvlášť :/ .. jde to stáhnout nějak kompletně ? Děkuji za případnou odpověď.

roghir

Re:Program pro stažení celého webu
« Odpověď #48 kdy: 09. 03. 2015, 08:42:27 »
Svého času jsem používal program Teleport Pro. Základem byla "vstupní stránka", dále se určovala úroveň vnoření odkazů, ale bylo možné filtrovat typy souborů atd. Problém je, že daný SW byl pod Windows.

bloop

Re:Program pro stažení celého webu
« Odpověď #49 kdy: 09. 03. 2015, 08:54:58 »
Ahoj, já chtěla stáhnout z tohoto webu http://www.sea-seek.com/ebook/ všechny ty .pdf soubory , ale wget napíše
Kód: [Vybrat]
HTTP požadavek odeslán, program čeká na odpověď… 403 Forbidden
2015-03-09 08:33:26 CHYBA 403: Forbidden.
Nechce se mi klikat na každý zvlášť :/ .. jde to stáhnout nějak kompletně ? Děkuji za případnou odpověď.

Pouzij toto rozsireni ale je pouze pro firefox http://www.downthemall.net/


Alice

Re:Program pro stažení celého webu
« Odpověď #50 kdy: 09. 03. 2015, 09:25:59 »
Super , funguje i pro Iceweasel . To jsem přesně potřebovala. Děkují Alice

Re:Program pro stažení celého webu
« Odpověď #51 kdy: 11. 03. 2015, 18:50:49 »
ahoj
takový program bych potřeboval ale abyto nestahovalo ten web ale jenom hudbu a videa z toho webu. Samo by to nemohlo stahovat celí web protože by se do macu nevešel ale jenom třeba jenom některé vybrané věci.
šlo by to??

Stáhnutí určitého typu souboru (podle přípony) samozřejmě jde. Záleší o jaký web se jedná. Některé weby s audiem či videem se totiž stahování snaží zabránit. Obecně se dá napsat seznam chtěných i nechtěných přípon (robots.txt se většinou stáhne vždy). Linux rozlišuje velká a malá písmena, pro jednu příponu používam tedy 3 typy: pdf,PDF,Pdf. wget -A pripona1,priona2,..... je seznam souborů, které se mají stáhnout, wget -R pripona1,priona2,..... je seznam souborů, které se nemají stáhnout. Přípony se oddělují čárkou. wget -X vyloučí celý adresář, adresáře se oddělují čárkou a nezadává se doména www.neco.cz ale až poddoménové úrovně, tedy wget -X adresar1,adresar2,..... Např. s youtube, stream.cz, Uloz.to a další - tam to takto řešit nejde, mají ochran dost.


Re:Program pro stažení celého webu
« Odpověď #52 kdy: 11. 03. 2015, 19:09:57 »
Svého času jsem používal program Teleport Pro. Základem byla "vstupní stránka", dále se určovala úroveň vnoření odkazů, ale bylo možné filtrovat typy souborů atd. Problém je, že daný SW byl pod Windows.

Teleporty, ač velmi staré, to je asi nejvýkonnější program, co znám a zvládá prakticky vše, a to i když se web od poslední verze teleport razantně změnil. Ale smůla, že je jen pro windows a navíc je to komerční a poměrně drahý program (Teleport pro zase tak drahý neni). A neumožňuje skriptování, pouze vyloučení adresářů, nebo typů souboru (i podle velikosti, jména a pod.). O tom, jak je program starý, svědčí i to, že je deafultně nastavený User Agent Internet Exporer verze 5 nebo netscape. Nevýhoda u teleportt je podivný systém stahování - extrémní fragmentace na disku a extrémní zatížení disku (je z doby kdy internet byl pomalý). Teleport pro je omezen počtem staženných souborů 65536, což dost často nemusí stačit. Teleport ultra nabízí až cca 256000 souborů v jednom projektu, je cca 3x dražší a umožňuje import startovacích URL ze souboru. Ale ani 256 000 souborů někdy nemusí stačit. Teleport VLX zvládá až 40 000 000 URL jenže je 32-bit a když seznam URL v paměti dosáhne 2 GB, končí (to je cca 10 M adres). A rychlost je 1-5 URL/s při downloadu takže takový projekt běží extrémně dlouho (nad 1 M adres). Verze programovatelného teleportu také existuje ale je extrémně drahá (podobně jako VLX). V Linuxu se dá postit pod emulátorem, ale tento typ běhu jej extrémně zpomaluje. Na neoficiálních stránkách se nachází mraky zavirovaných verzí, které navíc mají limit z dola.

Re:Program pro stažení celého webu
« Odpověď #53 kdy: 11. 03. 2015, 19:19:10 »
Ahoj, já chtěla stáhnout z tohoto webu http://www.sea-seek.com/ebook/ všechny ty .pdf soubory , ale wget napíše
Kód: [Vybrat]
HTTP požadavek odeslán, program čeká na odpověď… 403 Forbidden
2015-03-09 08:33:26 CHYBA 403: Forbidden.
Nechce se mi klikat na každý zvlášť :/ .. jde to stáhnout nějak kompletně ? Děkuji za případnou odpověď.

Wget lze použít také, ale zde přímo wget je zablokován, proto se použije User Agent (např. Mozilla) a server tak hned nepozná, že jde o stahovač.

wget -r -l 1 -A pdf,PDF,Pdf -nc -nH -nd -U "Mozilla/5.0 ......................................" "http://www.sea-seek.com/ebook/"

 -r -l 1 jeden odkaz do hloubky
-A pdf,PDF,Pdf pouze soubory pdf
-nc po spuštění znovu stáhne jen soubory co staženy nejsou (přeskakuje in nekompletní soubory)
-nH nevytvoří se adresář se jménem souboru
-nd nevytváří se adresářová struktura
-U je User Agent a za tim jméno a verze prohlížeče (dá se podrobně rozepsat).

Jinak jde obecně pomocí cut,rep,sed,gawk,tr zdrojový kód stránky parsovat a vytáhnout soubory určitých vlastností (část webu, jméno obsahuje řetězec, přípona atd.).

Re:Program pro stažení celého webu
« Odpověď #54 kdy: 11. 03. 2015, 19:29:38 »
wget -r -l 1 -A pdf,PDF,Pdf -nc -nH -nd -U "Mozilla/5.0 ......................................" "http://www.sea-seek.com/ebook/"

Výsledek:
Downloaded: 111 files, 4.0G in 27m 33s (2.45 MB/s), 110 pdf souborů + robots.txt

Re:Program pro stažení celého webu
« Odpověď #55 kdy: 24. 04. 2015, 08:03:29 »
Tak jsem to vyzkoušel přímo zde - stažení forum.root.cz a následné úpravy. Program puštěn 28.2.2015, odkazy v html souborech konvrtovány pro lokální prohlížení, následně byl také vytlořen image ISO+UDF 2.00 soubor programem IMG BURN.

Info o průměhu:

Velikost a vlastnosti po stažení a konvertu URLs:
Velikost:      80.0 GB (85 993 522 972 bytes)
Velikost na disku:   81.1 GB (87 082 934 272 bytes)
587 883 Souborů,  1 129 Složek, hodně souborů v jednom adresáři forum.root.cz

7zip archív s maximální kompresí:   258 400 923 B, 246 MiB
Typ komprese ve win (64 MB slovník):   7z/ULTRA/LZMA/64 MB/273/2 Threads/Win

7zip archív s maximální kompresí:   225 683 561 B, 215 MiB
Typ komprese v Ubuntu (1024 MB slovník):   7z/ULTRA/LZMA/1024 MB/273/2 Threads/Linux p7zip

ISO+UDF image:      81.9 GB (87 980 113 920 bytes)
Image typ:      UDF 2.00+ISO, iso files length 219 (maximumální možná délka názvu souboru v ISO), podle logu žádný soubor neměl příliš dlouhý název pro přejmenování, v UDF možné názvy delší
Doba jednotlivých procesů při vytváření image:
Vytváření Image Tree okolo 3 dnů, Generování ISO jménna souborů okolo 2 dnů, Generování UDF jménna souborů okolo 3 dnů

Komprimovaný Image s max. kompresí ve win   267 543 672 B, 255 MiB
Typ komprese ve windows (64 MB slovník):   7z/ULTRA/LZMA/64 MB/273/2 Threads/Win

Komprimovaný Image s max. kompresí v Ubuntu:   235 828 501 B, 224 MiB
Typ komprese v Ubuntu (1024 MB slovník):   7z/ULTRA/LZMA/1024 MB/273/2 Threads/Linux p7zip

Doba stažení webu okolo 30 hodin
Doba konvertu URL adres okolo 33-35 hodin
Vytváření 7zip archívu ve win 7z/ULTRA/LZMA/64 MB/273/2 Threads/Win trvalo 16:39:10
Smaznání složky povytvoření 7yip archívu trvalo 1.5 hodiny
Opětovné rozbalení složky z 7z archivu (Win) okolo 3.5 hodin
Rozbalení 7z archivu ze soubory v Ubuntu trvalo okolo 20-25 hodin (důvodem je hodně souborů v jednom adresáři)
Vytvoření 7z archivu v Ubuntu  7z/ULTRA/LZMA/1024 MB/273/2 Threads/Ubuntu  při prvním běhu trvalo 6:42:32 a při zkoušce po druhé 7:31:56
Jednotlivé fáze vytváření ISO+UDF image souboru:
Vytváření image (ISO+UDF 2.00) - Vytváření Image Tree okolo 3 dnů
Vytváření image (ISO+UDF 2.00) - Generování ISO FILE Names okolo 2 dnů
Vytváření image (ISO+UDF 2.00) - Generování UDF FILE Names okolo 3 dnů
Vytváření image (ISO+UDF 2.00) - Zápis Image souboru na stejném oddílu disku 00:53:57 (Rozbalení složky ze 7z archivu trvalo asi hodinu, soubory již nebyly tak fragmentované jako po stažení a konverzi odkazů)
Test souboru Image ve win pomocí 7zip 00:10:31
7zip Archiv test (64 MB slovník, vytvořený  ve win) pomocí 7zip ve win 00:02:15
7zip Archiv test (1024 MB slovník, vytvořený v Ubuntu pomocí p7zip)  pomocí 7zip ve win 00:02:18
Smazání složky (rozbalené ze 7zip archivu, 587 883 Souborů,  1 129 Složek, 318 Kmenových složek) - prohledání složky trvalo jen 4 min
Smazání složky (rozbalené ze 7zip archivu, 587 883 Souborů,  1 129 Složek, 318 Kmenových složek)) - smazání souborů trvalo 15-16 min
Vytvoření 7zip archívu ve win -  (7z/ULTRA/LZMA/64 MB/273/2 Threads/Win) ze souboru ISO+UDF Image trvalo 11:08:53
Vytvoření 7zip archívu v Ubuntu (7z/ULTRA/LZMA/1024 MB/273/2 Threads/Ubuntu) ze souboru ISO+UDF Image trvalo 7:33:14
Rozbalení ISO+UDF Image ze 7z archívu (1024 MB slovník) ve win trvalo 0:08:40
Rozbalení ISO+UDF Image ze 7z archívu (64 MB slovník) ve win trvalo 0:08:51
Rozbalení ISO+UDF Image ze 7z archívu (64 MB slovník) v Ubuntu trvalo 0:16:01

Ke ztažení
forum.root.cz k 28.2.2015 - 7zip archív (7z/ULTRA/LZMA/1024 MB/273/2 Threads/Ubuntu) obsahující stažené soubory s konvertovanými odkazy pro Offline prohlížení (587 883 Souborů,  1 129 Složek):
http://uloz.to/xYZuuRxF/forum-root-cz-20150228-7z

Ke ztažení
forum.root.cz k 28.2.2015 - 7zip archív (7z/ULTRA/LZMA/1024 MB/273/2 Threads/Ubuntu) obsahující image ISO+UDF se staženými soubory s konvertovanými odkazy pro Offline prohlížení (587 883 Souborů,  1 129 Složek):
http://uloz.to/x3Fnn5iW/forum-root-cz-20150228-im-7z

Pozor - při vytváření Image jsou občas nějaké dlouhé názvy přejmenovány a odkaz na ně pak nefunguje, zde ale podle logu žádný přejmenovaný soubor není.

Dzavy

Re:Program pro stažení celého webu
« Odpověď #56 kdy: 24. 04. 2015, 11:58:37 »
Tak jsem to vyzkoušel přímo zde - stažení forum.root.cz a následné úpravy. Program puštěn 28.2.2015, odkazy v html souborech konvrtovány pro lokální prohlížení, následně byl také vytlořen image ISO+UDF 2.00 soubor programem IMG BURN.

Info o průměhu:

Velikost a vlastnosti po stažení a konvertu URLs:
Velikost:      80.0 GB (85 993 522 972 bytes)
Velikost na disku:   81.1 GB (87 082 934 272 bytes)

A to se vyplati. 81GB zbytecnych a duplicitnich sracek, ktery se musely prenest po internetu a 30 hodin generovaly na root.cz traffic cca 6Mb/s, jestli pocitam dobre.
Vlastni obsah fora ma podle myho skromnyho odhadu maximalne stovky MB.

Unknown

Re:Program pro stažení celého webu
« Odpověď #57 kdy: 26. 04. 2015, 11:05:27 »
Mrknete na http://videlibri.sourceforge.net/xidel.html, mozna by se tim dal projet web a vytvorit stahovaci linky pro cURL.

atarist

Re:Program pro stažení celého webu
« Odpověď #58 kdy: 26. 04. 2015, 15:55:34 »
Tak jsem to vyzkoušel přímo zde - stažení forum.root.cz a následné úpravy.
Velikost a vlastnosti po stažení a konvertu URLs:
Velikost:      80.0 GB (85 993 522 972 bytes)

Ty jsi skutečně jen tak pro test tímto šíleným způsobem zatížil rootovský server a přenesl po společných linkách 80 GB? No to tedy zírám: typický problém obecní louky v praxi.

Unknown

Re:Program pro stažení celého webu
« Odpověď #59 kdy: 26. 04. 2015, 19:43:03 »
Tak jsem to vyzkoušel přímo zde - stažení forum.root.cz a následné úpravy.
Velikost a vlastnosti po stažení a konvertu URLs:
Velikost:      80.0 GB (85 993 522 972 bytes)

Ty jsi skutečně jen tak pro test tímto šíleným způsobem zatížil rootovský server a přenesl po společných linkách 80 GB? No to tedy zírám: typický problém obecní louky v praxi.

Co jsou to "spolecne linky" ?? A co ma soukroma spolecnost iinfo spolecneho s obecni loukou?
Pokud nemaji limit na maximalni prutok dat z jedne IP adresy (plus treba nekolikasekundove bezlimitni bursty) tak jim to asi nevadi a maji dost tlustou linku. Pokud to navic slo jen pres NIX, tak to ani nemelo vygenerovate nejake dalsi naklady jim, ani Masterum....