Program pro stažení celého webu

atarist

Re:Program pro stažení celého webu
« Odpověď #60 kdy: 26. 04. 2015, 22:26:26 »
Tak jsem to vyzkoušel přímo zde - stažení forum.root.cz a následné úpravy.
Velikost a vlastnosti po stažení a konvertu URLs:
Velikost:      80.0 GB (85 993 522 972 bytes)

Ty jsi skutečně jen tak pro test tímto šíleným způsobem zatížil rootovský server a přenesl po společných linkách 80 GB? No to tedy zírám: typický problém obecní louky v praxi.

Co jsou to "spolecne linky" ?? A co ma soukroma spolecnost iinfo spolecneho s obecni loukou?
Pokud nemaji limit na maximalni prutok dat z jedne IP adresy (plus treba nekolikasekundove bezlimitni bursty) tak jim to asi nevadi a maji dost tlustou linku. Pokud to navic slo jen pres NIX, tak to ani nemelo vygenerovate nejake dalsi naklady jim, ani Masterum....

Odkaz na http://cs.wikipedia.org/wiki/Trag%C3%A9die_obecn%C3%AD_pastviny


Unknown

Re:Program pro stažení celého webu
« Odpověď #61 kdy: 27. 04. 2015, 22:49:19 »
Precetl jsem to, ale vubec nechapu aplikaci teto teorie na datove linky. Pokud myslite omezenou kapacitu, tak to snad ma resit cosi jako "traffic ballancer".
Pokud je linka volna, muze kdokoliv sosat plnou rychlosti. Pokud zacina byt vytizena, zacnou byt rychlosti jednotlivych lidi omezovany pomerne s tim jak stoupa vytizeni linky. Navic se da deletrvajicim spojenim rychlost snizit vice nez nove navazanym, a tim uprednostnit brouzdace pred stahovaci (rika se tomu burst). Pokud linka byva casto vytizena nad 60% sve kapacity, je cas zacit uvazovat nad jejim upgradem.

Re:Program pro stažení celého webu
« Odpověď #62 kdy: 05. 07. 2015, 02:59:35 »
Ono je dost rozdil, jestli je obecna louka pretezovana a nevystaci pro vsechny, nebo jestli je prakticky nevyuzivana a lezi ladem. Linak do internetu ma 1 Gbit a vytizeni je vetsinou do 1-10%. U ciloveho serveru bude podle vseho lika jeste silnejsi (10-100 Gbit), protoze root.cz je soucasti obrovskeho kolosu webu Idnes, Mesec, Lupa, Vitalita, IDOS a mnoho dalsiho, kde je uzivatelu mraky a vytizeni obrovske. 6 mbits se tam ztrati. Nejde ani tak o prutok dat, down/up 100 GB je dneska beznou veci hlavne u vymennzch siti. Spis jde ao zatizeni databaze, nebot s kazdym requestem se stranka vytvari z databaze a staticke stranky neexistuji. Databaze je o mnoho menci nez velikost vsech tech html stranek, stejne tak, jako je o mnoho menci text na strankach. Prave velke pouzivani databaze generuje zatez na CPU/RAM/disk, prenesena data nic velkeho nejsou. Ale protoze se jedna o obrovsky kolos webu (navic patrici pod Mafra), ztrati se to tam.

Momochodem cookies, IP, uzivatelse ucty - vze trackovat pohyb v ramci celeho kolosu webu ale ne mimo nej. Google, FB a dalsi si trackovani pojistil tak, ze pouziva like-buttony na kazdy web skoro, nebo jeste lepe na kazdou stranku.


Re:Program pro stažení celého webu
« Odpověď #63 kdy: 05. 07. 2015, 03:03:01 »
Zaprvy, na http://www.kesyl.unas.cz/pocasi-kunovice proste vubec zadna Java neni, jenom JavaScript. Zadruhy, jestli Te zajimaji historicky statisticky data, tak nechapu k cemu bys ukladal celou stranku, kdyz muzes stahnout jenom ty data z http://www.kesyl.unas.cz/pocasi-kunovice/data/dayfile.txt a mnohem snadnejs je zpracovat.

Jak tam umis najit primo zdrojovy datovy soubor, ktery bych musel zase zpet ze stranek vytvaret ? Problem mnoha duplicitnich veci v kodu html stranky, ktere se nakonec musi odstranovat slozite (a razantne znasobuji velikost dat) je vsude mozne. Pouzil jsi na ziskani linku k zdrojovym datum neco specialniho a slo by to i jinde ?

Andy

Re:Program pro stažení celého webu
« Odpověď #64 kdy: 16. 07. 2015, 17:44:53 »
Ahoj,
zkoušel jsem s WinHTTrack a pak i s Teleport Pro stáhnout http://stary.astromat.cz, protože prý bude brzy nahrazen novým, ale některé prvky na stránce nefungují offline, např. tlačítko pro výpočet. Dalo by se to nějak stáhnout celé tak, jak to je na webu?
Díky za případnou odpověď.


Re:Program pro stažení celého webu
« Odpověď #65 kdy: 25. 07. 2015, 18:38:17 »
Ahoj,
zkoušel jsem s WinHTTrack a pak i s Teleport Pro stáhnout http://stary.astromat.cz, protože prý bude brzy nahrazen novým, ale některé prvky na stránce nefungují offline, např. tlačítko pro výpočet. Dalo by se to nějak stáhnout celé tak, jak to je na webu?
Díky za případnou odpověď.

Ahoj

Wget zvládá statické i databázové stránky dobře a většinou i javaskript. Teleport zvládá dobře dynamické stránky, JS i složitá jména souborů veli doře, asi nejlíp ze všech programů co jsem viděl (narozdíl od wget), httptrack nemám zkušenosti. Teleport umí velmi dobře konvertovat odkazy i v případě složitých JS, php a pod.

Ale výpočty, které se provádí po zadání údajů do formuláře nějakým skriptem na serveru, ke kterému nevede url ve zdrojovém kodu stránky, stejně tak jako videa, flash, na které rovněž odkaz nevede ve zdrojáku, to nezvládá ani wget ani teleport ani thhptrack. Skripty pro výpočet jsou uloženy kdoví kde na webu a to v rámci stahovačů není možné.

Videa a flash, na to jsou speciální programy (YTD od Pepáka), hlavně nepoužívaj Jdownloader prolezlý adware a spyware a kdoví čím ještě. Jak stáhnout stránku, aby fungoval výpočet po použití formuláře, to jsem nikde neviděl.

Andy

Re:Program pro stažení celého webu
« Odpověď #66 kdy: 25. 07. 2015, 19:42:11 »
... Skripty pro výpočet jsou uloženy kdoví kde na webu a to v rámci stahovačů není možné. ...

A nešlo by nějak stáhnout všechny soubory z té adresy, ať už k nim cesta ve zdrojovém kódu stránky vede nebo nevede?

Re:Program pro stažení celého webu
« Odpověď #67 kdy: 25. 07. 2015, 20:43:49 »
Když nevíte, co chcete stáhnout (název souboru - url), těžko to stáhnete. Můžete jedině hádat - například pokud budete mít obrázek http://www.domena.cz/01.jpg můžete zkusit jestli tam je i http://www.domena.cz/02.jpg a pokud uspějete můžete stahovat po jedničcce všechny soubory dokud nedostanete error. Taková úloha se dá sndadno naskriptovat, ale na počátku musíte vědět, co budete stahovat. Některé servery prozrazují seznam souborů v adresáři (directory listing), pak můžete použít tento seznam. Víc možností už asi není.

Re:Program pro stažení celého webu
« Odpověď #68 kdy: 25. 07. 2015, 20:47:59 »
... Skripty pro výpočet jsou uloženy kdoví kde na webu a to v rámci stahovačů není možné. ...

A nešlo by nějak stáhnout všechny soubory z té adresy, ať už k nim cesta ve zdrojovém kódu stránky vede nebo nevede?
Pokud nevíte, jak se ty soubory jmenují, tak to z principu nelze.

Andy

Re:Program pro stažení celého webu
« Odpověď #69 kdy: 26. 07. 2015, 15:40:28 »
... Některé servery prozrazují seznam souborů v adresáři (directory listing), pak můžete použít tento seznam. ...
Jak se k takovému seznamu dostanu, pokud to tedy server umožňuje? Zkoušel jsem nslookup
Kód: [Vybrat]
> ls -d stary.astromat.cza hlásí to
Kód: [Vybrat]
*** Can't list domain stary.astromat.cz: Not implementedNevím, jestli to znamená, že server neumožňuje zobrazit seznam souborů vůbec, nebo jen tímhle způsobem.


Nešlo by prostě stáhnout celý ten hlavní adresář (v němž je index.htm)?

Re:Program pro stažení celého webu
« Odpověď #70 kdy: 27. 07. 2015, 13:59:56 »
... Skripty pro výpočet jsou uloženy kdoví kde na webu a to v rámci stahovačů není možné. ...

A nešlo by nějak stáhnout všechny soubory z té adresy, ať už k nim cesta ve zdrojovém kódu stránky vede nebo nevede?

Nešlo samozřejmě. Prakticky všechny stahovače fungují tak, že stáhlou index, podívají se jaký jsoui tam odkazym, stáhnmou je a podívají se, jaké jsou odkazy do hloubky 2, 3 atd. Takhle se rekurzivně stáhne celý web, nebo jeho část (podle nastavení). Lze i přidat, že se ke stránkám stáhou externí soubory nutné pro zobrazení (obrázky a pod.). Stránky a soubory se jmenují obvykle tak jako se jmenují v URL včetně adresářové strutury (někdy jsou rména nekompatibilní - nepovolené znaky a program (teleport te win) musí znaky upravit).

Stránky jsou buď statické, extïstující pořád, nebo dnamické, jež se na základě URL generují z datamáze (občas místo URL se používá post). Obrázjky jsou většinou statické, ale ne vždy. U dynamických stráek je celková množina kombinací parametrů často velká a množina všech možných odkazů na dynamixckém webu taky. Navíc všechny soubory mohou být ukládány do jednoho adresáře (hodně souborů vjednom adresáři - problém). Vygenerované stránky jsou dost podobné i duplicitní. Tak tomu je i např, tady na forum.root.cz. V celém foru je přez 500 000 odkazlů = přez 500 000 podobných souborů v jednom adresáři a přez 80 GB dat (7zip archív jen 220 MB kvůli podobnosti). Skutečná databáze (text příspěvků, uživatelé, logy) + skript, který stránky tvoří může mét desítky až stovky MB.

Jak dostat místo všech stránek stažených přez množinu odkazů přímo zdrojová data, ze kterých se stránka počítá, generuje, to se mi objevit nepodařilo a nebode to jen tak. Něco jiného je dostat se na web a něco jiného ke zdriojákům. To už by byl určitý hacking (a to není zrovna povoleno). Např. tady http://www.kesyl.unas.cz/pocasi-kunovice/statistics.htm je zdrojový soubor přístupný http://www.kesyl.unas.cz/pocasi-kunovice/data/dayfile.txt

Jinak než přez množinu objevených odkazů na stránkých (a na konci konvert odkazů) se to moc nedělá. Diretory listing se dá občas použít, ale to spíš u ftp a statických stránkek. Dost webů zakazuje listing buď kompletně, nebo na určitých místech (nepovolený přístup a nebo přesměrování). Listing se dá požít v prohlížeči (umaže se název souboru z adresy s tím, že se snad zobrazí složka). http://meteomodel.pl/gfs-para/TMAX/TMAX_09.png listing http://meteomodel.pl/gfs-para/TMAX/ - nepovoleno. Nebo přez terminál , hlavně u ftp (lftp URL), funguje i u html složek - přístupných adresářů.

Vyplňování formulářů, čímž se dostane po výpočtu nějaká html stránka z daty, to je zase jiná. vstupní údaje nejsou v URL , takže naskriptování je těžší (ale jde to, pokud tam neni captcha). Pak za základě různých údajů lze z určitém nzožiny projed všechny kombinace (a může to bejt hodně možností as hodně dat). Získad pčřímoé akript, co to počítá, to nijak klasicky nejde, to už není o přístupu do webu ale do serveru (leda tak hacknout).

Pokud je adresa k souborům na základě nějakých pravidel (datum, čas), lze skript snadno napsat v bashi. Pokud je známo, jak se adresy vytváří (a někdy jen některé platí), např. jména měst, lze projet všechny možnosti (může jich být dost). Některé weby (uloz.to, 500px, videa stream, youtube, fotky k Google maps) adresu schovávají jak to jen jde a nelze najít jen tak ve zdrojovém kódu a obrázek stáhnout.

Andy

Re:Program pro stažení celého webu
« Odpověď #71 kdy: 29. 07. 2015, 14:12:31 »
Listing se dá požít v prohlížeči (umaže se název souboru z adresy s tím, že se snad zobrazí složka). http://meteomodel.pl/gfs-para/TMAX/TMAX_09.png listing http://meteomodel.pl/gfs-para/TMAX/ - nepovoleno. Nebo přez terminál , hlavně u ftp (lftp URL), funguje i u html složek - přístupných adresářů.
Díky, u některých webů to funguje, ale někdy se i po umazání názvu souboru stejně zobrazí stránka místo obsahu adresáře.

Trochu jsem ještě zkoumal, kdy se ten stažený web chce připojit a je to např. po kliknutí na tlačítko pro výpočet a zároveň se na spodní liště v IE objeví cílový odkaz http://stary.astromat.cz/index.php, takže to znamená, že po stažení Teleportem tam ještě zůstaly nějaké nekonvertované odkazy? Možná právě index.php je tím hledaným souborem, co je potřeba k offline fungování výpočtu?

Re:Program pro stažení celého webu
« Odpověď #72 kdy: 31. 07. 2015, 00:00:46 »
Díky, u některých webů to funguje, ale někdy se i po umazání názvu souboru stejně zobrazí stránka místo obsahu adresáře.

To se taky nekdy stava, ze to vrati na nejakou html stranku. Souborovy sysem si server casto chrani.

Trochu jsem ještě zkoumal, kdy se ten stažený web chce připojit a je to např. po kliknutí na tlačítko pro výpočet a zároveň se na spodní liště v IE objeví cílový odkaz http://stary.astromat.cz/index.php, takže to znamená, že po stažení Teleportem tam ještě zůstaly nějaké nekonvertované odkazy? Možná právě index.php je tím hledaným souborem, co je potřeba k offline fungování výpočtu?

Neni to v nastaveni teleportu ? Muze byt nezaskrnuto "Localize html links" a pak by to na konci neprevedlo odkazy. To ze odkaz vede do internetu znamena ze se soubor nnestahl, bud byl nedostupny, nebo odkaz smeroval na jinou domenu. Obvykle je nastaveno, ze nestahuje z jinych domen, pokud to primo neni soucast stranky a nejde v adresari ani vys nez zacatecni url. Je to v nastaveni. Jakou verzi pouzivas ?

V vypoctu je poreba nejaky prymo zdrojovy skript, coz neni soubor primo na webu ale je to na nej nejak napojeno. Stahnout to nejde zadnou klasickou cestou.

Re:Program pro stažení celého webu
« Odpověď #73 kdy: 31. 07. 2015, 00:23:44 »
Kdyz jsem to zkusil, klasicky stazeni, hloubka odkazu 9999 a stahnout vse z daneho webu, "but only URLs on stary.astromat.cz" stahlo to 86 souboru a velikost 568 KB (582 502 bytes), kdyz jsem dal "or within the path of links to other servers" razanne pocet souboru zrostl. Treti moznost "or up to X links away" znamena kolik odkazu daleko od serveru, coz muze jiz pri 3 znamenat ohromnu narust.

Bezi to nejak dlouho, skusim to zitra

Re:Program pro stažení celého webu
« Odpověď #74 kdy: 31. 07. 2015, 01:00:20 »
Na webu www.ceskechalupy.cz/ se to zacyklylo na kalendari, tak preruseno (a jak se to tam dostalo, kdo vi).
Heslo k archivu je 3141592654589793238462643.