Fórum Root.cz

Hlavní témata => Software => Téma založeno: Honza1 25. 01. 2015, 20:17:10

Název: Program pro stažení celého webu
Přispěvatel: Honza1 25. 01. 2015, 20:17:10: Zdravím

Jaký program používáte v Linuxu pro web reap (kompletní stáhnutí obsahu webowého serveru + konvert odkazů pro offline prohlížení), a jaké s tím máte zkušenosti ?

V linuxu používam Wget. Je rychlý a výkonný, nezatěžuje moc CPU a poradí si z většinou typů stránek (html, php, atd.).

Pro stáhnutí souboru stačí "wget URL" (URL je možné měnit podle proměnných).
Pro import url ze souboru wget -i soubor.txt ...+další příkazy pro optimalizaci za jménem souboru.
-nc nestahuje soubory, které již jsou staženy (kompletnost souborů netestuje, pokud volba -nc není, a soubor již existuje, nový soubor dostane pořadové číslo za příponu).
-r -l (číslo) stahuje do hloubky určené číslem (-r -l 5 tedy 5 odkazů hluboko - maximální houbka pokud tak hluboo existují odkazy, -N znamená nekonečně hluboko), když tam dáme vysoké číslo (9999), stáhne se většinou celý web.
-nH nevytvoří adresář se jménem serveru
-k konvert odkazů nna stráknách pro offline prohlížení
-np stahuje v adresářové struktuře jen hloubš než aktuální link
-X když nějakou část webu nechceme např. kvůli velikosti nebo doby stahování např www.web.cz/forum/, pak použijeme -X /forum/ bez jména webu. Lze použít i víc adresářů oddělených čárkou, např. -X /forum/,/cgi/,/kalendar/
-m stáhne celý web kompletně (zde nefunguje -nc, proto spíšpoužívam -r -l 9999)
-A +přípona seznam přípon souborů, které chceme, odddělené čárkou. U připon i jmen souborů jsou v Linuxu rozlišována velká a malá písmena.
-R + přípona seznam přípon souborů, které nechceme, odddělené čárkou.
-r timestamp u souborů (statických) shodných s timestamp na serveru (což je i bez této volby, když se odkazy nekonvertujou -k)
-q nevypisuje průběh stahování na obrazovku (u rekurzivního stahování a velkých souborů je tento výpis hodně dlouhý).

Mšla by jít i možnost vytvoři mapu odkazů bez importu webu na disk, ale nejsem si jistý jak (zdrojový kód stránky se stáhne a procesuje v ram).
Celkem je cca 100 možností pro optimalizaci příkazu wget.

wget -qO - ,důležitá volba, způsobí, že obsah stránky (tedy text - zdrojový kód) se neuloží jako soubor, ale vypíše se na obrazovku (místo výpisu na obrazovku předpokádáme přesměrování k dalšímu zpracování).

Více na www.cetoraz.info/pavel/index.shtml?show=1355,wget---stahujme-kvalitne---Podrobny-navod-s-priklady

Problém ale je ve jménech souborů v případě složitějších názvů se jména vs. odkazy rozhážou. Samozřejmě wget používá názvy souborů shodující se s linuxovými pravidly - ve windows nemusí jít soubory přečíst.

Pro reap a konvert odkazů složitějších webů je tedy wget spíš těžko použitelný.

Máte zkušenosti s nějakým jiným programem, který by uměl lépe reap-nout web a překonvertovat složitější odkazy ?

Dalším problémem jsou rozsáhlé databáze, např. fóra, články + comment, kde se všechny stránky generované z databáze ukládají do jednoto adresáře. S různou volbou parametrů je stránek opravdu hodně, zabírají dost místa. Největším problémem ale je více souborů (50 000 - 1 000 000+) v jednom adresáři, navíc s dlouhými názvy. Číst i zapisovat do takového adresáře je docela problém.
Existuje varianta, která by s tímto lépe pracovala v případě reapu fóra nebo článků ? Nejlepším řešením by bylo ukládat do jednoho souboru získaná data místo ukládání každého souboru co by vygenerované stránky zvlášť. Popřípadě zd-ali nějaký program umí obsah web serveru do jednoho soubru uložit ? (Řešením je reap webu + vytvoření iso ze složky pomocí např. ImgBurn, ale tam je problém z delšími názvy a velkým počtem souborů v adresáři ještě větší).

Ve windows se k podobnému účelu dá použít freeware: Black Widow, WebReaper, Backstreet Browser, Jdownloader, Wget for win. Z ne freeware programů Teleport, ale má omezení na celkový počet odkazů podle verze (Pro 65 000, Ultra 256 000 a VLX 40 000 000 - takže VLX prakticky bez omezení, na každý milion adres je potřeba cca 100-250 MB ram). Teleport má výkon skutečně největší a jako jediný si umí poradit se všemi typy stránek prakticky. Vemi dobře zvládá konvert odkazů a pojmenování souborů u složitých webů. Neduhem většiny programů je opět velký počet souborů v jednom adresáři u fór a databází. Navíc jsou 32-bit, takže když velikost v ram (způsobený nárůst rozsáhným seznamem odkazů) přesáhne 2GB, program spadne. Málokdy existuje verze 64-bit. Freewere programy s špatým výkonem GetLeft a Jobo, ne-freeware Frontpage u office XP a níž (zvádá jen základní typ statických stránek a ukládá zbytečné soubory navíc, takže tato funkce frontpage je k ničemu dneska).
Název: Re:Program pro stažení celého webu
Přispěvatel: # 25. 01. 2015, 21:51:03: http://www.httrack.com/ ma jak gui tak lze z cmd, na danej ucel je vhodnejsi nez wget, lze nastavit do kolika urovni stahovat externi odkazy a podobne ...
Název: Re:Program pro stažení celého webu
Přispěvatel: hm 25. 01. 2015, 22:03:55: z principu javascriptu nemozne. jednodussi dynamicke odkazy z udalosti snad. slozitejsi podminene dynamicke odkazy na to uz to bude chtit absurdne slozitou heurestiku a dynamicke odkazy z pluginu no to uz vubec. kazdopadne neznam nic nez si napsat vlastni logiku co bude pouzivat webkit. s tim je to celkem hracka do 100 radku na ty zakladni operace.
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1 25. 01. 2015, 22:39:10: hm

Teď jsem nepochopil co vlastně je nemožné už z principu javaskriptu.
Ukládání do jednoho souboru ? Možná každou stránku po stáhnutí připsat k velkému souboru. Nebo udělat ram mopu serveru (to moc programů neumí bez ukládání stránek na disk) a pak teprv stáhnout vlastní obsah.
Název: Re:Program pro stažení celého webu
Přispěvatel: JardaP . 25. 01. 2015, 22:54:09: Citace: # 25. 01. 2015, 21:51:03
http://www.httrack.com/ ma jak gui tak lze z cmd, na danej ucel je vhodnejsi nez wget, lze nastavit do kolika urovni stahovat externi odkazy a podobne ...

Cim je vhodnejsi, nez wget?
Název: Re:Program pro stažení celého webu
Přispěvatel: jozin 25. 01. 2015, 23:49:42: Skoro bych se vsadil, že nic pořádného existovat nebude, protože žádný rozumný programátor nebude vyrábět podobné nesmysly. Správně nastavený webserver tě stejně po první tisícovce requestů zabanuje, takže celý fórum bys stahoval pár měsíců... Když se podobných chytráků najde víc a spustí nad větším webem Teleport, tak slušně zahltí linky i celý stroj. Navíc nechápu, proč z online internetu vyrábět nějaký nekonzistentní otisk. Stahování bude trvat alespoň pár dní u většího webu, takže praktický význam tohoto počínání bude víceméně nula.
Jestli si chceš nějaký stránky přečíst bez internetu, tak existují pluginy do prohlížeče, které vybrané stránky uloží a pak zobrazí i bez přístupu k netu.
Navíc mobilní přípojení stojí pár stovek měsíčně - možná, když místo vymýšlení hranatého kola vezmeš práci do teplých, tak nebudeš muset řešit tyhle myšlenkové veletoče.
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1 27. 01. 2015, 17:52:59: Jozin

Ty jsi taky veletoč a hranaté kolo. Když něco nepoužívš tak do toho nešťourej. Zakázat internety a počítače by jsi třeba náhodou nechtěl ? Ale jak koukam ty se navážíš do ostatních i na dalších vláknech.

Účelem založení vlákna bylo sepsání mých skušeností na dané téma, co nejde co jde, a jaké to má komplikace a pod. + jaké s tím mají zkušenosti ostatní. Když s danou věcí žádné zušenosti nemáš, tak nerejpej, taky nereaguji na témata co mi nic neřííkají.
Název: Re:Program pro stažení celého webu
Přispěvatel: Dzavy 28. 01. 2015, 00:26:24: S tím javascriptem jsi to jaksi nepochopil - jde o to, že spousta stránek je dynamicky generovaných pomocí javascriptu/ajaxu, např. facebook, a bez spuštění javascriptu stejně jako by to udělal browser+člověk se k tomu obsahu prostě nedostaneš a automatizace rozhodně není triviální - např. dynamické načítání obsahu stránky při rolování dolů wgetem nasimuluješ jak?

Předpokládám se jedná o rešerši ohledně nástupce Hlodače nebo podobně "zajímavýho" projektu ;)
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1 28. 01. 2015, 01:01:57: Dzavy

Jo tak si to myslel. Rolování stránky, vyplňování formuláře nebo zvolení parametrů v java aplikaci, no prostě java celkově, to je pro wget, nebo který koliv jiný reaper prakticky konečná. Java tímto prostě nejde.

Navíc zrovna u FB, co jsi zmínil jako příkad, když pustíš nějaký stahovač, tak tam je tak obrovské množství odkazů, že se strom odkazů zachvilku rozroste RAM a přesáhne velikostí mez, nebo dojde místo na disku (ono každá stránka má řekněme 100-200 kB a strom se bude rychle větvit). Ještě dřív stejně nastane problém v tom že všechny soubory jsou v jednom adresáři a přístup se začne razantně zpomalovat. FB reap je nesmysl zůsobem stáhni všechny odkazy.

Jinak javu a tyhle věci vůbec neberu v potaz, java rozcestí zvládá možná teleport a jen jednoduché věci. Jen klasicé kliknutí (stránka se generuje pomocí www adresy). Ono i takové fórumn tady i jinde je zrovna příklad, kdy se stráka generuje pomocí zvolené adresy, ale jde na to kliknout. Zvládají to ale jen některé stahovače. Nejjednodušší jsou samozdřejmě statické html s jednoduchým odkazem + obrázky. Větší web (hlavně typ fóra, články, galerie) docela dlouho trvá a problém všechny soubory v jednom adresáři je značný. Stránky jsou podobné, jen trocha textu se mění. Proto po kompresi se razantně zmenší.

Obrázková galerie nebo tzv. kalendář akcí - to je problém z velkým množstvím možností jak postavit odkaz (a může reap trvat neskutečně dloho a stáhnou obrovské množství nepotřebného html a zase soubory v jednom adresáři, malé galerie ještě jdou). V takovém případě je k wget lepší použít utility grep, sed, gavk, stránku postnout pomocí wget -qO - a pajpy. Tímto se dá vyreapovat např. obsah ušech alb uživatele na rajčeti (a to obvykle během 1-10 min a fotky setříděny do alb). Jinou věcí jsou různé dynamické stránky kde víš jak se mění proměnná. Budeš do adresy dosazovat proměnné a stránky stahovat do adresářů dle proměnných a stáhlou htlm vždy přejmenuješ ve skriptu). No prostě hrubá síla, tedy download všech odkazů je docela problém.

Co nevím jak udělat je reap ne každou stránku ukládat zvlášť ale do jednoho souboru víc stránek (vč. konvertu odkazů).

"Předpokládám se jedná o rešerši ohledně nástupce Hlodače nebo podobně "zajímavýho" projektu" to jsem nepochopil.
Název: Re:Program pro stažení celého webu
Přispěvatel: Tomáš Crhonek 28. 01. 2015, 11:08:12: Zajímavé téma, osobně používám wget s parametry -E -H -k -p -nd --no-check-certificate --content-on-error. Vždy na jednu konkrétní URL. Na stažení celého webu (mirror) je potřeba si pohrát s parametrem -m (případně -r -l). Někdy je také vhodné získat seznam URL ze xmlsitemapy (pokud ji web má, tak je to lepší jak mirror přes parsing jednotlivých html stránek).

Nedělám si iluze o tom že po tomto způsobu uložení všechny stránky půjdou pohodlně přečíst. Ale min text se z toho vytáhne vždy. A to je to nejdůležitější.

Ještě vysvětlení PROČ pro lidi jako Jozin. Není to vůbec o tom, že připojení k netu dneska může mít člověk za pár korun. Je to o tom, že informace z webu prostě mizí. Zajímavé stránky, které dnes existují, zítra už mohou zmizet. A webové archivy také nezachytí všechno. Nevím, zda ještě někdo používáte bookmarky v prohlížečích, já ne, protože po roce už polovina odkazů stejně nefunguje. Místo bookmarků si tu stránku raději rovnou stáhnu offline.

Dál, mám to napojené na TTRSS, takže se mi automaticky stahují články z RSS zdrojů. Důvod není ani tak to, že bych chtěl mít všechno z RSS uložené, důvod je to, že se velmi často obsah článku změní v čase (a redakce se ještě tváří, že takto vypadal článek od počátku).
Název: Re:Program pro stažení celého webu
Přispěvatel: Dzavy 28. 01. 2015, 11:29:51: Honza1 - Hlodac viz http://milionovastranka.net/. A Java vs. JavaScript je docela rozdil.

Tomáš Crhonek: Ciste pro zajimavost, pouzivas porovnavani ruznych verzi clanku profesionalne (tj. jako zpravodajska agentura nebo monitoring zpravodajstvi aj. - neco ve stylu http://www.newtonmedia.cz/) nebo jenom jako duvod pro nasledny trolling v diskuzi a nadavani na redakci?
Název: Re:Program pro stažení celého webu
Přispěvatel: Tomáš Crhonek 28. 01. 2015, 11:39:54: Citace: Dzavy 28. 01. 2015, 11:29:51
Tomáš Crhonek: Ciste pro zajimavost, pouzivas porovnavani ruznych verzi clanku profesionalne (tj. jako zpravodajska agentura nebo monitoring zpravodajstvi aj. - neco ve stylu http://www.newtonmedia.cz/) nebo jenom jako duvod pro nasledny trolling v diskuzi a nadavani na redakci?

Ani jedno. ;-)

Jen si tak udělám obrázek o práci redakce, který nikomu nevnucuji. Většinou je to důvod proč daný web přestat sledovat.

Původní účel pro který toto vzniklo byla archivace mého vlastního webu v čase. Ono to člověku nepřijde, protože ten svůj web má pořád před očima a dělá jen malé změny. Potom jsem se mrknul na různé webarchivy jak vypadal před 10 lety a zjistil jsem, že už si to ani nepamatuju. :D Tak jsem si napsal bastlskript, který ne/pravidelně dělá mirror. No a potom jsem ho rozšířil o ttrss na offline ukládání webů mého zájmu (tady se ale článek stáhne pouze jednou, takže pokud mám podezření, že se článek změnil, mám pouze jednu verzi tak, jak vypadal těsně po uveřejnění v rss feedu a aktální stav). Rozhodně nemám zájem dělat druhý archiv.org.
Název: Re:Program pro stažení celého webu
Přispěvatel: OMG 28. 01. 2015, 13:06:20: Citace: Tomáš Crhonek 28. 01. 2015, 11:39:54
...
se článek změnil, mám pouze jednu verzi tak, jak vypadal těsně po uveřejnění v rss feedu a aktální stav). Rozhodně nemám zájem dělat druhý archiv.org.
Tomasi, jak to ukladas? Mas nejakou repository? Nebo proste mas ve svem home 100gb archivu? Zajima me velikost a typ dat.
Název: Re:Program pro stažení celého webu
Přispěvatel: Tomáš Crhonek 28. 01. 2015, 13:14:30: Citace: OMG 28. 01. 2015, 13:06:20
Citace: Tomáš Crhonek 28. 01. 2015, 11:39:54
...
se článek změnil, mám pouze jednu verzi tak, jak vypadal těsně po uveřejnění v rss feedu a aktální stav). Rozhodně nemám zájem dělat druhý archiv.org.
Tomasi, jak to ukladas? Mas nejakou repository? Nebo proste mas ve svem home 100gb archivu? Zajima me velikost a typ dat.

Proženu to tarem, gzipem a jako bytea to vrazím do Postgresu. Aktuálně něco přes 200 GB. Pochopitelně, takto se tam ukládá hromadu duplicitních souborů (v každém archivu je logo webu, csska apod.), takže se chystám na deduplikaci. Potom by to byl každý soubor jako bytea zvlášť, nekomprimovaný (TOAST se v PG stejně komprimuje přes lza). Vlastně taková jednoduchá implementace fs v sql. (S deduplikací a transparentní kompresí.)
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1 28. 01. 2015, 16:59:55: Tomáš C.

-nd znamená všechny soubory v jednom adresáři, takže se jesště situace toho co viím jako problém zhorší. -m znamená -r -l inf(nekonečno) -N(stejná timstamp jako na serveru). Ale při příkazu -m nejde použít -nc (vynechá již stažené soubory).

Stránky samozřejmě nevypadají tak jako v původní podobě ale text a základní vzhed a většinou i fungující odkazy, o to tam jde, to zůstává. Někdy je otřeba stíhnout jen html text. U některých stránek (hlavně fóra) jsou obrázky často z externíchwebů a nestahujou se. Volba -p znamená, že se stránka stáhne se všemi soubory požebnými k zobrazení.

A jak si psal prů Jožina důvody - přesně tak, stránka často může z webu zmizet a to kdykoliv. Pravdu je, že někdo dost rád takto hromadí data. Zvláště, je li obsah tak trochu kontroverzní. Nebo máš na urřitou dobu placený přístup někam (User+Heslo) a ten ti vyprší. Nebo tě daná stránka poškozuje a archivuješ si důkazní materiál. U některých stránek se často mění obsah (dostupný je aktuální stav), tak použioješ Cron a stránky ukládáš průběžně. Dá se to použít pro pozdější analýzu dat. Nebo pro práci z daty - s uloženými stránkami na disku to je mnohonásobně rzchlejší a nemusíš posílat řeba i miliony requestů na server. A nebo se stránka na webu vždz pomalu načítá, tak si uděláš kopii a stránka se vždz po kliknutí zobrazí okamžitě místo např. 20 s. Konec konců www.truecrypt.org - škoda že jsem nestahoval web průběžně.

Tomáš, OMG

Na kompresi právě html stránek je dobrý 7zip (p7zip). Většina stránek jsou dost podobné soubory a právě 7zip umí mezisouborové podobnosti velmi dobře. O duplicitních obrázcích tzpu ikony ani nemluvím, na to je 7zip nejlepší. Podobnosti nehledá totiž v rámci jednohosoubory ale v rámci velikosti slovníku (až 1024 MB) a při kompresi postupuje podle seznamu souborů, který je roztříden nejdřív podle přípony, pak podle názvu. Při maximální velikosti slovníku potřebuješ 10,5 GiB Ram + nějaká ram pro seznam souborů (cca 1 GB pro každý milion souborů), takže celkem potřebuješ 11-15 GiB (v extrémním případě i 20 GiB ram volné pro 7zip přimaximální velikosti slovníku). Dost z paměti čte při procesu a swapování je silně neefektivní. A vzhledem k uvedenému tarovat soubory před kompresí 7z může výslednou kompresi i zhoršit.

Dzavy
Java a JavaSkript je samozřejmě rozdíl. Ale jak jsem psal, problém je hlavně s Javou (prakticky neřešitelný). Problém lze zaznamenat např. na tomto malém webu http://www.kesyl.unas.cz/pocasi-kunovice/statistics.htm

Časově i datově jde o náročnou věc, vyhledávače musí mít silný výkon. tejně jako programy pro dohalování opsaných prací.
Název: Re:Program pro stažení celého webu
Přispěvatel: Dzavy 28. 01. 2015, 17:40:57: Zaprvy, na http://www.kesyl.unas.cz/pocasi-kunovice proste vubec zadna Java neni, jenom JavaScript. Zadruhy, jestli Te zajimaji historicky statisticky data, tak nechapu k cemu bys ukladal celou stranku, kdyz muzes stahnout jenom ty data z http://www.kesyl.unas.cz/pocasi-kunovice/data/dayfile.txt a mnohem snadnejs je zpracovat.

Jinak ty blaboly o 20GB RAM pro 7zip atd. jsou fakt vtipny - hlavne me zajima, jak pak budes s tim archivem s miliony soubory stranek, ktere Te poskozujou nebo se pomalu nacitaji, rozumne pracovat.
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1 28. 01. 2015, 17:42:18: Tomáš, OMG

Ještě jsem zapomněl zmínit program ImgBurn, který yvládne udeělat ze složky souborů iso soubor (nebo bin, prostě obraz CD) včetně struktury podsložek. Můžeš sil zvolit různé verze ISO, UDF, Joilet. Nepotřebuješmechaniku a velikost výsledného archivu není omezena. Je to lepší než tar, protože to můžeš namontovat na virtuální mechaniku a prohlížet soubory bez rozbalení. Přio kompresi 7zip je velikost výsledného iso/bin podobná jako při kompresi složky souborů a rozbalení jednoho velkého iso/bin souboru je postatně rychlejší než rozbalení složky+podsložek s 100 000+ malých souborů.

Neduhy to také má. Možná je jen pro Widle, takže spouštět pod wine. Pravděpodobně jejen 32-bit takže při víc jak přibližně 1 000 000 souborů překročí velikost procesu v paměti 2 GB a finito. Když jsou názvy souborů opravdu dlouhé, zkrátí je to (můžeš si luložit log a tam je přejmenování vypsané). Nevýhodou je velká náročnost CPU při počítání stromu souborů tam kde je velký počet souborů v jedné složce, náročnost cca s druhou mocninou. 10 000 souborů ve složce pár minut, 100 000 souborů pár hodin, 1 000 000 i víc jak tejden. (předpokládám systémm souborů ISO+UDF současně - udf nemá moc omezení a iso zvládá otevřít nebo zkontrolovat arhciv či rozbalit víc programů, vč. 7zip)
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1 28. 01. 2015, 17:48:48: Dzavy

To byl jen jeden z mnoha příkadů.

Jinak na 7zip si přečti nastavení. Při 7z a -t7z -m0=lzma -mx=9 -mfb=273 -md=1024m -ms=on JmenoArchivu.7z máš právě těch 10,5 GB + seznam souborů. Důležité je (-md=1024m). 20 GiB je opravdu extrém, jak jsem psal. Max. 16,5 jsem se co kdy dostal, to je asi těžko překonatelný rekord.

Pracovat se stránkama můžeš jednoduše, jako offline browsing. Záleží konkrétě o co jde. Mícháš moc věci dohromady, v předchozím příspěvku jsem napsal všechny důvody co mě napadly.
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1 28. 01. 2015, 18:04:12: Dzavy

Pokud potřebuješ pár důkazních stránek, tak to ti stačí je několik málo dat (většinou 1-100 MB)
Pokud potřebuješ stránku co se pomalu načítá (delší seznamy), tak nacronuješ v době malézátěže (3 ráno) skript a dáš reap. Mezi requesty dáš pauzu, aby si moc nepřetěžoval server.
Milionz requestů - budeš zpracovávat nějaký data v různé podobně. Máš řekněme 100 000 stránek a na každé stránce pár desítek údajů. Převod do souboru txt pomocí grep, ed, gawk. Pro každej typ údaje te to na každou stránku jeden přístup, kolik celkem ? Příklad uvedu tady http://planety.astro.cz/planetky/1815-seznam-planetek
Název: Re:Program pro stažení celého webu
Přispěvatel: Tomáš Crhonek 28. 01. 2015, 19:05:26: Citace: Honza1 28. 01. 2015, 17:42:18
Tomáš, OMG

Ještě jsem zapomněl zmínit program ImgBurn

Neduhy to také má. Možná je jen pro Widle, takže spouštět pod wine.

Mno, opravdu není nutné spouštět cokoliv pod wine, když je hromada nativním programů. Např. growisofs.

Jinak místo 7zip nebo ISO bych spíše doporučil squashfs. Je to souborový systém přímo navržený na kompresi a silnou deduplikaci (po blocích), dá se připojit (read only) a dá se k němu připisovat další data (append, nikoliv re/write). Používají jej např. různá live distra. Není problém jít do stovek GB.

Citace: Honza1 28. 01. 2015, 17:42:18
-nd znamená všechny soubory v jednom adresáři, takže se jesště situace toho co viím jako problém zhorší. -m znamená -r -l inf(nekonečno) -N(stejná timstamp jako na serveru). Ale při příkazu -m nejde použít -nc (vynechá již stažené soubory).

Ano, já to také psal jako příklad pro stažení jedné URL (chci to mít v ploché struktuře bez podadresářů, stejně to jde do taru a do db), pro mirror potom používám jiné parametry wgetu (-E -H -k -K -p -r -l0).
Název: Re:Program pro stažení celého webu
Přispěvatel: Dejmon 28. 01. 2015, 23:06:31: nic jednoduššího než stahovač celých stránek z webu je WebHTTrack.
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 29. 01. 2015, 00:27:13: Dejmon

Ano ten byl zminen hned na zacatku, ten jsem neznal. Na jednoduche stranky se da pouzit prakticky cokoliv. Zkusenosti s s nim nemam a kdovi jak zvlada slozite veci. Otazkou je take jak lze ridit a skriptovat.

Tomas

To jsem ani neznal growisofs. Nejsis bude i 64-bit a tak narozdil od ImgBurn nespadne pri prekroceni velikosti procesu v RAM 2 GB.
Mohl by take zvladat lip dlouha a slozita jmena souboru a hlavne hodne souboru v jednom adresari (U IMG burn pri 50-100 tis. souboru jdes na kafe, a 1M souboru to je tak tyden)

squashfs jsem ani neznal, 7zip jde prikazove i pod linuxem (p7zip). Myslis ze da lepsi kompresi nez 7z u hodne podobnych stranek ?
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 29. 01. 2015, 00:27:57: Registrovat se pod Honza1 uz neslo - to uz nekdo pouziva.
Název: Re:Program pro stažení celého webu
Přispěvatel: nobody 29. 01. 2015, 00:47:51: ROZHODNE squashfs (balik squashfs-tools, prikazy mksquashfs/unsquashfs) s xv kompresi (-comp xv)
uz spoustu let (10? 15?) pouzivaj snad vsechny linux livecd, drive s zlib kompresi, nebo neoficialni lzma hlavne v slax
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 01. 02. 2015, 20:52:38: Nobody

Právě LZMA používá i 7zip. Např. u bloggu sosnutéto teleportem (s komentářema a diskuzí hodně) udělal ze 7 GB 86 MB, což docela jde. Velmi důležitá je kromě vysoké komprese propojenost mezi soubory (to i podobnosti v obázcích png,gif,jpg). Nicméně squashfs může být ještě lepší.

Jinak u ImgBurn pro win (32-bit jen) je důležité upozornění na dva ad-ware, co se nebízejí při instalaci. Je potřeba v každé fázi vše prohlédnout a vyškrtnout je. ImgBurn nezvládá extrémně dlouhé názvy a přejmenuje je. U TAR a ZIP může být probléz z diakritikou. 7zip, squashfs, growisofs by měl zvládat vše OK, a hlavně jako 64-bit nespadne, když velikost procesu překročí 2 GB.

Tomáš

Co vlastně používáš, nějaké zpracování textu, vyhledávání, hledání kopií ?
Název: Re:Program pro stažení celého webu
Přispěvatel: Tomáš Crhonek 02. 02. 2015, 09:43:33: Citace: Honza1Ubuntu 01. 02. 2015, 20:52:38
Tomáš

Co vlastně používáš, nějaké zpracování textu, vyhledávání, hledání kopií ?

Ne, ke každé stažené stránce mám jen čas stažení, URL a Title. Samotné stažené .html nijak dále nezpracovávám. Já to mám opravdu jen pro případ, kdy ten web zmizí, v ideálním případě to vlastně vůbec nepoužiji. Případně jen (v případě třeba EnglishRussia.com) vytáhnu ven obrázky do galerie.
Název: Re:Program pro stažení celého webu
Přispěvatel: offliner 02. 02. 2015, 12:21:17: Citace: jozin 25. 01. 2015, 23:49:42
nechápu, proč z online internetu vyrábět nějaký nekonzistentní otisk

Dnes online je, zitra byt nemusi. Mam zalozky plny mrtvych odkazu na stranky, ke kterym se uz nikdy nedostanu.
Název: Re:Program pro stažení celého webu
Přispěvatel: jenda 02. 02. 2015, 12:48:30: to musi byt desna ztrata, kdyz to po 4 letech uz neexistuje ;)
Název: Re:Program pro stažení celého webu
Přispěvatel: Peter 02. 02. 2015, 14:15:30: Citace: Tomáš Crhonek 02. 02. 2015, 09:43:33
Citace: Honza1Ubuntu 01. 02. 2015, 20:52:38
Tomáš

Co vlastně používáš, nějaké zpracování textu, vyhledávání, hledání kopií ?

Ne, ke každé stažené stránce mám jen čas stažení, URL a Title. Samotné stažené .html nijak dále nezpracovávám. Já to mám opravdu jen pro případ, kdy ten web zmizí, v ideálním případě to vlastně vůbec nepoužiji. Případně jen (v případě třeba EnglishRussia.com) vytáhnu ven obrázky do galerie.

V prípade English Russia by som sa radšej zameral na pätičku "via" v ktorej je odkaz na pôvodný článok s obrázkami bez zmenšenia.
Název: Re:Program pro stažení celého webu
Přispěvatel: OMG 02. 02. 2015, 14:37:22: Citace: jenda 02. 02. 2015, 12:48:30
to musi byt desna ztrata, kdyz to po 4 letech uz neexistuje ;)
to je relativni... pokud mas jako hobby neco co bavi tebe a dalsi 2 maniki, pak ztrata informaci je podstatna...
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 02. 02. 2015, 23:34:59: Citace: offliner 02. 02. 2015, 12:21:17
Citace: jozin 25. 01. 2015, 23:49:42
nechápu, proč z online internetu vyrábět nějaký nekonzistentní otisk

Dnes online je, zitra byt nemusi. Mam zalozky plny mrtvych odkazu na stranky, ke kterym se uz nikdy nedostanu.

Naprosto dokonale řečeno, zvlášťě když se člověk zajímá o kontroverznější věci. Ono cenzuru se snaží zavést všude. 29.5.2014 je takový jasný přílad náhlého a téměř dokonalého zmizení. A to tení jediný příklad. Koneckonců z Youtube se to také občas "vypařuje". Záložky nemůsí fungivat třeba jen kvůli změně struktury webu nebo adresy.
Název: Re:Program pro stažení celého webu
Přispěvatel: offliner 03. 02. 2015, 15:01:55: Citace: jenda 02. 02. 2015, 12:48:30
to musi byt desna ztrata, kdyz to po 4 letech uz neexistuje ;)

Teď jsi ještě mladý a nezkušený, ale časem na to přijdeš...
Název: Re:Program pro stažení celého webu
Přispěvatel: offliner 03. 02. 2015, 15:11:16: Abych jenom neprudil, uvedu malý příklad z praxe. Potřeboval jsem onehdy nějaké materiály k embedded procesorům řady AMD E86, kvůli jakémusi staršímu zařízení. Na webu to už nemají ani v sekci discontinued/legacy a mě v době, kdy to bylo aktuální nenapadlo, si to stáhnout k sobě. Takže jsem to dnes z toho "online internetu" doloval horko těžko po všech čertech. A archive.org v mnoha případech moc nepomůže.
Název: Re:Program pro stažení celého webu
Přispěvatel: Kolemjdoucí 03. 02. 2015, 15:20:00: Offline záloha je potřebná věc, diskuze na toto téma je zbytečná.
Mnohdy stačí když nastoupí mladý a dynamický manager a z webu následně zmiznou informace o již nevyráběných produktech.
Název: Re:Program pro stažení celého webu
Přispěvatel: jenda 03. 02. 2015, 18:45:11: v poho ;) jsou veci, ktere zkousku casem preziji, a pak ty, ktere nepreziji.
pokud chcete ztracet drahocenny cas na vecech, ktere neprezily, je to Vas boj ( a vaseho chlebodarce penize ).

Uz jenom najit to v balastu nejakych zaloh trva - na rozdil od dotazu na gugle, ktery jeste ani nestacim dopsat, a uz vidim odpovedi ;)
Název: Re:Program pro stažení celého webu
Přispěvatel: ell 19. 02. 2015, 10:44:33: http://www.compmiscellanea.com/en/lynx-web-data-extraction.htm
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 20. 02. 2015, 14:03:43: Citace: jenda 03. 02. 2015, 18:45:11
v poho ;) jsou veci, ktere zkousku casem preziji, a pak ty, ktere nepreziji.
pokud chcete ztracet drahocenny cas na vecech, ktere neprezily, je to Vas boj ( a vaseho chlebodarce penize ).

Uz jenom najit to v balastu nejakych zaloh trva - na rozdil od dotazu na gugle, ktery jeste ani nestacim dopsat, a uz vidim odpovedi ;)

Jendo ty si nějak chytrý, že říkáš ostatním, čím se mají zabejvat. Některé informace mohou být důležité a záloha trvá minutu.
Schválně, jestli nám najdeš www.truecrypt.org (normální verzi TC webu, ne tu co je k ničemu). A to je jeden z mnoha příkladů.
Název: Re:Program pro stažení celého webu
Přispěvatel: Tomáš Roll 20. 02. 2015, 14:18:18: Citace: Honza1Ubuntu 02. 02. 2015, 23:34:59
Naprosto dokonale řečeno, zvlášťě když se člověk zajímá o kontroverznější věci. Ono cenzuru se snaží zavést všude. 29.5.2014 je takový jasný přílad náhlého a téměř dokonalého zmizení. A to tení jediný příklad. Koneckonců z Youtube se to také občas "vypařuje". Záložky nemůsí fungivat třeba jen kvůli změně struktury webu nebo adresy.

Nemusí být kontroverzní. Viděl jsem několik stránek věnovaných vývoji software, ze kterých po dvou letech zmizely obrázky. Schémata, screenshoty. A jsou to třeba věci, kterými se na světě zabývá jen pár desítek lidí a ti se informacemi moc nedělí. Navíc jsou dnešní stránky většinou netisknutelné, možnost vytvořit tisknutelnou verzi mizí, můžeš to poslat na facebook, na twitter, ale na tiskárnu už ne.
Název: Re:Program pro stažení celého webu
Přispěvatel: Jimm 20. 02. 2015, 14:27:27: Honzíku, ty mi přijdeš natvrdlý.Arguentuješ pro zálohování internetů tím, že nenajdeme na webu stránky truecryptu, který je ukončený a nedoporučuje se používat?

Citace: Honza1Ubuntu 20. 02. 2015, 14:03:43
Citace: jenda 03. 02. 2015, 18:45:11
v poho ;) jsou veci, ktere zkousku casem preziji, a pak ty, ktere nepreziji.
pokud chcete ztracet drahocenny cas na vecech, ktere neprezily, je to Vas boj ( a vaseho chlebodarce penize ).

Uz jenom najit to v balastu nejakych zaloh trva - na rozdil od dotazu na gugle, ktery jeste ani nestacim dopsat, a uz vidim odpovedi ;)

Jendo ty si nějak chytrý, že říkáš ostatním, čím se mají zabejvat. Některé informace mohou být důležité a záloha trvá minutu.
Schválně, jestli nám najdeš www.truecrypt.org (normální verzi TC webu, ne tu co je k ničemu). A to je jeden z mnoha příkladů.
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 20. 02. 2015, 14:36:50: Citace: Jimm 20. 02. 2015, 14:27:27
Honzíku, ty mi přijdeš natvrdlý.Arguentuješ pro zálohování internetů tím, že nenajdeme na webu stránky truecryptu, který je ukončený a nedoporučuje se používat?

Citace: Honza1Ubuntu 20. 02. 2015, 14:03:43
Citace: jenda 03. 02. 2015, 18:45:11
v poho ;) jsou veci, ktere zkousku casem preziji, a pak ty, ktere nepreziji.
pokud chcete ztracet drahocenny cas na vecech, ktere neprezily, je to Vas boj ( a vaseho chlebodarce penize ).

Uz jenom najit to v balastu nejakych zaloh trva - na rozdil od dotazu na gugle, ktery jeste ani nestacim dopsat, a uz vidim odpovedi ;)

Jendo ty si nějak chytrý, že říkáš ostatním, čím se mají zabejvat. Některé informace mohou být důležité a záloha trvá minutu.
Schválně, jestli nám najdeš www.truecrypt.org (normální verzi TC webu, ne tu co je k ničemu). A to je jeden z mnoha příkladů.

Nedoporučuje se používat nebo někdo nemá zájem aby byl používán. To je kapitola sama o sobě mimo toto vlákno. Byl to stejně jen příklad.

PROČ by se neměl používat TC (a děravej Bitlocker od MS ano) ?
Název: Re:Program pro stažení celého webu
Přispěvatel: Jimm 20. 02. 2015, 15:29:37: Asi jsi moc zkušený diskutér, právě jsi mě uzemnil. Na to prostě není co říct... ;D
Název: Re:Program pro stažení celého webu
Přispěvatel: Kolemjdoucí 20. 02. 2015, 15:47:38: Citace: Jimm 20. 02. 2015, 14:27:27
Honzíku, ty mi přijdeš natvrdlý.Arguentuješ pro zálohování internetů tím, že nenajdeme na webu stránky truecryptu, který je ukončený a nedoporučuje se používat?

Truecrypt byl ukončen proto že fungoval až moc dobře. Žádná závažná závada, na základě které by se doporučovalo to nepoužívat, se nenašla.
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 26. 02. 2015, 17:48:16: Citace: Jimm 20. 02. 2015, 14:27:27
Honzíku, ty mi přijdeš natvrdlý.Arguentuješ pro zálohování internetů tím, že nenajdeme na webu stránky truecryptu, který je ukončený a nedoporučuje se používat?

Citace: Jimm 20. 02. 2015, 15:29:37
Asi jsi moc zkušený diskutér, právě jsi mě uzemnil. Na to prostě není co říct... ;D

Tady vůbec nebylo v plánu tě uzemnit. Napsal jsi ž Truecrypt je nevhodný, tak jsdem se zeptal proč - na tvůj názor. Nevím vůbe o co ti šlo (zavrhování Truecryptu, nebo tohoto vlákna), nicméně trochu slušnosti by neuškodilo. Sám se ptáš v jiném vlkáně na ještě komplikovanější věc, se kterou si taky rady nevim (a která v tebou popsané situaci i dost postrádá smysl) - stahování + vyhledávání z uložto skriptem.

Jinak Truecrypt samozřejmě skoončil protože byl až moc dobrý a ani NSA ho neprorazila (nápodobně LavBait). Zvláště kolik tam bylo možností. Zmizel ze dne na den ze všech weboů současně, autor se k tomu nevyjádří a navéc je doporučován bitlocker s bacdory. Tak v případě nějaké chyby se to nedělá. Je z toho záměr jasný. Stejně už je forknutej a audit TC taky bude.
Název: Re:Program pro stažení celého webu
Přispěvatel: JardaP . 26. 02. 2015, 21:59:06: Citace: Honza1Ubuntu 26. 02. 2015, 17:48:16
Jinak Truecrypt samozřejmě skoončil protože byl až moc dobrý a ani NSA ho neprorazila...

Take mam doma kristalovou kouli, ale jenom jako dekoraci. Jinak to s ni neumim, mohl byste mi prozradit, jak se pouziva?
Název: Re:Program pro stažení celého webu
Přispěvatel: Jimm 26. 02. 2015, 22:54:12: To je šílený, fakt... Evidentně nemáš moc šajn, ale za to máš bujnou fantazii. :) Můžeš mi prosím říci, v čem je nelogické poslat e-mail kde napíšu "uloztodl: pan prstenu dve veze" a až přijdu k tv, podívám se na nazadný film? Co na tom přesně nedává smysl? Ještě jsem od té doby neměl čas, ale dohromady to samozřejmě dám, už mi to dobře půl roku fungovalo, než to překopali.

Citace: Honza1Ubuntu 26. 02. 2015, 17:48:16
Citace: Jimm 20. 02. 2015, 14:27:27
Honzíku, ty mi přijdeš natvrdlý.Arguentuješ pro zálohování internetů tím, že nenajdeme na webu stránky truecryptu, který je ukončený a nedoporučuje se používat?

Citace: Jimm 20. 02. 2015, 15:29:37
Asi jsi moc zkušený diskutér, právě jsi mě uzemnil. Na to prostě není co říct... ;D

a která v tebou popsané situaci i dost postrádá smysl) - stahování + vyhledávání z uložto skriptem.
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 05. 03. 2015, 14:49:02: Citace: Jimm 26. 02. 2015, 22:54:12
To je šílený, fakt... Evidentně nemáš moc šajn, ale za to máš bujnou fantazii. :) Můžeš mi prosím říci, v čem je nelogické poslat e-mail kde napíšu "uloztodl: pan prstenu dve veze" a až přijdu k tv, podívám se na nazadný film? Co na tom přesně nedává smysl? Ještě jsem od té doby neměl čas, ale dohromady to samozřejmě dám, už mi to dobře půl roku fungovalo, než to překopali.

Podle toho jak si to napsal, tak jsem spíše pochopil, že potřebuješ vyhledávat podle názvu a následně subor stáhnout. Když to budeš dělat skriptem, při vyhledávání vyskočí víc možností a který soubor stáhneš, ten první ? To nevíš nic o formátu a kvalitě. A pokud stáhneš souborů víc, tak budeš plejtvat dost drahej datovej limit. Spíš ych to chápal tak že máš konkrítní odkazy k souborům, co se dají stáhnout.

Jinak při stahování skriptem nejde o rychlost, když to běží pořád, 100-300 kB/s stačí. Tak by spíš šlo o to, že bez registrace můžeš navolit dopředu např. 20 souborů, které se postupně stáhnou (Jak jeden skončí, druhý začne). O to jde, že souborům máš víc a nemuéš u toho bejt a s každym novym řešit capthu (což jde asi jen přez registrovaný účet).
Název: Re:Program pro stažení celého webu
Přispěvatel: semestralka 05. 03. 2015, 17:06:56: ahoj
takový program bych potřeboval ale abyto nestahovalo ten web ale jenom hudbu a videa z toho webu. Samo by to nemohlo stahovat celí web protože by se do macu nevešel ale jenom třeba jenom některé vybrané věci.
šlo by to??
Název: Re:Program pro stažení celého webu
Přispěvatel: Alice 09. 03. 2015, 08:36:03: Ahoj, já chtěla stáhnout z tohoto webu http://www.sea-seek.com/ebook/ všechny ty .pdf soubory , ale wget napíše
Kód: [Vybrat]
HTTP požadavek odeslán, program čeká na odpověď… 403 Forbidden 2015-03-09 08:33:26 CHYBA 403: Forbidden.Nechce se mi klikat na každý zvlášť :/ .. jde to stáhnout nějak kompletně ? Děkuji za případnou odpověď.
Název: Re:Program pro stažení celého webu
Přispěvatel: roghir 09. 03. 2015, 08:42:27: Svého času jsem používal program Teleport Pro. Základem byla "vstupní stránka", dále se určovala úroveň vnoření odkazů, ale bylo možné filtrovat typy souborů atd. Problém je, že daný SW byl pod Windows.
Název: Re:Program pro stažení celého webu
Přispěvatel: bloop 09. 03. 2015, 08:54:58: Citace: Alice 09. 03. 2015, 08:36:03
Ahoj, já chtěla stáhnout z tohoto webu http://www.sea-seek.com/ebook/ všechny ty .pdf soubory , ale wget napíše
Kód: [Vybrat]
HTTP požadavek odeslán, program čeká na odpověď… 403 Forbidden 2015-03-09 08:33:26 CHYBA 403: Forbidden.Nechce se mi klikat na každý zvlášť :/ .. jde to stáhnout nějak kompletně ? Děkuji za případnou odpověď.

Pouzij toto rozsireni ale je pouze pro firefox http://www.downthemall.net/ (http://www.downthemall.net/)
Název: Re:Program pro stažení celého webu
Přispěvatel: Alice 09. 03. 2015, 09:25:59: Super , funguje i pro Iceweasel . To jsem přesně potřebovala. Děkují Alice
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 11. 03. 2015, 18:50:49: Citace: semestralka 05. 03. 2015, 17:06:56
ahoj
takový program bych potřeboval ale abyto nestahovalo ten web ale jenom hudbu a videa z toho webu. Samo by to nemohlo stahovat celí web protože by se do macu nevešel ale jenom třeba jenom některé vybrané věci.
šlo by to??

Stáhnutí určitého typu souboru (podle přípony) samozřejmě jde. Záleší o jaký web se jedná. Některé weby s audiem či videem se totiž stahování snaží zabránit. Obecně se dá napsat seznam chtěných i nechtěných přípon (robots.txt se většinou stáhne vždy). Linux rozlišuje velká a malá písmena, pro jednu příponu používam tedy 3 typy: pdf,PDF,Pdf. wget -A pripona1,priona2,..... je seznam souborů, které se mají stáhnout, wget -R pripona1,priona2,..... je seznam souborů, které se nemají stáhnout. Přípony se oddělují čárkou. wget -X vyloučí celý adresář, adresáře se oddělují čárkou a nezadává se doména www.neco.cz ale až poddoménové úrovně, tedy wget -X adresar1,adresar2,..... Např. s youtube, stream.cz, Uloz.to a další - tam to takto řešit nejde, mají ochran dost.
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 11. 03. 2015, 19:09:57: Citace: roghir 09. 03. 2015, 08:42:27
Svého času jsem používal program Teleport Pro. Základem byla "vstupní stránka", dále se určovala úroveň vnoření odkazů, ale bylo možné filtrovat typy souborů atd. Problém je, že daný SW byl pod Windows.

Teleporty, ač velmi staré, to je asi nejvýkonnější program, co znám a zvládá prakticky vše, a to i když se web od poslední verze teleport razantně změnil. Ale smůla, že je jen pro windows a navíc je to komerční a poměrně drahý program (Teleport pro zase tak drahý neni). A neumožňuje skriptování, pouze vyloučení adresářů, nebo typů souboru (i podle velikosti, jména a pod.). O tom, jak je program starý, svědčí i to, že je deafultně nastavený User Agent Internet Exporer verze 5 nebo netscape. Nevýhoda u teleportt je podivný systém stahování - extrémní fragmentace na disku a extrémní zatížení disku (je z doby kdy internet byl pomalý). Teleport pro je omezen počtem staženných souborů 65536, což dost často nemusí stačit. Teleport ultra nabízí až cca 256000 souborů v jednom projektu, je cca 3x dražší a umožňuje import startovacích URL ze souboru. Ale ani 256 000 souborů někdy nemusí stačit. Teleport VLX zvládá až 40 000 000 URL jenže je 32-bit a když seznam URL v paměti dosáhne 2 GB, končí (to je cca 10 M adres). A rychlost je 1-5 URL/s při downloadu takže takový projekt běží extrémně dlouho (nad 1 M adres). Verze programovatelného teleportu také existuje ale je extrémně drahá (podobně jako VLX). V Linuxu se dá postit pod emulátorem, ale tento typ běhu jej extrémně zpomaluje. Na neoficiálních stránkách se nachází mraky zavirovaných verzí, které navíc mají limit z dola.
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 11. 03. 2015, 19:19:10: Citace: Alice 09. 03. 2015, 08:36:03
Ahoj, já chtěla stáhnout z tohoto webu http://www.sea-seek.com/ebook/ všechny ty .pdf soubory , ale wget napíše
Kód: [Vybrat]
HTTP požadavek odeslán, program čeká na odpověď… 403 Forbidden 2015-03-09 08:33:26 CHYBA 403: Forbidden.Nechce se mi klikat na každý zvlášť :/ .. jde to stáhnout nějak kompletně ? Děkuji za případnou odpověď.

Wget lze použít také, ale zde přímo wget je zablokován, proto se použije User Agent (např. Mozilla) a server tak hned nepozná, že jde o stahovač.

wget -r -l 1 -A pdf,PDF,Pdf -nc -nH -nd -U "Mozilla/5.0 ......................................" "http://www.sea-seek.com/ebook/"

-r -l 1 jeden odkaz do hloubky
-A pdf,PDF,Pdf pouze soubory pdf
-nc po spuštění znovu stáhne jen soubory co staženy nejsou (přeskakuje in nekompletní soubory)
-nH nevytvoří se adresář se jménem souboru
-nd nevytváří se adresářová struktura
-U je User Agent a za tim jméno a verze prohlížeče (dá se podrobně rozepsat).

Jinak jde obecně pomocí cut,rep,sed,gawk,tr zdrojový kód stránky parsovat a vytáhnout soubory určitých vlastností (část webu, jméno obsahuje řetězec, přípona atd.).
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 11. 03. 2015, 19:29:38: Citace: Honza1Ubuntu 11. 03. 2015, 19:19:10
wget -r -l 1 -A pdf,PDF,Pdf -nc -nH -nd -U "Mozilla/5.0 ......................................" "http://www.sea-seek.com/ebook/"

Výsledek:
Downloaded: 111 files, 4.0G in 27m 33s (2.45 MB/s), 110 pdf souborů + robots.txt
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 24. 04. 2015, 08:03:29: Tak jsem to vyzkoušel přímo zde - stažení forum.root.cz a následné úpravy. Program puštěn 28.2.2015, odkazy v html souborech konvrtovány pro lokální prohlížení, následně byl také vytlořen image ISO+UDF 2.00 soubor programem IMG BURN.

Info o průměhu:

Velikost a vlastnosti po stažení a konvertu URLs:
Velikost:      80.0 GB (85 993 522 972 bytes)
Velikost na disku:   81.1 GB (87 082 934 272 bytes)
587 883 Souborů, 1 129 Složek, hodně souborů v jednom adresáři forum.root.cz

7zip archív s maximální kompresí:   258 400 923 B, 246 MiB
Typ komprese ve win (64 MB slovník):   7z/ULTRA/LZMA/64 MB/273/2 Threads/Win

7zip archív s maximální kompresí:   225 683 561 B, 215 MiB
Typ komprese v Ubuntu (1024 MB slovník):   7z/ULTRA/LZMA/1024 MB/273/2 Threads/Linux p7zip

ISO+UDF image:      81.9 GB (87 980 113 920 bytes)
Image typ:      UDF 2.00+ISO, iso files length 219 (maximumální možná délka názvu souboru v ISO), podle logu žádný soubor neměl příliš dlouhý název pro přejmenování, v UDF možné názvy delší
Doba jednotlivých procesů při vytváření image:
Vytváření Image Tree okolo 3 dnů, Generování ISO jménna souborů okolo 2 dnů, Generování UDF jménna souborů okolo 3 dnů

Komprimovaný Image s max. kompresí ve win   267 543 672 B, 255 MiB
Typ komprese ve windows (64 MB slovník):   7z/ULTRA/LZMA/64 MB/273/2 Threads/Win

Komprimovaný Image s max. kompresí v Ubuntu:   235 828 501 B, 224 MiB
Typ komprese v Ubuntu (1024 MB slovník):   7z/ULTRA/LZMA/1024 MB/273/2 Threads/Linux p7zip

Doba stažení webu okolo 30 hodin
Doba konvertu URL adres okolo 33-35 hodin
Vytváření 7zip archívu ve win 7z/ULTRA/LZMA/64 MB/273/2 Threads/Win trvalo 16:39:10
Smaznání složky povytvoření 7yip archívu trvalo 1.5 hodiny
Opětovné rozbalení složky z 7z archivu (Win) okolo 3.5 hodin
Rozbalení 7z archivu ze soubory v Ubuntu trvalo okolo 20-25 hodin (důvodem je hodně souborů v jednom adresáři)
Vytvoření 7z archivu v Ubuntu 7z/ULTRA/LZMA/1024 MB/273/2 Threads/Ubuntu při prvním běhu trvalo 6:42:32 a při zkoušce po druhé 7:31:56
Jednotlivé fáze vytváření ISO+UDF image souboru:
Vytváření image (ISO+UDF 2.00) - Vytváření Image Tree okolo 3 dnů
Vytváření image (ISO+UDF 2.00) - Generování ISO FILE Names okolo 2 dnů
Vytváření image (ISO+UDF 2.00) - Generování UDF FILE Names okolo 3 dnů
Vytváření image (ISO+UDF 2.00) - Zápis Image souboru na stejném oddílu disku 00:53:57 (Rozbalení složky ze 7z archivu trvalo asi hodinu, soubory již nebyly tak fragmentované jako po stažení a konverzi odkazů)
Test souboru Image ve win pomocí 7zip 00:10:31
7zip Archiv test (64 MB slovník, vytvořený ve win) pomocí 7zip ve win 00:02:15
7zip Archiv test (1024 MB slovník, vytvořený v Ubuntu pomocí p7zip) pomocí 7zip ve win 00:02:18
Smazání složky (rozbalené ze 7zip archivu, 587 883 Souborů, 1 129 Složek, 318 Kmenových složek) - prohledání složky trvalo jen 4 min
Smazání složky (rozbalené ze 7zip archivu, 587 883 Souborů, 1 129 Složek, 318 Kmenových složek)) - smazání souborů trvalo 15-16 min
Vytvoření 7zip archívu ve win - (7z/ULTRA/LZMA/64 MB/273/2 Threads/Win) ze souboru ISO+UDF Image trvalo 11:08:53
Vytvoření 7zip archívu v Ubuntu (7z/ULTRA/LZMA/1024 MB/273/2 Threads/Ubuntu) ze souboru ISO+UDF Image trvalo 7:33:14
Rozbalení ISO+UDF Image ze 7z archívu (1024 MB slovník) ve win trvalo 0:08:40
Rozbalení ISO+UDF Image ze 7z archívu (64 MB slovník) ve win trvalo 0:08:51
Rozbalení ISO+UDF Image ze 7z archívu (64 MB slovník) v Ubuntu trvalo 0:16:01

Ke ztažení
forum.root.cz k 28.2.2015 - 7zip archív (7z/ULTRA/LZMA/1024 MB/273/2 Threads/Ubuntu) obsahující stažené soubory s konvertovanými odkazy pro Offline prohlížení (587 883 Souborů, 1 129 Složek):
http://uloz.to/xYZuuRxF/forum-root-cz-20150228-7z

Ke ztažení
forum.root.cz k 28.2.2015 - 7zip archív (7z/ULTRA/LZMA/1024 MB/273/2 Threads/Ubuntu) obsahující image ISO+UDF se staženými soubory s konvertovanými odkazy pro Offline prohlížení (587 883 Souborů, 1 129 Složek):
http://uloz.to/x3Fnn5iW/forum-root-cz-20150228-im-7z

Pozor - při vytváření Image jsou občas nějaké dlouhé názvy přejmenovány a odkaz na ně pak nefunguje, zde ale podle logu žádný přejmenovaný soubor není.
Název: Re:Program pro stažení celého webu
Přispěvatel: Dzavy 24. 04. 2015, 11:58:37: Citace: Honza1Ubuntu 24. 04. 2015, 08:03:29
Tak jsem to vyzkoušel přímo zde - stažení forum.root.cz a následné úpravy. Program puštěn 28.2.2015, odkazy v html souborech konvrtovány pro lokální prohlížení, následně byl také vytlořen image ISO+UDF 2.00 soubor programem IMG BURN.

Info o průměhu:

Velikost a vlastnosti po stažení a konvertu URLs:
Velikost: 80.0 GB (85 993 522 972 bytes)
Velikost na disku: 81.1 GB (87 082 934 272 bytes)

A to se vyplati. 81GB zbytecnych a duplicitnich sracek, ktery se musely prenest po internetu a 30 hodin generovaly na root.cz traffic cca 6Mb/s, jestli pocitam dobre.
Vlastni obsah fora ma podle myho skromnyho odhadu maximalne stovky MB.
Název: Re:Program pro stažení celého webu
Přispěvatel: Unknown 26. 04. 2015, 11:05:27: Mrknete na http://videlibri.sourceforge.net/xidel.html (http://videlibri.sourceforge.net/xidel.html), mozna by se tim dal projet web a vytvorit stahovaci linky pro cURL.
Název: Re:Program pro stažení celého webu
Přispěvatel: atarist 26. 04. 2015, 15:55:34: Citace: Honza1Ubuntu 24. 04. 2015, 08:03:29
Tak jsem to vyzkoušel přímo zde - stažení forum.root.cz a následné úpravy.
Velikost a vlastnosti po stažení a konvertu URLs:
Velikost: 80.0 GB (85 993 522 972 bytes)

Ty jsi skutečně jen tak pro test tímto šíleným způsobem zatížil rootovský server a přenesl po společných linkách 80 GB? No to tedy zírám: typický problém obecní louky v praxi.
Název: Re:Program pro stažení celého webu
Přispěvatel: Unknown 26. 04. 2015, 19:43:03: Citace: atarist 26. 04. 2015, 15:55:34
Citace: Honza1Ubuntu 24. 04. 2015, 08:03:29
Tak jsem to vyzkoušel přímo zde - stažení forum.root.cz a následné úpravy.
Velikost a vlastnosti po stažení a konvertu URLs:
Velikost: 80.0 GB (85 993 522 972 bytes)

Ty jsi skutečně jen tak pro test tímto šíleným způsobem zatížil rootovský server a přenesl po společných linkách 80 GB? No to tedy zírám: typický problém obecní louky v praxi.

Co jsou to "spolecne linky" ?? A co ma soukroma spolecnost iinfo spolecneho s obecni loukou?
Pokud nemaji limit na maximalni prutok dat z jedne IP adresy (plus treba nekolikasekundove bezlimitni bursty) tak jim to asi nevadi a maji dost tlustou linku. Pokud to navic slo jen pres NIX, tak to ani nemelo vygenerovate nejake dalsi naklady jim, ani Masterum....
Název: Re:Program pro stažení celého webu
Přispěvatel: atarist 26. 04. 2015, 22:26:26: Citace: Unknown 26. 04. 2015, 19:43:03
Citace: atarist 26. 04. 2015, 15:55:34
Citace: Honza1Ubuntu 24. 04. 2015, 08:03:29
Tak jsem to vyzkoušel přímo zde - stažení forum.root.cz a následné úpravy.
Velikost a vlastnosti po stažení a konvertu URLs:
Velikost: 80.0 GB (85 993 522 972 bytes)

Ty jsi skutečně jen tak pro test tímto šíleným způsobem zatížil rootovský server a přenesl po společných linkách 80 GB? No to tedy zírám: typický problém obecní louky v praxi.

Co jsou to "spolecne linky" ?? A co ma soukroma spolecnost iinfo spolecneho s obecni loukou?
Pokud nemaji limit na maximalni prutok dat z jedne IP adresy (plus treba nekolikasekundove bezlimitni bursty) tak jim to asi nevadi a maji dost tlustou linku. Pokud to navic slo jen pres NIX, tak to ani nemelo vygenerovate nejake dalsi naklady jim, ani Masterum....

Odkaz na http://cs.wikipedia.org/wiki/Trag%C3%A9die_obecn%C3%AD_pastviny
Název: Re:Program pro stažení celého webu
Přispěvatel: Unknown 27. 04. 2015, 22:49:19: Precetl jsem to, ale vubec nechapu aplikaci teto teorie na datove linky. Pokud myslite omezenou kapacitu, tak to snad ma resit cosi jako "traffic ballancer".
Pokud je linka volna, muze kdokoliv sosat plnou rychlosti. Pokud zacina byt vytizena, zacnou byt rychlosti jednotlivych lidi omezovany pomerne s tim jak stoupa vytizeni linky. Navic se da deletrvajicim spojenim rychlost snizit vice nez nove navazanym, a tim uprednostnit brouzdace pred stahovaci (rika se tomu burst). Pokud linka byva casto vytizena nad 60% sve kapacity, je cas zacit uvazovat nad jejim upgradem.
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 05. 07. 2015, 02:59:35: Ono je dost rozdil, jestli je obecna louka pretezovana a nevystaci pro vsechny, nebo jestli je prakticky nevyuzivana a lezi ladem. Linak do internetu ma 1 Gbit a vytizeni je vetsinou do 1-10%. U ciloveho serveru bude podle vseho lika jeste silnejsi (10-100 Gbit), protoze root.cz je soucasti obrovskeho kolosu webu Idnes, Mesec, Lupa, Vitalita, IDOS a mnoho dalsiho, kde je uzivatelu mraky a vytizeni obrovske. 6 mbits se tam ztrati. Nejde ani tak o prutok dat, down/up 100 GB je dneska beznou veci hlavne u vymennzch siti. Spis jde ao zatizeni databaze, nebot s kazdym requestem se stranka vytvari z databaze a staticke stranky neexistuji. Databaze je o mnoho menci nez velikost vsech tech html stranek, stejne tak, jako je o mnoho menci text na strankach. Prave velke pouzivani databaze generuje zatez na CPU/RAM/disk, prenesena data nic velkeho nejsou. Ale protoze se jedna o obrovsky kolos webu (navic patrici pod Mafra), ztrati se to tam.

Momochodem cookies, IP, uzivatelse ucty - vze trackovat pohyb v ramci celeho kolosu webu ale ne mimo nej. Google, FB a dalsi si trackovani pojistil tak, ze pouziva like-buttony na kazdy web skoro, nebo jeste lepe na kazdou stranku.
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 05. 07. 2015, 03:03:01: Citace: Dzavy 28. 01. 2015, 17:40:57
Zaprvy, na http://www.kesyl.unas.cz/pocasi-kunovice proste vubec zadna Java neni, jenom JavaScript. Zadruhy, jestli Te zajimaji historicky statisticky data, tak nechapu k cemu bys ukladal celou stranku, kdyz muzes stahnout jenom ty data z http://www.kesyl.unas.cz/pocasi-kunovice/data/dayfile.txt a mnohem snadnejs je zpracovat.

Jak tam umis najit primo zdrojovy datovy soubor, ktery bych musel zase zpet ze stranek vytvaret ? Problem mnoha duplicitnich veci v kodu html stranky, ktere se nakonec musi odstranovat slozite (a razantne znasobuji velikost dat) je vsude mozne. Pouzil jsi na ziskani linku k zdrojovym datum neco specialniho a slo by to i jinde ?
Název: Re:Program pro stažení celého webu
Přispěvatel: Andy 16. 07. 2015, 17:44:53: Ahoj,
zkoušel jsem s WinHTTrack a pak i s Teleport Pro stáhnout http://stary.astromat.cz (http://stary.astromat.cz), protože prý bude brzy nahrazen novým, ale některé prvky na stránce nefungují offline, např. tlačítko pro výpočet. Dalo by se to nějak stáhnout celé tak, jak to je na webu?
Díky za případnou odpověď.
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 25. 07. 2015, 18:38:17: Citace: Andy 16. 07. 2015, 17:44:53
Ahoj,
zkoušel jsem s WinHTTrack a pak i s Teleport Pro stáhnout http://stary.astromat.cz (http://stary.astromat.cz), protože prý bude brzy nahrazen novým, ale některé prvky na stránce nefungují offline, např. tlačítko pro výpočet. Dalo by se to nějak stáhnout celé tak, jak to je na webu?
Díky za případnou odpověď.

Ahoj

Wget zvládá statické i databázové stránky dobře a většinou i javaskript. Teleport zvládá dobře dynamické stránky, JS i složitá jména souborů veli doře, asi nejlíp ze všech programů co jsem viděl (narozdíl od wget), httptrack nemám zkušenosti. Teleport umí velmi dobře konvertovat odkazy i v případě složitých JS, php a pod.

Ale výpočty, které se provádí po zadání údajů do formuláře nějakým skriptem na serveru, ke kterému nevede url ve zdrojovém kodu stránky, stejně tak jako videa, flash, na které rovněž odkaz nevede ve zdrojáku, to nezvládá ani wget ani teleport ani thhptrack. Skripty pro výpočet jsou uloženy kdoví kde na webu a to v rámci stahovačů není možné.

Videa a flash, na to jsou speciální programy (YTD od Pepáka), hlavně nepoužívaj Jdownloader prolezlý adware a spyware a kdoví čím ještě. Jak stáhnout stránku, aby fungoval výpočet po použití formuláře, to jsem nikde neviděl.
Název: Re:Program pro stažení celého webu
Přispěvatel: Andy 25. 07. 2015, 19:42:11: Citace: Honza1Ubuntu 25. 07. 2015, 18:38:17
... Skripty pro výpočet jsou uloženy kdoví kde na webu a to v rámci stahovačů není možné. ...

A nešlo by nějak stáhnout všechny soubory z té adresy, ať už k nim cesta ve zdrojovém kódu stránky vede nebo nevede?
Název: Re:Program pro stažení celého webu
Přispěvatel: Ondrej Nemecek 25. 07. 2015, 20:43:49: Když nevíte, co chcete stáhnout (název souboru - url), těžko to stáhnete. Můžete jedině hádat - například pokud budete mít obrázek http://www.domena.cz/01.jpg můžete zkusit jestli tam je i http://www.domena.cz/02.jpg a pokud uspějete můžete stahovat po jedničcce všechny soubory dokud nedostanete error. Taková úloha se dá sndadno naskriptovat, ale na počátku musíte vědět, co budete stahovat. Některé servery prozrazují seznam souborů v adresáři (directory listing), pak můžete použít tento seznam. Víc možností už asi není.
Název: Re:Program pro stažení celého webu
Přispěvatel: Pavel Stěhule 25. 07. 2015, 20:47:59: Citace: Andy 25. 07. 2015, 19:42:11
Citace: Honza1Ubuntu 25. 07. 2015, 18:38:17
... Skripty pro výpočet jsou uloženy kdoví kde na webu a to v rámci stahovačů není možné. ...

A nešlo by nějak stáhnout všechny soubory z té adresy, ať už k nim cesta ve zdrojovém kódu stránky vede nebo nevede?
Pokud nevíte, jak se ty soubory jmenují, tak to z principu nelze.
Název: Re:Program pro stažení celého webu
Přispěvatel: Andy 26. 07. 2015, 15:40:28: Citace: Ondrej Nemecek 25. 07. 2015, 20:43:49
... Některé servery prozrazují seznam souborů v adresáři (directory listing), pak můžete použít tento seznam. ...
Jak se k takovému seznamu dostanu, pokud to tedy server umožňuje? Zkoušel jsem nslookup
Kód: [Vybrat]
> ls -d stary.astromat.cza hlásí to
Kód: [Vybrat]
*** Can't list domain stary.astromat.cz: Not implementedNevím, jestli to znamená, že server neumožňuje zobrazit seznam souborů vůbec, nebo jen tímhle způsobem.

Nešlo by prostě stáhnout celý ten hlavní adresář (v němž je index.htm)?
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 27. 07. 2015, 13:59:56: Citace: Andy 25. 07. 2015, 19:42:11
Citace: Honza1Ubuntu 25. 07. 2015, 18:38:17
... Skripty pro výpočet jsou uloženy kdoví kde na webu a to v rámci stahovačů není možné. ...

A nešlo by nějak stáhnout všechny soubory z té adresy, ať už k nim cesta ve zdrojovém kódu stránky vede nebo nevede?

Nešlo samozřejmě. Prakticky všechny stahovače fungují tak, že stáhlou index, podívají se jaký jsoui tam odkazym, stáhnmou je a podívají se, jaké jsou odkazy do hloubky 2, 3 atd. Takhle se rekurzivně stáhne celý web, nebo jeho část (podle nastavení). Lze i přidat, že se ke stránkám stáhou externí soubory nutné pro zobrazení (obrázky a pod.). Stránky a soubory se jmenují obvykle tak jako se jmenují v URL včetně adresářové strutury (někdy jsou rména nekompatibilní - nepovolené znaky a program (teleport te win) musí znaky upravit).

Stránky jsou buď statické, extïstující pořád, nebo dnamické, jež se na základě URL generují z datamáze (občas místo URL se používá post). Obrázjky jsou většinou statické, ale ne vždy. U dynamických stráek je celková množina kombinací parametrů často velká a množina všech možných odkazů na dynamixckém webu taky. Navíc všechny soubory mohou být ukládány do jednoho adresáře (hodně souborů vjednom adresáři - problém). Vygenerované stránky jsou dost podobné i duplicitní. Tak tomu je i např, tady na forum.root.cz. V celém foru je přez 500 000 odkazlů = přez 500 000 podobných souborů v jednom adresáři a přez 80 GB dat (7zip archív jen 220 MB kvůli podobnosti). Skutečná databáze (text příspěvků, uživatelé, logy) + skript, který stránky tvoří může mét desítky až stovky MB.

Jak dostat místo všech stránek stažených přez množinu odkazů přímo zdrojová data, ze kterých se stránka počítá, generuje, to se mi objevit nepodařilo a nebode to jen tak. Něco jiného je dostat se na web a něco jiného ke zdriojákům. To už by byl určitý hacking (a to není zrovna povoleno). Např. tady http://www.kesyl.unas.cz/pocasi-kunovice/statistics.htm je zdrojový soubor přístupný http://www.kesyl.unas.cz/pocasi-kunovice/data/dayfile.txt

Jinak než přez množinu objevených odkazů na stránkých (a na konci konvert odkazů) se to moc nedělá. Diretory listing se dá občas použít, ale to spíš u ftp a statických stránkek. Dost webů zakazuje listing buď kompletně, nebo na určitých místech (nepovolený přístup a nebo přesměrování). Listing se dá požít v prohlížeči (umaže se název souboru z adresy s tím, že se snad zobrazí složka). http://meteomodel.pl/gfs-para/TMAX/TMAX_09.png listing http://meteomodel.pl/gfs-para/TMAX/ - nepovoleno. Nebo přez terminál , hlavně u ftp (lftp URL), funguje i u html složek - přístupných adresářů.

Vyplňování formulářů, čímž se dostane po výpočtu nějaká html stránka z daty, to je zase jiná. vstupní údaje nejsou v URL , takže naskriptování je těžší (ale jde to, pokud tam neni captcha). Pak za základě různých údajů lze z určitém nzožiny projed všechny kombinace (a může to bejt hodně možností as hodně dat). Získad pčřímoé akript, co to počítá, to nijak klasicky nejde, to už není o přístupu do webu ale do serveru (leda tak hacknout).

Pokud je adresa k souborům na základě nějakých pravidel (datum, čas), lze skript snadno napsat v bashi. Pokud je známo, jak se adresy vytváří (a někdy jen některé platí), např. jména měst, lze projet všechny možnosti (může jich být dost). Některé weby (uloz.to, 500px, videa stream, youtube, fotky k Google maps) adresu schovávají jak to jen jde a nelze najít jen tak ve zdrojovém kódu a obrázek stáhnout.
Název: Re:Program pro stažení celého webu
Přispěvatel: Andy 29. 07. 2015, 14:12:31: Citace: Honza1Ubuntu 27. 07. 2015, 13:59:56
Listing se dá požít v prohlížeči (umaže se název souboru z adresy s tím, že se snad zobrazí složka). http://meteomodel.pl/gfs-para/TMAX/TMAX_09.png listing http://meteomodel.pl/gfs-para/TMAX/ - nepovoleno. Nebo přez terminál , hlavně u ftp (lftp URL), funguje i u html složek - přístupných adresářů.
Díky, u některých webů to funguje, ale někdy se i po umazání názvu souboru stejně zobrazí stránka místo obsahu adresáře.

Trochu jsem ještě zkoumal, kdy se ten stažený web chce připojit a je to např. po kliknutí na tlačítko pro výpočet a zároveň se na spodní liště v IE objeví cílový odkaz http://stary.astromat.cz/index.php, takže to znamená, že po stažení Teleportem tam ještě zůstaly nějaké nekonvertované odkazy? Možná právě index.php je tím hledaným souborem, co je potřeba k offline fungování výpočtu?
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 31. 07. 2015, 00:00:46: Citace: Andy 29. 07. 2015, 14:12:31
Díky, u některých webů to funguje, ale někdy se i po umazání názvu souboru stejně zobrazí stránka místo obsahu adresáře.

To se taky nekdy stava, ze to vrati na nejakou html stranku. Souborovy sysem si server casto chrani.

Citace: Andy 29. 07. 2015, 14:12:31
Trochu jsem ještě zkoumal, kdy se ten stažený web chce připojit a je to např. po kliknutí na tlačítko pro výpočet a zároveň se na spodní liště v IE objeví cílový odkaz http://stary.astromat.cz/index.php, takže to znamená, že po stažení Teleportem tam ještě zůstaly nějaké nekonvertované odkazy? Možná právě index.php je tím hledaným souborem, co je potřeba k offline fungování výpočtu?

Neni to v nastaveni teleportu ? Muze byt nezaskrnuto "Localize html links" a pak by to na konci neprevedlo odkazy. To ze odkaz vede do internetu znamena ze se soubor nnestahl, bud byl nedostupny, nebo odkaz smeroval na jinou domenu. Obvykle je nastaveno, ze nestahuje z jinych domen, pokud to primo neni soucast stranky a nejde v adresari ani vys nez zacatecni url. Je to v nastaveni. Jakou verzi pouzivas ?

V vypoctu je poreba nejaky prymo zdrojovy skript, coz neni soubor primo na webu ale je to na nej nejak napojeno. Stahnout to nejde zadnou klasickou cestou.
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 31. 07. 2015, 00:23:44: Kdyz jsem to zkusil, klasicky stazeni, hloubka odkazu 9999 a stahnout vse z daneho webu, "but only URLs on stary.astromat.cz" stahlo to 86 souboru a velikost 568 KB (582 502 bytes), kdyz jsem dal "or within the path of links to other servers" razanne pocet souboru zrostl. Treti moznost "or up to X links away" znamena kolik odkazu daleko od serveru, coz muze jiz pri 3 znamenat ohromnu narust.

Bezi to nejak dlouho, skusim to zitra
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 31. 07. 2015, 01:00:20: Na webu www.ceskechalupy.cz/ se to zacyklylo na kalendari, tak preruseno (a jak se to tam dostalo, kdo vi).
Heslo k archivu je 3141592654589793238462643.
Název: Re:Program pro stažení celého webu
Přispěvatel: Honza1Ubuntu 31. 07. 2015, 10:32:18: Odkaz

http://uloz.to/x89biSX2/web-stary-astromat-cz-7z
Název: Re:Program pro stažení celého webu
Přispěvatel: Andy 02. 08. 2015, 16:23:41: Citace: Honza1Ubuntu 31. 07. 2015, 00:00:46
Neni to v nastaveni teleportu ? Muze byt nezaskrnuto "Localize html links" a pak by to na konci neprevedlo odkazy. To ze odkaz vede do internetu znamena ze se soubor nnestahl, bud byl nedostupny, nebo odkaz smeroval na jinou domenu. Obvykle je nastaveno, ze nestahuje z jinych domen, pokud to primo neni soucast stranky a nejde v adresari ani vys nez zacatecni url. Je to v nastaveni. Jakou verzi pouzivas ?
Používám verzi 1.70, "Localize ..." je zaškrtnuto a index.php je na stejné doméně.

Citace
V vypoctu je poreba nejaky prymo zdrojovy skript, coz neni soubor primo na webu ale je to na nej nejak napojeno. Stahnout to nejde zadnou klasickou cestou.
Takže k fungování výpočtu jen index.php nestačí?

Citace: Honza1Ubuntu 31. 07. 2015, 10:32:18
Odkaz

http://uloz.to/x89biSX2/web-stary-astromat-cz-7z
I tady je po najetí myší na tlačítko "Spočítat horoskop" vidět ten stejný odkaz do internetu http://stary.astromat.cz/index.php a po kliknutí se to chce připojit.