Sloučení stažených webových stránek do jednoho souboru

Frantis

Existuje nějaký nástroj, kterému bych předal seznam URL webových stránek a on by mi všechny stránky stáhnul a spojil do jednoho souboru (html, pdf nebo rtf) tak, aby grafická podoba stránek nebyla příliš dotčena.


PetrM

Re:Sloučení stažených webových stránek do jednoho souboru
« Odpověď #1 kdy: 12. 04. 2017, 13:47:24 »
Tak povídej, jak tomu nástroji říkáš? Kde se dá stáhnout? A jak se ti to povedlo, při dnešní pestrosti stylů a technologií?

Aro94

Re:Sloučení stažených webových stránek do jednoho souboru
« Odpověď #2 kdy: 12. 04. 2017, 16:44:02 »
wget + pandoc

Jose D

  • *****
  • 889
    • Zobrazit profil
Re:Sloučení stažených webových stránek do jednoho souboru
« Odpověď #3 kdy: 14. 04. 2017, 13:40:37 »
v offline dobách jsem na tohle v IE používal .mht soubory.. ale taky by mě zajímalo jestli existuje nějaká rozumná cesta jak web "nagrabovat"..

nnoienoh

Re:Sloučení stažených webových stránek do jednoho souboru
« Odpověď #4 kdy: 14. 04. 2017, 14:51:52 »
Opera taky pouzivala mht.


gll

Re:Sloučení stažených webových stránek do jednoho souboru
« Odpověď #5 kdy: 14. 04. 2017, 16:20:43 »
wget -p -k a zobrazit výsledky v iframech.

bedna


Re:Sloučení stažených webových stránek do jednoho souboru
« Odpověď #7 kdy: 15. 04. 2017, 09:12:24 »
pokud chce vic webovek do jednoho souboru tak wkhtmltopdf nebo wkhtmltopng.
Děkuji za možnost editace příspěvku.

jiwopene@gmail.com

Re:Sloučení stažených webových stránek do jednoho souboru
« Odpověď #8 kdy: 15. 04. 2017, 20:01:27 »
Dobrý nápad. Šlo by to stáhnout, soubor po souboru zakódovat do Base64 (nebo jiného formátu) a vytvořit stránku s framem/iframem přes celou stránku a skriptem zpracovávajícím URL při přechodu z jedné stránky v iframu na druhou. Pokud se iframe stránce líbit nebude, je tu ještě javascriptové open(). Dále by bylo třeba převést <script src> a <link rel=stylesheet> tagy na <script> a <style>.

jiwopene@gmail.com

Re:Sloučení stažených webových stránek do jednoho souboru
« Odpověď #9 kdy: 15. 04. 2017, 20:23:40 »
A proč ne to wgetem stáhnout a dát do zipu/taru?

Kit

Re:Sloučení stažených webových stránek do jednoho souboru
« Odpověď #10 kdy: 15. 04. 2017, 20:29:44 »
A proč ne to wgetem stáhnout a dát do zipu/taru?

Asi proto, že bez rozbalení je to nepoužitelné.

Co třeba CHM? Dá se to otevřít ve Windows i v linuxových OS.

gll

Re:Sloučení stažených webových stránek do jednoho souboru
« Odpověď #11 kdy: 15. 04. 2017, 21:21:11 »
pro prohlížení na počítači s internetem není třeba nic stahovat. Stačí taková stránka:

Kód: [Vybrat]
<html>
<header>
<style>
iframe {
width:100%;
height:1000px;
}
</style>
<header>
<body>
<iframe src="https://www.root.cz"></iframe>
<iframe src="http://www.wikipedia.com"></iframe>
...
</body>
</html>

ByCzech

  • *****
  • 1 861
    • Zobrazit profil
    • E-mail
Re:Sloučení stažených webových stránek do jednoho souboru
« Odpověď #12 kdy: 15. 04. 2017, 21:50:36 »
v offline dobách jsem na tohle v IE používal .mht soubory.. ale taky by mě zajímalo jestli existuje nějaká rozumná cesta jak web "nagrabovat"..

Chrome umí taky: chrome://flags/#save-page-as-mhtml

Konqueror umí WAR (Web Archive)

Re:Sloučení stažených webových stránek do jednoho souboru
« Odpověď #13 kdy: 26. 04. 2017, 13:21:26 »
Podle toho, o co presne jde. Nevim presne, jaky jeucel, napisu par moznosti.

Pokud potrebujes jednu stranku ulozit ne jen thml, ale vse, co se strankou souvisi (obrazky, skripty, a pod.), tak nektere prohlizece umi format mht - tedy webovy archiv, jediny soubor. Stranka se ulozi jako jediny soubor vc. vsech souboru, co k ni patri. Mela by to umet Opera, asi i Chrome, Mozilla vc. TorBrowser spis ne, internet explorer ne.

Dalsi moznosti je nakopirovat obsah html stranky (i vice stranek za sebou) do nejakeho office dokumentu (World, LibreOffice). Problem je, ze dokument si ulozi jen odkazy na soubory a a obrazky pak po otevreni stahuje z internetu (napodobne stranka html-only v nekterych prohlizecich).
To je roziko napr. pro uzivatele TORU. Offce doccument prez TOR pochopiteln nejede. Office dokument (World, Libbre Office, WorldPad) lze pak prevest do PDF i s vhodne zvolenou kompresi obrazku (nektere office dokumenty si JPG dovnitr ukladaji jako BMP a soubor pak naroste).

Dalsi moznosti je ve FrontPage editovat webovou stranku a postupne jednotlive dalsi stranky prikopirovavat. Pak jednu velkou html stranku ulozis, otevres v prohlizeci a stranka se zobrazi, satahne si z webu potrebne soubory (uvnitr html stranky jsou ulozeny jen odkazy). A v prohlizeci pak z teto stranky muzes udelat ten mht archiv. Podobne veci a vubec praci z Widlema jsem uz dlouho nedelal, tedy nevim jak dnes. Navic Frontpage existoval jen do verze OfficeXP, pak jej tusim nahradilo neco jineho, nevim ted co. A v Linuxu na to bude zase jinej program.

Ctvrtou moznosti je stranky stahnout napr pomoci wget, navolit nejak, aby to stahlo vse, co ke strance, ci vice strankam nalezi (tusim, ze prikaz je wget -p URL ), a pak to nejakym archovatorem zabalit, napr. 7z. Nektere starsi kompresory (TAR, ZIP)mohou mit problem z kodovanim Unicode v nazvech souboru. Navic 7z i novejsi RAR, ZIP tusim tvori Solid Archive, takze vyhledava mezisouborove podobnosti.

Wget umi stahovat i rekurzivne, vcetne stazeni (miroring) celych webu . Mnoho webu je ale dnes dynamickych, coz znamena kvanta dat, casu, i CPU.
http://www.cetoraz.info/pavel/index.shtml?show=1355,wget---stahujme-kvalitne---Podrobny-navod-s-priklady

Takze pokud chces sosnout cast webu, nebo cely web, jde to i takto. Odkazy lze konvertovat pro offline prohlizeni. Pravdou je, ze u slozitejsich nazvu stranek nazvy a odkazy wget tolik nedava. Obrazky patrici ke strankam, ale nachazejici se mimo web, to wget nestahne (to umi napr. windowsacky Teleport).
Dalsim programem na stahovani celeho webu je hthhptrack (nezkousel jsem).

Re:Sloučení stažených webových stránek do jednoho souboru
« Odpověď #14 kdy: 05. 05. 2017, 21:35:22 »
Dalsi moznosti je udelat ze slozky se soubory iso archiv (format ISO-UDF je lepsi). Z velkeho mnozsti souboru je pak jeden soubor, se soubory v nem se da pracovat bez extrakce. Staci iso soubor pripojit prez virtualni mechaniku. Je to vyhodne tak, kde mame hodne malych souboru ve slozce.

Tento obraz ISO-UDF neni vazan na konkretni velkost CD nebo DVD ale muze byt libovolne velky (desitky MB az treba nekolik TB). ISO bez UDF neumi v obraze soubory vetsi nez 2 GB a prilis dlouhe nazvy. UDF je mnohem volnejsi. Ale i tak jsou extreme dlouhe a slozite nazvy problem.

Obraz ISO-UDF neni nijak komprimovany, naopak zabira vetsi velikost o neco, nez soubory uvnitr. Je ale mozne obraz ISO cimkoliv zkomprimovat.

Vytvreni ISO obrazu ze slozky umi napr. ImgBurn (freeware pro widle, pri instalaci pozor, je tam adware). V Linuxu existuje i program, co to umi prez prikazovou radku (volne siritelny a bez adware), ted si nevzpominam na jmeno.