Fórum Root.cz

Hlavní témata => Software => Téma založeno: Frantis 12. 04. 2017, 13:10:22

Název: Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: Frantis 12. 04. 2017, 13:10:22
Existuje nějaký nástroj, kterému bych předal seznam URL webových stránek a on by mi všechny stránky stáhnul a spojil do jednoho souboru (html, pdf nebo rtf) tak, aby grafická podoba stránek nebyla příliš dotčena.
Název: Re:Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: PetrM 12. 04. 2017, 13:47:24
Tak povídej, jak tomu nástroji říkáš? Kde se dá stáhnout? A jak se ti to povedlo, při dnešní pestrosti stylů a technologií?
Název: Re:Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: Aro94 12. 04. 2017, 16:44:02
wget + pandoc
Název: Re:Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: Jose D 14. 04. 2017, 13:40:37
v offline dobách jsem na tohle v IE používal .mht soubory.. ale taky by mě zajímalo jestli existuje nějaká rozumná cesta jak web "nagrabovat"..
Název: Re:Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: nnoienoh 14. 04. 2017, 14:51:52
Opera taky pouzivala mht.
Název: Re:Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: gll 14. 04. 2017, 16:20:43
wget -p -k a zobrazit výsledky v iframech.
Název: Re:Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: bedna 15. 04. 2017, 08:22:32
https://wkhtmltopdf.org/
Název: Re:Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: to_je_jedno 15. 04. 2017, 09:12:24
pokud chce vic webovek do jednoho souboru tak wkhtmltopdf nebo wkhtmltopng.
Název: Re:Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: jiwopene@gmail.com 15. 04. 2017, 20:01:27
Dobrý nápad. Šlo by to stáhnout, soubor po souboru zakódovat do Base64 (nebo jiného formátu) a vytvořit stránku s framem/iframem přes celou stránku a skriptem zpracovávajícím URL při přechodu z jedné stránky v iframu na druhou. Pokud se iframe stránce líbit nebude, je tu ještě javascriptové open(). Dále by bylo třeba převést <script src> a <link rel=stylesheet> tagy na <script> a <style>.
Název: Re:Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: jiwopene@gmail.com 15. 04. 2017, 20:23:40
A proč ne to wgetem stáhnout a dát do zipu/taru?
Název: Re:Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: Kit 15. 04. 2017, 20:29:44
A proč ne to wgetem stáhnout a dát do zipu/taru?

Asi proto, že bez rozbalení je to nepoužitelné.

Co třeba CHM? Dá se to otevřít ve Windows i v linuxových OS.
Název: Re:Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: gll 15. 04. 2017, 21:21:11
pro prohlížení na počítači s internetem není třeba nic stahovat. Stačí taková stránka:

Kód: [Vybrat]
<html>
<header>
<style>
iframe {
width:100%;
height:1000px;
}
</style>
<header>
<body>
<iframe src="https://www.root.cz"></iframe>
<iframe src="http://www.wikipedia.com"></iframe>
...
</body>
</html>
Název: Re:Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: ByCzech 15. 04. 2017, 21:50:36
v offline dobách jsem na tohle v IE používal .mht soubory.. ale taky by mě zajímalo jestli existuje nějaká rozumná cesta jak web "nagrabovat"..

Chrome umí taky: chrome://flags/#save-page-as-mhtml

Konqueror umí WAR (Web Archive)
Název: Re:Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: Honza1Ubuntu 26. 04. 2017, 13:21:26
Podle toho, o co presne jde. Nevim presne, jaky jeucel, napisu par moznosti.

Pokud potrebujes jednu stranku ulozit ne jen thml, ale vse, co se strankou souvisi (obrazky, skripty, a pod.), tak nektere prohlizece umi format mht - tedy webovy archiv, jediny soubor. Stranka se ulozi jako jediny soubor vc. vsech souboru, co k ni patri. Mela by to umet Opera, asi i Chrome, Mozilla vc. TorBrowser spis ne, internet explorer ne.

Dalsi moznosti je nakopirovat obsah html stranky (i vice stranek za sebou) do nejakeho office dokumentu (World, LibreOffice). Problem je, ze dokument si ulozi jen odkazy na soubory a a obrazky pak po otevreni stahuje z internetu (napodobne stranka html-only v nekterych prohlizecich).
To je roziko napr. pro uzivatele TORU. Offce doccument prez TOR pochopiteln nejede. Office dokument (World, Libbre Office, WorldPad) lze pak prevest do PDF i s vhodne zvolenou kompresi obrazku (nektere office dokumenty si JPG dovnitr ukladaji jako BMP a soubor pak naroste).

Dalsi moznosti je ve FrontPage editovat webovou stranku a postupne jednotlive dalsi stranky prikopirovavat. Pak jednu velkou html stranku ulozis, otevres v prohlizeci a stranka se zobrazi, satahne si z webu potrebne soubory (uvnitr html stranky jsou ulozeny jen odkazy). A v prohlizeci pak z teto stranky muzes udelat ten mht archiv. Podobne veci a vubec praci z Widlema jsem uz dlouho nedelal, tedy nevim jak dnes. Navic Frontpage existoval jen do verze OfficeXP, pak jej tusim nahradilo neco jineho, nevim ted co. A v Linuxu na to bude zase jinej program.

Ctvrtou moznosti je stranky stahnout napr pomoci wget, navolit nejak, aby to stahlo vse, co ke strance, ci vice strankam nalezi (tusim, ze prikaz je wget -p URL ), a pak to nejakym archovatorem zabalit, napr. 7z. Nektere starsi kompresory (TAR, ZIP)mohou mit problem z kodovanim Unicode v nazvech souboru. Navic 7z i novejsi RAR, ZIP tusim tvori Solid Archive, takze vyhledava mezisouborove podobnosti.

Wget umi stahovat i rekurzivne, vcetne stazeni (miroring) celych webu . Mnoho webu je ale dnes dynamickych, coz znamena kvanta dat, casu, i CPU.
http://www.cetoraz.info/pavel/index.shtml?show=1355,wget---stahujme-kvalitne---Podrobny-navod-s-priklady

Takze pokud chces sosnout cast webu, nebo cely web, jde to i takto. Odkazy lze konvertovat pro offline prohlizeni. Pravdou je, ze u slozitejsich nazvu stranek nazvy a odkazy wget tolik nedava. Obrazky patrici ke strankam, ale nachazejici se mimo web, to wget nestahne (to umi napr. windowsacky Teleport).
Dalsim programem na stahovani celeho webu je hthhptrack (nezkousel jsem).
Název: Re:Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: Honza1Ubuntu 05. 05. 2017, 21:35:22
Dalsi moznosti je udelat ze slozky se soubory iso archiv (format ISO-UDF je lepsi). Z velkeho mnozsti souboru je pak jeden soubor, se soubory v nem se da pracovat bez extrakce. Staci iso soubor pripojit prez virtualni mechaniku. Je to vyhodne tak, kde mame hodne malych souboru ve slozce.

Tento obraz ISO-UDF neni vazan na konkretni velkost CD nebo DVD ale muze byt libovolne velky (desitky MB az treba nekolik TB). ISO bez UDF neumi v obraze soubory vetsi nez 2 GB a prilis dlouhe nazvy. UDF je mnohem volnejsi. Ale i tak jsou extreme dlouhe a slozite nazvy problem.

Obraz ISO-UDF neni nijak komprimovany, naopak zabira vetsi velikost o neco, nez soubory uvnitr. Je ale mozne obraz ISO cimkoliv zkomprimovat.

Vytvreni ISO obrazu ze slozky umi napr. ImgBurn (freeware pro widle, pri instalaci pozor, je tam adware). V Linuxu existuje i program, co to umi prez prikazovou radku (volne siritelny a bez adware), ted si nevzpominam na jmeno.
Název: Re:Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: v2kt0r 05. 05. 2017, 22:13:07
Teleport Pro.
Ale jen pokud se OP opravdu na něco ptá...třeba to opravdu bylo jen konstatování.
Název: Re:Sloučení stažených webových stránek do jednoho souboru
Přispěvatel: jejda 06. 05. 2017, 16:41:55
Jestli máš firefox, můzeš zkusit addon  scrapbook-x  (https://github.com/danny0838/firefox-scrapbook/wiki/Features#combining-pages).