Fórum Root.cz
Hlavní témata => Software => Téma založeno: Frantis 12. 04. 2017, 13:10:22
-
Existuje nějaký nástroj, kterému bych předal seznam URL webových stránek a on by mi všechny stránky stáhnul a spojil do jednoho souboru (html, pdf nebo rtf) tak, aby grafická podoba stránek nebyla příliš dotčena.
-
Tak povídej, jak tomu nástroji říkáš? Kde se dá stáhnout? A jak se ti to povedlo, při dnešní pestrosti stylů a technologií?
-
wget + pandoc
-
v offline dobách jsem na tohle v IE používal .mht soubory.. ale taky by mě zajímalo jestli existuje nějaká rozumná cesta jak web "nagrabovat"..
-
Opera taky pouzivala mht.
-
wget -p -k a zobrazit výsledky v iframech.
-
https://wkhtmltopdf.org/
-
pokud chce vic webovek do jednoho souboru tak wkhtmltopdf nebo wkhtmltopng.
-
Dobrý nápad. Šlo by to stáhnout, soubor po souboru zakódovat do Base64 (nebo jiného formátu) a vytvořit stránku s framem/iframem přes celou stránku a skriptem zpracovávajícím URL při přechodu z jedné stránky v iframu na druhou. Pokud se iframe stránce líbit nebude, je tu ještě javascriptové open(). Dále by bylo třeba převést <script src> a <link rel=stylesheet> tagy na <script> a <style>.
-
A proč ne to wgetem stáhnout a dát do zipu/taru?
-
A proč ne to wgetem stáhnout a dát do zipu/taru?
Asi proto, že bez rozbalení je to nepoužitelné.
Co třeba CHM? Dá se to otevřít ve Windows i v linuxových OS.
-
pro prohlížení na počítači s internetem není třeba nic stahovat. Stačí taková stránka:
<html>
<header>
<style>
iframe {
width:100%;
height:1000px;
}
</style>
<header>
<body>
<iframe src="https://www.root.cz"></iframe>
<iframe src="http://www.wikipedia.com"></iframe>
...
</body>
</html>
-
v offline dobách jsem na tohle v IE používal .mht soubory.. ale taky by mě zajímalo jestli existuje nějaká rozumná cesta jak web "nagrabovat"..
Chrome umí taky: chrome://flags/#save-page-as-mhtml
Konqueror umí WAR (Web Archive)
-
Podle toho, o co presne jde. Nevim presne, jaky jeucel, napisu par moznosti.
Pokud potrebujes jednu stranku ulozit ne jen thml, ale vse, co se strankou souvisi (obrazky, skripty, a pod.), tak nektere prohlizece umi format mht - tedy webovy archiv, jediny soubor. Stranka se ulozi jako jediny soubor vc. vsech souboru, co k ni patri. Mela by to umet Opera, asi i Chrome, Mozilla vc. TorBrowser spis ne, internet explorer ne.
Dalsi moznosti je nakopirovat obsah html stranky (i vice stranek za sebou) do nejakeho office dokumentu (World, LibreOffice). Problem je, ze dokument si ulozi jen odkazy na soubory a a obrazky pak po otevreni stahuje z internetu (napodobne stranka html-only v nekterych prohlizecich).
To je roziko napr. pro uzivatele TORU. Offce doccument prez TOR pochopiteln nejede. Office dokument (World, Libbre Office, WorldPad) lze pak prevest do PDF i s vhodne zvolenou kompresi obrazku (nektere office dokumenty si JPG dovnitr ukladaji jako BMP a soubor pak naroste).
Dalsi moznosti je ve FrontPage editovat webovou stranku a postupne jednotlive dalsi stranky prikopirovavat. Pak jednu velkou html stranku ulozis, otevres v prohlizeci a stranka se zobrazi, satahne si z webu potrebne soubory (uvnitr html stranky jsou ulozeny jen odkazy). A v prohlizeci pak z teto stranky muzes udelat ten mht archiv. Podobne veci a vubec praci z Widlema jsem uz dlouho nedelal, tedy nevim jak dnes. Navic Frontpage existoval jen do verze OfficeXP, pak jej tusim nahradilo neco jineho, nevim ted co. A v Linuxu na to bude zase jinej program.
Ctvrtou moznosti je stranky stahnout napr pomoci wget, navolit nejak, aby to stahlo vse, co ke strance, ci vice strankam nalezi (tusim, ze prikaz je wget -p URL ), a pak to nejakym archovatorem zabalit, napr. 7z. Nektere starsi kompresory (TAR, ZIP)mohou mit problem z kodovanim Unicode v nazvech souboru. Navic 7z i novejsi RAR, ZIP tusim tvori Solid Archive, takze vyhledava mezisouborove podobnosti.
Wget umi stahovat i rekurzivne, vcetne stazeni (miroring) celych webu . Mnoho webu je ale dnes dynamickych, coz znamena kvanta dat, casu, i CPU.
http://www.cetoraz.info/pavel/index.shtml?show=1355,wget---stahujme-kvalitne---Podrobny-navod-s-priklady
Takze pokud chces sosnout cast webu, nebo cely web, jde to i takto. Odkazy lze konvertovat pro offline prohlizeni. Pravdou je, ze u slozitejsich nazvu stranek nazvy a odkazy wget tolik nedava. Obrazky patrici ke strankam, ale nachazejici se mimo web, to wget nestahne (to umi napr. windowsacky Teleport).
Dalsim programem na stahovani celeho webu je hthhptrack (nezkousel jsem).
-
Dalsi moznosti je udelat ze slozky se soubory iso archiv (format ISO-UDF je lepsi). Z velkeho mnozsti souboru je pak jeden soubor, se soubory v nem se da pracovat bez extrakce. Staci iso soubor pripojit prez virtualni mechaniku. Je to vyhodne tak, kde mame hodne malych souboru ve slozce.
Tento obraz ISO-UDF neni vazan na konkretni velkost CD nebo DVD ale muze byt libovolne velky (desitky MB az treba nekolik TB). ISO bez UDF neumi v obraze soubory vetsi nez 2 GB a prilis dlouhe nazvy. UDF je mnohem volnejsi. Ale i tak jsou extreme dlouhe a slozite nazvy problem.
Obraz ISO-UDF neni nijak komprimovany, naopak zabira vetsi velikost o neco, nez soubory uvnitr. Je ale mozne obraz ISO cimkoliv zkomprimovat.
Vytvreni ISO obrazu ze slozky umi napr. ImgBurn (freeware pro widle, pri instalaci pozor, je tam adware). V Linuxu existuje i program, co to umi prez prikazovou radku (volne siritelny a bez adware), ted si nevzpominam na jmeno.
-
Teleport Pro.
Ale jen pokud se OP opravdu na něco ptá...třeba to opravdu bylo jen konstatování.
-
Jestli máš firefox, můzeš zkusit addon scrapbook-x (https://github.com/danny0838/firefox-scrapbook/wiki/Features#combining-pages).