Fórum Root.cz
Hlavní témata => Software => Téma založeno: o-z-z-y 09. 08. 2020, 12:57:56
-
Mohl byste mi někdo poradit, jakým způsobem lze vytvořit offline kopii blogu z této služby? Zkoušel jsem použít HTTrack, ale pro tyto stránky mi nefunguje (možná jsou třeba nějaká speciální nastavení, kterým nerozumím). Co byste mi navrhli?
-
Jejich navod nepomohl? http://blog.blog.cz/2007/jak-si-mohu-zalohovat-svuj-blog
-
Já jsem Kubáče stáhnul takhle:
for y in `seq 18 20`; do
for m in `seq -w 1 12`; do
wget --user-agent="Mozilla/5.0 (X11; Linux x86_64; rv:57.0) Gecko/20100101 Firefox/57.0" -H -p -k http://petr-kubac.blog.cz/$y$m
mv petr-kubac.blog.cz/$y$m petr-kubac.blog.cz/$y$m.html
done
done
Není to žádná hitparáda, ale čitelné to je.
-
Pokud se dá za offline kopii považovat instance Wordpressu na localhostu, tak tohle docela funguje, umí to i přepisovat cesty k obrázkům a odkazy, pár blogů jsem s tím úspěšně stáhnul:
https://github.com/MartinRybensky/blogcz2wp
-
staci na to wget.. je treba to nechat kompletne cele dojet a wget pak na konci stahovani upravi URL tak, aby byly odkazy klikatelne pri prohlizeni z lokalni slozky
wget --mirror -p --convert-links -nH --html-extension http://petr-kubac.blog.cz
-
Taky bych si chtěl zachránit Vidlákovo elektro od Kubáče. S wget one-linerem výše to funguje, ale obrázky jsou pořád linkované mimo lokál. Je nějaký způsob, jak ke všem již staženým html souborům stáhnout obrázky, které linkují a linky zkonvertovat?
-
... ale obrázky jsou pořád linkované mimo lokál...
to stejne plati pro styly :-(
-
Taky bych si chtěl zachránit Vidlákovo elektro od Kubáče. S wget one-linerem výše to funguje, ale obrázky jsou pořád linkované mimo lokál. Je nějaký způsob, jak ke všem již staženým html souborům stáhnout obrázky, které linkují a linky zkonvertovat?
Za mě bych jednoznačně zkusil použít https://www.httrack.com/. FOSS, prověřen léty, pro Linux i Windows a nastavit se dá skutečně bohatě.
-
To zní dobře, ale nefunguje mi to na pár prvních pokusů. Jestli to někdo rozchodil, nedal by sem, prosím, command?
-
Velmi dobre to zvladal (pripad z obrazky a dilcimi soubory linkovanymi na jiny server) Teleport Pro. Jenze bohuzel teleport je proprietali komercni software pro Widle, nejak emulovat pujde, coz zase dost zere vykon. Navic teleport pro zvladal max 65536 odkazu v databazi, jen Teleport VLX zvladal opravdu velke weby - za 40 000 000 linku, takze driv dojde RAM. Nejvic mi ale vadi, ze teleport je komercni, proprietalni a pro Widle. Navc teleport dost spatnym zpusobem resil ukladani na disk.
Na stahovani webu pouzivam wget - je skriptovatelny a nezere zbytecne CPU, na disk uklada taky dobre. U slozitejsich stranek zmrsi nazvy, ale u jednoduchych stranek bez podivnych adres funguje konvert odkazu OK. Problem je, ze obrazky jsou linkovane mimo web blog.cz Tusim ale ze wget ma volbu, kde se stranka stahne se vsemi soucastmi,k i kdyz jsou mimo.
Pozor na cyklicke odkazy, odkazy, jez jdou porad hloubs a hloubs, kalendare, kde se do nekonecna stahne jedna webova stranka ke kazdemu dni a pod.
Uz se to tu kdysi davno resilo - program na stazeni celeho webu:
https://forum.root.cz/index.php?topic=10541.0
-
Já jsem nakonec těsně před vypnutím blogu přes httrack zvládl pořídit kopii kubáče, jen jsem to špatně nastavil a stáhl se mi s tím asi gigabyte obrázků z wikimedia, které se v blogu nikde nelinkují. Pak tam je hromada linkovaných pdf a podobně. Budu to muset prohrabat a zmenšit.
Myslím, že na rozpad.cz nebo robodoupěti jsem viděl odkaz na zamčený archiv na ulozto, který prý visel se souhlasem autora. Mělo to asi 500 MB.
-
Mohli by ste mi niekto poskytnúť tú zálohu kubáčovej stránky? rád by som si ešte niečo z toho prečítal.
-
kubáčovej stránky
to je nějaká tamní blogerská celebrita? :)
-
https://web.archive.org/web/20200816192330/http://petr-kubac.blog.cz/ (https://web.archive.org/web/20200816192330/http://petr-kubac.blog.cz/)
to je nějaká tamní blogerská celebrita? :)
Jo, jeho zápisky jsou čtivé a má šikorý záběr.
-
Tady trošku svižnější verze http://kubac.jecool.net/