Fórum Root.cz

Hlavní témata => Software => Téma založeno: o-z-z-y 09. 08. 2020, 12:57:56

Název: Jak si udělat offline kopii z končící služby blog.cz?
Přispěvatel: o-z-z-y 09. 08. 2020, 12:57:56
Mohl byste mi někdo poradit, jakým způsobem lze vytvořit offline kopii blogu z této služby? Zkoušel jsem použít HTTrack, ale pro tyto stránky mi nefunguje (možná jsou třeba nějaká speciální nastavení, kterým nerozumím). Co byste mi navrhli?
Název: Re:Jak si udělat offline kopii z končící služby blog.cz?
Přispěvatel: zden2k 09. 08. 2020, 17:10:38
Jejich navod nepomohl? http://blog.blog.cz/2007/jak-si-mohu-zalohovat-svuj-blog
Název: Re:Jak si udělat offline kopii z končící služby blog.cz?
Přispěvatel: _Jenda 09. 08. 2020, 19:36:15
Já jsem Kubáče stáhnul takhle:
Kód: [Vybrat]
for y in `seq 18 20`; do
  for m in `seq -w 1 12`; do
    wget --user-agent="Mozilla/5.0 (X11; Linux x86_64; rv:57.0) Gecko/20100101 Firefox/57.0" -H -p -k http://petr-kubac.blog.cz/$y$m
    mv petr-kubac.blog.cz/$y$m petr-kubac.blog.cz/$y$m.html
  done
done
Není to žádná hitparáda, ale čitelné to je.
Název: Re:Jak si udělat offline kopii z končící služby blog.cz?
Přispěvatel: r443 10. 08. 2020, 10:25:41
Pokud se dá za offline kopii považovat instance Wordpressu na localhostu, tak tohle docela funguje, umí to i přepisovat cesty k obrázkům a odkazy, pár blogů jsem s tím úspěšně stáhnul:
https://github.com/MartinRybensky/blogcz2wp
Název: Re:Jak si udělat offline kopii z končící služby blog.cz?
Přispěvatel: cremac 10. 08. 2020, 11:53:36
staci na to wget.. je treba to nechat kompletne cele dojet a wget pak na konci stahovani upravi URL tak, aby byly odkazy klikatelne pri prohlizeni z lokalni slozky
Kód: [Vybrat]
wget --mirror -p --convert-links -nH --html-extension http://petr-kubac.blog.cz
Název: Re:Jak si udělat offline kopii z končící služby blog.cz?
Přispěvatel: incorporated 10. 08. 2020, 16:58:32
Taky bych si chtěl zachránit Vidlákovo elektro od Kubáče. S wget one-linerem výše to funguje, ale obrázky jsou pořád linkované mimo lokál. Je nějaký způsob, jak ke všem již staženým html souborům stáhnout obrázky, které linkují a linky zkonvertovat?
Název: Re:Jak si udělat offline kopii z končící služby blog.cz?
Přispěvatel: to_je_jedno 11. 08. 2020, 13:09:07
... ale obrázky jsou pořád linkované mimo lokál...
to stejne plati pro styly :-(
Název: Re:Jak si udělat offline kopii z končící služby blog.cz?
Přispěvatel: Martin Poljak 11. 08. 2020, 13:18:31
Taky bych si chtěl zachránit Vidlákovo elektro od Kubáče. S wget one-linerem výše to funguje, ale obrázky jsou pořád linkované mimo lokál. Je nějaký způsob, jak ke všem již staženým html souborům stáhnout obrázky, které linkují a linky zkonvertovat?

Za mě bych jednoznačně zkusil použít https://www.httrack.com/. FOSS, prověřen léty, pro Linux i Windows a nastavit se dá skutečně bohatě.
Název: Re:Jak si udělat offline kopii z končící služby blog.cz?
Přispěvatel: incorporated 11. 08. 2020, 16:29:47
To zní dobře, ale nefunguje mi to na pár prvních pokusů. Jestli to někdo rozchodil, nedal by sem, prosím, command?
Název: Re:Jak si udělat offline kopii z končící služby blog.cz?
Přispěvatel: Honza1Ubuntu 31. 08. 2020, 22:13:50
Velmi dobre to zvladal (pripad z obrazky a dilcimi soubory linkovanymi na jiny server) Teleport Pro. Jenze bohuzel teleport je proprietali komercni software pro Widle, nejak emulovat pujde, coz zase dost zere vykon. Navic teleport pro zvladal max 65536 odkazu v databazi, jen Teleport VLX zvladal opravdu velke weby - za 40 000 000 linku, takze driv dojde RAM. Nejvic mi ale vadi, ze teleport je komercni, proprietalni a pro Widle. Navc teleport dost spatnym zpusobem resil ukladani na disk.

Na stahovani webu pouzivam wget - je skriptovatelny a nezere zbytecne CPU, na disk uklada taky dobre. U slozitejsich stranek zmrsi nazvy, ale u jednoduchych stranek bez podivnych adres funguje konvert odkazu OK. Problem je, ze obrazky jsou linkovane mimo web blog.cz Tusim ale ze wget ma volbu, kde se stranka stahne se vsemi soucastmi,k i kdyz jsou mimo.

Pozor na cyklicke odkazy, odkazy, jez jdou porad hloubs a hloubs, kalendare, kde se do nekonecna stahne jedna webova stranka ke kazdemu dni a pod.

Uz se to tu kdysi davno resilo - program na stazeni celeho webu:

https://forum.root.cz/index.php?topic=10541.0
Název: Re:Jak si udělat offline kopii z končící služby blog.cz?
Přispěvatel: incorporated 01. 09. 2020, 13:55:20
Já jsem nakonec těsně před vypnutím blogu přes httrack zvládl pořídit kopii kubáče, jen jsem to špatně nastavil a stáhl se mi s tím asi gigabyte obrázků z wikimedia, které se v blogu nikde nelinkují. Pak tam je hromada linkovaných pdf a podobně. Budu to muset prohrabat a zmenšit.
Myslím, že na rozpad.cz nebo robodoupěti jsem viděl odkaz na zamčený archiv na ulozto, který prý visel se souhlasem autora. Mělo to asi 500 MB.
Název: Re:Jak si udělat offline kopii z končící služby blog.cz?
Přispěvatel: skoda.palko 18. 11. 2020, 12:42:50
Mohli by ste mi niekto poskytnúť tú zálohu kubáčovej stránky? rád by som si ešte niečo z toho prečítal.
Název: Re:Jak si udělat offline kopii z končící služby blog.cz?
Přispěvatel: Jose D 18. 11. 2020, 12:50:12
kubáčovej stránky
to je nějaká tamní blogerská celebrita? :)
Název: Re:Jak si udělat offline kopii z končící služby blog.cz?
Přispěvatel: jb101 18. 11. 2020, 13:36:09
https://web.archive.org/web/20200816192330/http://petr-kubac.blog.cz/ (https://web.archive.org/web/20200816192330/http://petr-kubac.blog.cz/)
to je nějaká tamní blogerská celebrita? :)
Jo, jeho zápisky jsou čtivé a má šikorý záběr.
Název: Re:Jak si udělat offline kopii z končící služby blog.cz?
Přispěvatel: incorporated 18. 11. 2020, 20:33:41
Tady trošku svižnější verze http://kubac.jecool.net/