Jak si udělat offline kopii z končící služby blog.cz?

Mohl byste mi někdo poradit, jakým způsobem lze vytvořit offline kopii blogu z této služby? Zkoušel jsem použít HTTrack, ale pro tyto stránky mi nefunguje (možná jsou třeba nějaká speciální nastavení, kterým nerozumím). Co byste mi navrhli?



_Jenda

  • ****
  • 431
    • Zobrazit profil
    • https://jenda.hrach.eu/
    • E-mail
Re:Jak si udělat offline kopii z končící služby blog.cz?
« Odpověď #2 kdy: 09. 08. 2020, 19:36:15 »
Já jsem Kubáče stáhnul takhle:
Kód: [Vybrat]
for y in `seq 18 20`; do
  for m in `seq -w 1 12`; do
    wget --user-agent="Mozilla/5.0 (X11; Linux x86_64; rv:57.0) Gecko/20100101 Firefox/57.0" -H -p -k http://petr-kubac.blog.cz/$y$m
    mv petr-kubac.blog.cz/$y$m petr-kubac.blog.cz/$y$m.html
  done
done
Není to žádná hitparáda, ale čitelné to je.

r443

Re:Jak si udělat offline kopii z končící služby blog.cz?
« Odpověď #3 kdy: 10. 08. 2020, 10:25:41 »
Pokud se dá za offline kopii považovat instance Wordpressu na localhostu, tak tohle docela funguje, umí to i přepisovat cesty k obrázkům a odkazy, pár blogů jsem s tím úspěšně stáhnul:
https://github.com/MartinRybensky/blogcz2wp

Re:Jak si udělat offline kopii z končící služby blog.cz?
« Odpověď #4 kdy: 10. 08. 2020, 11:53:36 »
staci na to wget.. je treba to nechat kompletne cele dojet a wget pak na konci stahovani upravi URL tak, aby byly odkazy klikatelne pri prohlizeni z lokalni slozky
Kód: [Vybrat]
wget --mirror -p --convert-links -nH --html-extension http://petr-kubac.blog.cz


Re:Jak si udělat offline kopii z končící služby blog.cz?
« Odpověď #5 kdy: 10. 08. 2020, 16:58:32 »
Taky bych si chtěl zachránit Vidlákovo elektro od Kubáče. S wget one-linerem výše to funguje, ale obrázky jsou pořád linkované mimo lokál. Je nějaký způsob, jak ke všem již staženým html souborům stáhnout obrázky, které linkují a linky zkonvertovat?
Používejte háčky a čárky. Bez nich se to hůř čte.

Re:Jak si udělat offline kopii z končící služby blog.cz?
« Odpověď #6 kdy: 11. 08. 2020, 13:09:07 »
... ale obrázky jsou pořád linkované mimo lokál...
to stejne plati pro styly :-(
Děkuji za možnost editace příspěvku.

Re:Jak si udělat offline kopii z končící služby blog.cz?
« Odpověď #7 kdy: 11. 08. 2020, 13:18:31 »
Taky bych si chtěl zachránit Vidlákovo elektro od Kubáče. S wget one-linerem výše to funguje, ale obrázky jsou pořád linkované mimo lokál. Je nějaký způsob, jak ke všem již staženým html souborům stáhnout obrázky, které linkují a linky zkonvertovat?

Za mě bych jednoznačně zkusil použít https://www.httrack.com/. FOSS, prověřen léty, pro Linux i Windows a nastavit se dá skutečně bohatě.

Re:Jak si udělat offline kopii z končící služby blog.cz?
« Odpověď #8 kdy: 11. 08. 2020, 16:29:47 »
To zní dobře, ale nefunguje mi to na pár prvních pokusů. Jestli to někdo rozchodil, nedal by sem, prosím, command?
Používejte háčky a čárky. Bez nich se to hůř čte.

Re:Jak si udělat offline kopii z končící služby blog.cz?
« Odpověď #9 kdy: 31. 08. 2020, 22:13:50 »
Velmi dobre to zvladal (pripad z obrazky a dilcimi soubory linkovanymi na jiny server) Teleport Pro. Jenze bohuzel teleport je proprietali komercni software pro Widle, nejak emulovat pujde, coz zase dost zere vykon. Navic teleport pro zvladal max 65536 odkazu v databazi, jen Teleport VLX zvladal opravdu velke weby - za 40 000 000 linku, takze driv dojde RAM. Nejvic mi ale vadi, ze teleport je komercni, proprietalni a pro Widle. Navc teleport dost spatnym zpusobem resil ukladani na disk.

Na stahovani webu pouzivam wget - je skriptovatelny a nezere zbytecne CPU, na disk uklada taky dobre. U slozitejsich stranek zmrsi nazvy, ale u jednoduchych stranek bez podivnych adres funguje konvert odkazu OK. Problem je, ze obrazky jsou linkovane mimo web blog.cz Tusim ale ze wget ma volbu, kde se stranka stahne se vsemi soucastmi,k i kdyz jsou mimo.

Pozor na cyklicke odkazy, odkazy, jez jdou porad hloubs a hloubs, kalendare, kde se do nekonecna stahne jedna webova stranka ke kazdemu dni a pod.

Uz se to tu kdysi davno resilo - program na stazeni celeho webu:

https://forum.root.cz/index.php?topic=10541.0

Re:Jak si udělat offline kopii z končící služby blog.cz?
« Odpověď #10 kdy: 01. 09. 2020, 13:55:20 »
Já jsem nakonec těsně před vypnutím blogu přes httrack zvládl pořídit kopii kubáče, jen jsem to špatně nastavil a stáhl se mi s tím asi gigabyte obrázků z wikimedia, které se v blogu nikde nelinkují. Pak tam je hromada linkovaných pdf a podobně. Budu to muset prohrabat a zmenšit.
Myslím, že na rozpad.cz nebo robodoupěti jsem viděl odkaz na zamčený archiv na ulozto, který prý visel se souhlasem autora. Mělo to asi 500 MB.
Používejte háčky a čárky. Bez nich se to hůř čte.