Jak stáhnout stránku do souboru?

X-pavel

Jak stáhnout stránku do souboru?
« kdy: 09. 01. 2015, 20:02:23 »
Chtěl bych zobrazit stránku a obsah uložit do souboru, jen text, žádné obrázky. Tak, jak se mi zobrazí např v linksu. Nejlépe spuštěním souboru v shelu.
Hledám, a nenacházím. Neměl by, prosím, někdo radu?
« Poslední změna: 09. 01. 2015, 22:01:25 od Petr Krčmář »


Re:jak stahnout stránku do souboru
« Odpověď #1 kdy: 09. 01. 2015, 20:11:04 »
wget
Děkuji za možnost editace příspěvku.

Re:Jak stáhnout stránku do souboru?
« Odpověď #2 kdy: 09. 01. 2015, 22:03:18 »
Pokud chceš ten textový výstup a ne HTML, pak snad všechny řádkové prohlížeče (w3c, lynx, links...) mají parametr dump. Ten uloží naformátovaný výstup do txt souboru. Asi takto:

Kód: [Vybrat]
# links2 http://www.root.cz/ -dump > root.txt

DK

Re:Jak stáhnout stránku do souboru?
« Odpověď #3 kdy: 09. 01. 2015, 22:34:52 »
nebo curl http://url.tld > soubor.html

X-pavel

Re:Jak stáhnout stránku do souboru?
« Odpověď #4 kdy: 10. 01. 2015, 00:06:20 »
Dík, funguje to bleskově. Zkoušel jsem to přes windowsí explorer (modul pro delphi) a dělá to úžasné věci (a ještě k tomu různé dle použitého OS) a hlavně děsně pomalu.
Hledal jsem v parametrech, příklady, ale nenašel nic.  Takže ještě jednou dík za pomoc. Pavel


X-pavel

Re:Jak stáhnout stránku do souboru?
« Odpověď #5 kdy: 11. 01. 2015, 02:24:47 »
Ještě k tématu pro úplnost:
Pokoušel jsem problém řešit pomocí wget, ale neuspěl jsem, na řešení jsem ke spokojenosti použil  links. Je škoda, že na stránkách autorů (ale i tak je to skvělé dílo) nejsou příklady.  na stránce  http://links.twibright.com/user.html je sice cosi, co autoři označili "..V tomto dokumentu najdete kompletní návod pro používání webového prohlížeče Links: ..." , ale ve skutečnosti to má k návodu daleko (např. tam není seznam a funkce parametrů, natož příklady použití).
  Několik věcí jsem si tedy musel vynalézt vlastní pílí:
a) Používám SuSE linux a musel jsem si nastavit v Linksu kódování na KOI-8 aby zobrazoval češtinu - stránky mého zájmu ji zřejmě nedeklarují v prohlížeči, alespoň jsem to nenašel.
b) jakmile jsem použil parametr - dump , tak prohlížeč přešel znova do 7-bitového kódování bez diakritiky. Do volání se musela znova definovat abeceda a sice parametrem  -codepage Windows-1250 ( - v mém případě, protože výsledek se zpracovává ve Windows). Definici kódování jsem si musel vyzkoušet, bohužel v menu pro nastavení abecedy jsou volně popsány textem - např. "Window$ 1250 (Central European)" . Takže nakonec funkční volání které mi z volané stránky vytáhlo rovnou hledanou řádku:

>  links -dump -codepage Windows-1250  www.mojestranka.com/bbb/paramxref.do?par1=0492459 | grep "hledaný text" >> /home/user/wget/soubor

Cobolotobolo

Re:Jak stáhnout stránku do souboru?
« Odpověď #6 kdy: 11. 01. 2015, 02:39:54 »
Pan Krcmar, ta mnula fotaqa vam slysela vic, vypadalste f ni jaq Don Corleone.

Unknown

Re:Jak stáhnout stránku do souboru?
« Odpověď #7 kdy: 15. 01. 2015, 13:03:26 »
Xidel

Honza1

Re:Jak stáhnout stránku do souboru?
« Odpověď #8 kdy: 25. 01. 2015, 20:24:53 »
To je právě ten wget (v novém příspěvku jsem zrovna rozebíral možnosti web reap). Tady stačí:
wget http.....
to právě stáhne stránku bez připojených souborů.

Když budeš chtít stáhnout obsah stránku do souboru nebo bypsat zdrojový kód na obrazovku:
wget -qO - http.....
wget -qO - http..... > soubor.txt

Výpis víc sránek (zdrojový kód) do jednoho souboru
wget -qO - Ruzne_Adresy >> soubor.txt

atd.

http://forum.root.cz/index.php?topic=10541.msg119061;topicseen#msg119061