Fórum Root.cz

Ostatní => /dev/null => Téma založeno: scientific 17. 08. 2020, 22:25:24

Název: Stažení stránky wget/curl
Přispěvatel: scientific 17. 08. 2020, 22:25:24

Ahoj všem,

prosím o radu. Je web, ze kterého bych chtěl pro soukromé účely analýzy stáhnout data za cca. 30 stránek a nechce se mi to dělat ručně. Navís nestačí základní stažení zdrojového kodu, je tam nějaký AJAX. Data ve zdrojovém kodu [CTRL] + u nejsou, pouze skripty, které data vykreslují na straně klienta až v prohlížeči.

Ruční postup je takový:

Přistoupit na stránku
Skrolovat půl hodiny, urvat mezitím kolečko z myši a vzít z krabice další myš. (Skrolování skript načítá další "historické" řádky tabulky, nelze je zobrazit najednou (člověk se musí proscrollovat nakonec).)
Jakmile se dostanu až na konec a již nejsou žádné data k vypsání, podívám se do zdrojového kodu a stáhnu ho do textového souboru.
Nad textovým souborem spustím cat source.txt| sed | grep | awx | masakry > data.txt
Soubor data.txt proženu bash skriptem, který ty data naláduje do databáze.
Nyní si mohu hrát s SQL dotazy, vytvářet funkce pro analýzu těch dat.

Automatický postup:

wget/curl/něco https://domena.example/neco --nejaký masakry pro načtení všech dat (skrolování) :-D > source.txt
Pokračovat jak je výše uvedeno

Myslíte, že je to nějak řešitelné, možná nějaký emulátor prohlížeče nebo nodeJS, napadá Vás něco?

Díky moc za každý nápad.

Název: Re:Stažení stránky wget/curl
Přispěvatel: scientific 17. 08. 2020, 22:37:37

Omlouvám se všem, špatně jsem to pochopil, není to AJAX, normálně to v tom zdrojovém kódu je asi všechno.

Prosím tohle téma komplet smazat, ať to nemate nové čtenáře a nesnaží se třeba nad tím ZBYTEČNĚ přemýšlet.

Název: Re:Stažení stránky wget/curl
Přispěvatel: _Jenda 17. 08. 2020, 22:39:08

To je jedno, obecně by se to řešilo 2 způsoby: 1) odposlechnout (např. Burp Proxy) jak to ta data tahá; 2) přistoupit k tomu jako k blackboxu a naskriptovat to např. přes Selenium.