Fórum Root.cz
Ostatní => /dev/null => Téma založeno: scientific 17. 08. 2020, 22:25:24
-
Ahoj všem,
prosím o radu. Je web, ze kterého bych chtěl pro soukromé účely analýzy stáhnout data za cca. 30 stránek a nechce se mi to dělat ručně. Navís nestačí základní stažení zdrojového kodu, je tam nějaký AJAX. Data ve zdrojovém kodu [CTRL] + u nejsou, pouze skripty, které data vykreslují na straně klienta až v prohlížeči.
Ruční postup je takový:
- Přistoupit na stránku
- Skrolovat půl hodiny, urvat mezitím kolečko z myši a vzít z krabice další myš. (Skrolování skript načítá další "historické" řádky tabulky, nelze je zobrazit najednou (člověk se musí proscrollovat nakonec).)
- Jakmile se dostanu až na konec a již nejsou žádné data k vypsání, podívám se do zdrojového kodu a stáhnu ho do textového souboru.
- Nad textovým souborem spustím cat source.txt| sed | grep | awx | masakry > data.txt
- Soubor data.txt proženu bash skriptem, který ty data naláduje do databáze.
- Nyní si mohu hrát s SQL dotazy, vytvářet funkce pro analýzu těch dat.
Automatický postup:
- wget/curl/něco https://domena.example/neco --nejaký masakry pro načtení všech dat (skrolování) :-D > source.txt
- Pokračovat jak je výše uvedeno
Myslíte, že je to nějak řešitelné, možná nějaký emulátor prohlížeče nebo nodeJS, napadá Vás něco?
Díky moc za každý nápad.
-
Omlouvám se všem, špatně jsem to pochopil, není to AJAX, normálně to v tom zdrojovém kódu je asi všechno.
Prosím tohle téma komplet smazat, ať to nemate nové čtenáře a nesnaží se třeba nad tím ZBYTEČNĚ přemýšlet.
-
To je jedno, obecně by se to řešilo 2 způsoby: 1) odposlechnout (např. Burp Proxy) jak to ta data tahá; 2) přistoupit k tomu jako k blackboxu a naskriptovat to např. přes Selenium.