Toggle navigation
Fórum Root.cz
Domů
Nápověda
Vyhledávání
Přihlásit
Registrovat
Fórum Root.cz
Ostatní
/dev/null
Stažení stránky wget/curl
« předchozí
další »
+
Tisk
Stran: [
1
]
Stažení stránky wget/curl
2 Odpovědí
2433 Zhlédnutí
scientific
257
Stažení stránky wget/curl
«
kdy:
17. 08. 2020, 22:25:24 »
Ahoj všem,
prosím o radu. Je web, ze kterého bych chtěl pro soukromé účely analýzy stáhnout data za cca. 30 stránek a nechce se mi to dělat ručně. Navís nestačí základní stažení zdrojového kodu, je tam nějaký AJAX. Data ve zdrojovém kodu [CTRL] + u nejsou, pouze skripty, které data vykreslují na straně klienta až v prohlížeči.
Ruční postup je takový:
Přistoupit na stránku
Skrolovat půl hodiny, urvat mezitím kolečko z myši a vzít z krabice další myš. (Skrolování skript načítá další "historické" řádky tabulky, nelze je zobrazit najednou (člověk se musí proscrollovat nakonec).)
Jakmile se dostanu až na konec a již nejsou žádné data k vypsání, podívám se do zdrojového kodu a stáhnu ho do textového souboru.
Nad textovým souborem spustím cat source.txt| sed | grep | awx | masakry > data.txt
Soubor data.txt proženu bash skriptem, který ty data naláduje do databáze.
Nyní si mohu hrát s SQL dotazy, vytvářet funkce pro analýzu těch dat.
Automatický postup:
wget/curl/něco
https://domena.example/neco
--nejaký masakry pro načtení všech dat (skrolování) :-D > source.txt
Pokračovat jak je výše uvedeno
Myslíte, že je to nějak řešitelné, možná nějaký emulátor prohlížeče nebo nodeJS, napadá Vás něco?
Díky moc za každý nápad.
IP zaznamenána
Reklama
scientific
257
Re:Stažení stránky wget/curl
«
Odpověď #1 kdy:
17. 08. 2020, 22:37:37 »
Omlouvám se všem, špatně jsem to pochopil, není to AJAX, normálně to v tom zdrojovém kódu je asi všechno.
Prosím tohle téma komplet smazat, ať to nemate nové čtenáře a nesnaží se třeba nad tím ZBYTEČNĚ přemýšlet.
IP zaznamenána
_Jenda
1 638
Re:Stažení stránky wget/curl
«
Odpověď #2 kdy:
17. 08. 2020, 22:39:08 »
To je jedno, obecně by se to řešilo 2 způsoby: 1) odposlechnout (např. Burp Proxy) jak to ta data tahá; 2) přistoupit k tomu jako k blackboxu a naskriptovat to např. přes Selenium.
IP zaznamenána
+
Tisk
Stran: [
1
]
« předchozí
další »
Fórum Root.cz
Ostatní
/dev/null
Stažení stránky wget/curl