Stažení stránky wget/curl

Stažení stránky wget/curl
« kdy: 17. 08. 2020, 22:25:24 »
Ahoj všem,

prosím o radu. Je web, ze kterého bych chtěl pro soukromé účely analýzy stáhnout data za cca. 30 stránek a nechce se mi to dělat ručně. Navís nestačí základní stažení zdrojového kodu, je tam nějaký AJAX. Data ve zdrojovém kodu [CTRL] + u nejsou, pouze skripty, které data vykreslují na straně klienta až v prohlížeči.

Ruční postup je takový:
  • Přistoupit na stránku
  • Skrolovat půl hodiny, urvat mezitím kolečko z myši a vzít z krabice další myš. (Skrolování skript načítá další "historické" řádky tabulky, nelze je zobrazit najednou (člověk se musí proscrollovat nakonec).)
  • Jakmile se dostanu až na konec a již nejsou žádné data k vypsání, podívám se do zdrojového kodu a stáhnu ho do textového souboru.
  • Nad textovým souborem spustím cat source.txt| sed | grep | awx | masakry > data.txt
  • Soubor data.txt proženu bash skriptem, který ty data naláduje do databáze.
  • Nyní si mohu hrát s SQL dotazy, vytvářet funkce pro analýzu těch dat.

Automatický postup:
  • wget/curl/něco https://domena.example/neco --nejaký masakry pro načtení všech dat (skrolování) :-D > source.txt
  • Pokračovat jak je výše uvedeno

Myslíte, že je to nějak řešitelné, možná nějaký emulátor prohlížeče nebo nodeJS, napadá Vás něco?

Díky moc za každý nápad.


Re:Stažení stránky wget/curl
« Odpověď #1 kdy: 17. 08. 2020, 22:37:37 »
Omlouvám se všem, špatně jsem to pochopil, není to AJAX, normálně to v tom zdrojovém kódu je asi všechno.

Prosím tohle téma komplet smazat, ať to nemate nové čtenáře a nesnaží se třeba nad tím ZBYTEČNĚ přemýšlet.

_Jenda

  • *****
  • 1 638
    • Zobrazit profil
    • https://jenda.hrach.eu/
    • E-mail
Re:Stažení stránky wget/curl
« Odpověď #2 kdy: 17. 08. 2020, 22:39:08 »
To je jedno, obecně by se to řešilo 2 způsoby: 1) odposlechnout (např. Burp Proxy) jak to ta data tahá; 2) přistoupit k tomu jako k blackboxu a naskriptovat to např. přes Selenium.