Setkal jsem se s řešením, které využívalo "náhodné" názvy a javascript. Hlavní stránka obsahovala vyhledávací políčka. Výsledkem byly na první pohled náhodná čísla a názvy dokumentů. Odkazy byly nějak jako:
www.aaa.xxx/show_document?id=645454446.645456. Ta stránka byla vždy stejná, ale obsahovala javascript, který se dotázal na nějaký jiný server na stránku typu
www.bbb.yyyy/get_document?id=165454.6454. To nebylo HTML, ale javascript, který vygeneroval html. Ten script se stáhl, spustil a jeho výsledek se vložil do stránky.
Nakonec jsme to stáhnout dokázali, ale pár klacků pod nohy tam bylo:
1. Ten cílový dokument byl javascript. Musel se spustit, ale ještě se v něm muselo něco změnit, protože jinak poznal, že není v originálním dokumentu. Teprve jeho výsledek bylo to HTML, co jsme chtěli
2. Cílový dokument měl náhodné ID. Takže nešlo použít stažení stránek ve stylu "?id=1 až ?id=10000"
3. V prvním dokumentu nedotáhl nikdy seznam všech id. Muselo se simulovat klikání na "next page"
4. Sesbíraná id z prvního dokumentu neodpovídala id použitým na serveru, kde byl cílový dokument. Bylo potřeba ho prohnat přes
www.aaa.xxx/show_document. Tam byl javascript a ten opět kladl odpor, když poznal, že není na původní stránce.
Skupině tří lidí to zabralo asi dva týdny, než se ta data podařilo automatizovaně všechna stáhnout. Odhadem 100 až 200 člověkohodin práce plus den a noc, než se to stáhlo. Šlo o velice cenná data - online databázi předmětů do jednoho mmorpg :-)