Zdravim
Podobne veci jsem uz take v minulosti resil, ale moc uspesny jsem s tim teda nebyl. V pripade knizek-dokumentu je v lepsim pripade jedna stranka jako GIF-PNG obrazek, a nebo je i kazda stranka slozena z vice obrazku-dlazdic. U jinych pripadu,nez dokumenty (napr. mapy, grafy, tabulky se symboly) je zdanlive jeden obrazek slozen z vice obrazku i vrstvenych na sobe, s ruznou pruhlednosti. A nektere soucasti celkoveho zdanlive jednoho obrazku mohou byt delsi dobu nemenne.
Napadaji me dva postupy, co s tim. Pokud vis priblizne strukturu adres a priblizne jak vypadaji jmena obrazku, tak naparsovat html stranku pomoci utilit typu grep, cut, tr, sed, gawk a dostat jmena obrazku a cele adresy, ktere stahnu. Pokud je pravidelnost v nejakem tom pojmenovani, muzu jmena-adresy hadat-dosazovat pomoci promenne a cyklu. Vysledne si stahnu vsechny obrazky, o ktere mam zajem, jenze otazka je, jak to pak slozit.
Jednotlive adresy-jmena obrazku a prvku, ze kterych je stranka slozena, mohou mit nepravidelna jmena, to i zamerne, aby nesel obsah jednoduse stahovat. Dalsi moznosti jsou tabulky s textem a symboly, nebo grafy a schemata vytvorene prez JS, jez vubec obrazky nejsou. Pak by to melo jit resit automatizovanym printscreenem stranky i se zvolenim velikosti okna, treba i 10000x10000. To je dobre napriklad na mapy - vytvoreni velkeho obrazku z mapy, ale i na ruzne grafy a tabulky. Problem je ale, kdyz ma web-dokument velky vertikalni rozsah a musi se scroolovat (to nemluvim napr. o Twitteru, tam je to jeste jinak). Nahledy stranek vytvorene prez automaticky printscreen se pak daji podle nejakeho klice automaticky oriznout.
Ulozeni stranky do jednoho souboru PDF nebo driv treba Opera delala jeden soubor ze stranek - MHT by melo byt dobre fungujicim resenim, ale velikost na disku bude vetsi, nez potreba.
Pojem Web Scrapping slysim poprve, o tom nic nevim.
Stahovace webu jako wget, httptrack, nebo ve Win teleport a jine se nedaji tak dobre zacilit na konkretni skupinu souboru (u Wget to lze resit skripotovanim) a proto mohou stahnout mnohonasobne vice souboru a dat, nez co je potreba. A tam, kde je komplikovany JV, tam stahovace webu casto nemusi uspet.