... Skripty pro výpočet jsou uloženy kdoví kde na webu a to v rámci stahovačů není možné. ...
A nešlo by nějak stáhnout všechny soubory z té adresy, ať už k nim cesta ve zdrojovém kódu stránky vede nebo nevede?
Nešlo samozřejmě. Prakticky všechny stahovače fungují tak, že stáhlou index, podívají se jaký jsoui tam odkazym, stáhnmou je a podívají se, jaké jsou odkazy do hloubky 2, 3 atd. Takhle se rekurzivně stáhne celý web, nebo jeho část (podle nastavení). Lze i přidat, že se ke stránkám stáhou externí soubory nutné pro zobrazení (obrázky a pod.). Stránky a soubory se jmenují obvykle tak jako se jmenují v URL včetně adresářové strutury (někdy jsou rména nekompatibilní - nepovolené znaky a program (teleport te win) musí znaky upravit).
Stránky jsou buď statické, extïstující pořád, nebo dnamické, jež se na základě URL generují z datamáze (občas místo URL se používá post). Obrázjky jsou většinou statické, ale ne vždy. U dynamických stráek je celková množina kombinací parametrů často velká a množina všech možných odkazů na dynamixckém webu taky. Navíc všechny soubory mohou být ukládány do jednoho adresáře (hodně souborů vjednom adresáři - problém). Vygenerované stránky jsou dost podobné i duplicitní. Tak tomu je i např, tady na forum.root.cz. V celém foru je přez 500 000 odkazlů = přez 500 000 podobných souborů v jednom adresáři a přez 80 GB dat (7zip archív jen 220 MB kvůli podobnosti). Skutečná databáze (text příspěvků, uživatelé, logy) + skript, který stránky tvoří může mét desítky až stovky MB.
Jak dostat místo všech stránek stažených přez množinu odkazů přímo zdrojová data, ze kterých se stránka počítá, generuje, to se mi objevit nepodařilo a nebode to jen tak. Něco jiného je dostat se na web a něco jiného ke zdriojákům. To už by byl určitý hacking (a to není zrovna povoleno). Např. tady
http://www.kesyl.unas.cz/pocasi-kunovice/statistics.htm je zdrojový soubor přístupný
http://www.kesyl.unas.cz/pocasi-kunovice/data/dayfile.txtJinak než přez množinu objevených odkazů na stránkých (a na konci konvert odkazů) se to moc nedělá. Diretory listing se dá občas použít, ale to spíš u ftp a statických stránkek. Dost webů zakazuje listing buď kompletně, nebo na určitých místech (nepovolený přístup a nebo přesměrování). Listing se dá požít v prohlížeči (umaže se název souboru z adresy s tím, že se snad zobrazí složka).
http://meteomodel.pl/gfs-para/TMAX/TMAX_09.png listing
http://meteomodel.pl/gfs-para/TMAX/ - nepovoleno. Nebo přez terminál , hlavně u ftp (lftp URL), funguje i u html složek - přístupných adresářů.
Vyplňování formulářů, čímž se dostane po výpočtu nějaká html stránka z daty, to je zase jiná. vstupní údaje nejsou v URL , takže naskriptování je těžší (ale jde to, pokud tam neni captcha). Pak za základě různých údajů lze z určitém nzožiny projed všechny kombinace (a může to bejt hodně možností as hodně dat). Získad pčřímoé akript, co to počítá, to nijak klasicky nejde, to už není o přístupu do webu ale do serveru (leda tak hacknout).
Pokud je adresa k souborům na základě nějakých pravidel (datum, čas), lze skript snadno napsat v bashi. Pokud je známo, jak se adresy vytváří (a někdy jen některé platí), např. jména měst, lze projet všechny možnosti (může jich být dost). Některé weby (uloz.to, 500px, videa stream, youtube, fotky k Google maps) adresu schovávají jak to jen jde a nelze najít jen tak ve zdrojovém kódu a obrázek stáhnout.