Kit
Jj, je ten program docela dost slozity, o tom zadna. Napsal jsem to tak jak umim (a vyvoj trval hodiny a hodiny). Nejvetsi problem je ve spousteni mnoha procesu na kazdou stranku. To zabrat muze okolo 0.2 s, takze v tvem pripade je zpracovani mnohem rychlejsi.
Co se tyce jineho formatu dat nez html, tak ten k dispozici neni, jinak by se slozity proces vubec resit nemusel. Stanice maji nastesti vsechny stejnou html strukturu, ale obcas (jednou za par let) se zmeni struktura celeho webu a skript je na nic razem. Mival jsem na to lepsi a rchlejsi skript co pouzival awk, ale ten uz nehraje a ja v awk neumim.
Dale zabere download stranky okolo 0.2 s v pripade, ze dany mesic na stanici existuje (pokud ne, je cas pod 100 ms). Jedna html stranka s daty ma radove 50-70 kB. To se da resit tim, pouziji web offline (webreap pomoci wget). To ale take neni zadna sranda - bezelo to 4-5 tydnu (2 tydny konvert odkazu), spotreba RAM 5-15 GiB, vice nez 5 000 000 html souboru a 200 GiB dat. Pri kompresi 7z/LZMA/ULTRA je vysledny archiv cca 1.9 GiB. Neni prakticke mit na disku 5 000 000 malych souboru, tak jesm z toho udelal iso image (velikost okolo 200 GiB, jen 1 soubor, po kompresi cca 2 GiB, ISO soubor se da pripojit na virtualni mechaniku jako virtualni DVD disk).
Zkousel jsem pustit skript na stazene html stranky, misto wget tedy cat SOUBOR a pak ty procesy Parsing. Zahadne to ale bezelo mnohem pomaleji (zpomaleni moc soubory na disku) ? Takze pouzit skript na offline html nebylo ucinne.