Ahoj,
mám tisíce souborů v různých podadresářích ve formátu:
nějaké_slovo;nějaké_score
Slova (ascii, case-insensitive) jsou v každém souboru náhodně a já bych je potřeboval uspořádat a abecedně setřídit tak, aby:
- slova začínající na AA byly v souboru AA.txt, AB v souboru AB.txt, ...
nebo
- slova začínající na A byly v souborech po 1000 řádků ve složce A, tzn. ./A/1txt, ./A/2.txt, ...
Po nějakém googlení se mi pár jednoduchých pokusů podařilo, ale jde mi o rychlost. Jak tohle řešit s ohledem na výkon a rychlost zpracování? Uvedená struktura jen pro představu, jde mi prostě o rozdělení tisíců dlouhých souborů (desítky tisíc řádků) tak, abych je nemusel všechny prohledávat když skládám větu a vím, že potřebuju něco na PIV, tak to najdu ve složce P v souboru PI.txt
Zkoušel jsem to i importovat do mysql a naindexovat do sphinxu. I když jsem dělal inserty po 10 000 řádcích, trvalo to 2 dny a následná indexace den, což je na měnící se data trochu nepohodlné.