Špatná diakritika s hocr2pdf

Špatná diakritika s hocr2pdf
« kdy: 09. 02. 2011, 12:10:47 »
Ahojte, skúšam OCR-kovať dokumenty a či už tesseract alebo cuneiform vytvoria hocr výstup ktorý je viac menej OK (podľa kvality zdroja).
Problém nastane keď začnem spájať výsledok za pomoci hocr2pdf. Výsledný text v PDF má preč niektoré písmená s diakritikou (napr. č) a iné (napr. ž je ~) sú zas úplne mimo. Písmená ako ô, á, é sú OK.
Máte niekto nápad čo s tím?
« Poslední změna: 09. 02. 2011, 12:32:38 od Petr Krčmář »