Fórum Root.cz

Hlavní témata => Software => Téma založeno: kayle 09. 02. 2011, 12:10:47

Název: Špatná diakritika s hocr2pdf
Přispěvatel: kayle 09. 02. 2011, 12:10:47
Ahojte, skúšam OCR-kovať dokumenty a či už tesseract alebo cuneiform vytvoria hocr výstup ktorý je viac menej OK (podľa kvality zdroja).
Problém nastane keď začnem spájať výsledok za pomoci hocr2pdf. Výsledný text v PDF má preč niektoré písmená s diakritikou (napr. č) a iné (napr. ž je ~) sú zas úplne mimo. Písmená ako ô, á, é sú OK.
Máte niekto nápad čo s tím?