Ahojte, skúšam OCR-kovať dokumenty a či už tesseract alebo cuneiform vytvoria hocr výstup ktorý je viac menej OK (podľa kvality zdroja).
Problém nastane keď začnem spájať výsledok za pomoci hocr2pdf. Výsledný text v PDF má preč niektoré písmená s diakritikou (napr. č) a iné (napr. ž je ~) sú zas úplne mimo. Písmená ako ô, á, é sú OK.
Máte niekto nápad čo s tím?