Snažím se vytvořit ze skenovaných textových podkladů pdf dokument s neviditelnou textovou pro vyhledávání.
K mé spokojenosti pracuje OCR tesseract a to včetně českých znaků:
tesseract image.jpg image-hocr -l ces hocr
Výsledné pdf vytvářím pomocí hocr2pdf z balíku exactimage:
hocr2pdf -i image.jpg -o output.pdf < image-hocr.html
Bohužel některé české znaky špatně skončí (například: č, ř, š) a nelze pak vyhledávat slova s těmito znaky. Problém je v tom, že hocr2pdf nezvládá správně vložit všechny české znaky v utf-8 do pdf - v pdf je asi s utf-8 problém a je nutné provádět nějaké mapování což hocr2pdf nedělá.
Zná někdo nějaký jiný nástroj než hocr2pdf, který nemá s českými znaky problém? Respektive neví o nějakém patchi pro hocr2pdf, který by můj problém řešil?