PDF s neviditelnou textovou vrstvou

rezek

PDF s neviditelnou textovou vrstvou
« kdy: 03. 07. 2012, 17:40:16 »
Snažím se vytvořit ze skenovaných textových podkladů pdf dokument s neviditelnou textovou pro vyhledávání.

K mé spokojenosti pracuje OCR tesseract a to včetně českých znaků:
tesseract image.jpg image-hocr -l ces hocr

Výsledné pdf vytvářím pomocí hocr2pdf z balíku exactimage:
hocr2pdf -i image.jpg -o output.pdf < image-hocr.html

Bohužel některé české znaky špatně skončí (například: č, ř, š) a nelze pak vyhledávat slova s těmito znaky. Problém je v tom, že hocr2pdf nezvládá správně vložit všechny české znaky v utf-8 do pdf - v pdf je asi s utf-8 problém a je nutné provádět nějaké mapování což hocr2pdf nedělá.

Zná někdo nějaký jiný nástroj než hocr2pdf, který nemá s českými znaky problém? Respektive neví o nějakém patchi pro hocr2pdf, který by můj problém řešil?
« Poslední změna: 09. 07. 2012, 14:34:52 od Petr Krčmář »