1
Hardware / Re:Hledám síťovou laserovou tiskárnu se skenerem
« kdy: 21. 03. 2023, 23:09:18 »Hezky. Bejvaly doby, kdy OCR, zejména v češtině, pokud mělo být kvalitní, tak bylo drahé. Dneska to dává firmware tiskárny? Pokud správně chápu, v tom videu otvíráte PDFka nějakým asociovaným prohlížečem z uploadové složky FTP serveru... Mám k tomu dva otazníky:
- Jsem línej to rychle googlit... Netušíte, jak je tohle udělané v PDF formátu? Jako že naskenuju cosi do PDF, tzn. je to v principu bitmapa embednutá ve vektorovém formátu, proběhne OCR... a dál co? Ten sken je komplet "zvektorizovaný"? Proběhne substituce fontů, vyřezání rastrových obrázků z bílého místa? Nebo ten sken zůstane v principu jako celostránková bitmapa, nic se nevektorizuje, žádné fonty se nedosazují, jenom OCR najde písmenka a do PDFka víceméně vloží nějaká "nevizuální metadata" kde jsou znaky/stringy rozmístěné, takže pak funguje označování do bloků a CTRL+C ?
- Netušíte někdo, kde skončila kdysi slavná Recognita?
Ad 1: Jo, takhle nějak to dělají některé obslužné programy dodávané k některým skenerům nebo multifunkcím. Ale většinou asi jen ve Windows. Trochu jsem pátral, jak něčeho takového dosáhnout v Linuxu a našel jsem program ocrmypdf. V Debianu je to rovnou i jako balíček. Ale je to myslím v Pythonu, takže to jde nainstalovat i přes pip. Používá to tesseract - s tím jsem si před lety hrál a výsledky mě tehdy moc nepřesvědčily, na texty v češtině to fungovalo hodně špatně. Ale asi se to po těch letech zlepšilo a teď tím některá skenovaná PDFka proháním a je to docela fajn. Jde v těch PDF pak hledat a případně i nějaký text vykopírovat ven. Není to úplně stoprocentní, ale jestli se to bude dál zlepšovat...
Ad 2: Recognitu si taky pamatuji, snad jsem to taky dostal i k nějakému scanneru, nebo jestli se to tehdy ještě pirátilo, těžko říct, ale v době kdy jsem přecházel na Linux pro tento OS stejně dostupná nebyla no a pak jsem to tak přes 20 let nesledoval. :-)