Fórum Root.cz

Hlavní témata => Software => Téma založeno: Aleš Dvoika 22. 10. 2019, 16:18:45

Název: Trénování OCR Tesseract
Přispěvatel: Aleš Dvoika 22. 10. 2019, 16:18:45
Ahoj poradí mi někdo jak na training tesseractu? mam vytvořenou mapu fontu v *.tiff a i *.box ale zaboha nemuzu prijit na to jak z toho vytvořit *.traineddata

xubuntu 18, tesseract 3.05.00
děkuji za odpověd :)
Název: Re:Trénování OCR Tesseract
Přispěvatel: solanum-lycopersicum 22. 10. 2019, 21:35:40
Myslím že celý proces je dobre popísaný v dokumentácii https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05 (https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05#putting-it-all-together)
Název: Re:Trénování OCR Tesseract
Přispěvatel: _Jenda 23. 10. 2019, 01:15:14
Jenom bych chtěl poznamenat, že Tesseract 4.0 (s moderními neuronovými sítěmi) mi fungoval podstatně lépe. Možná by stálo za to trénovat rovnou ten?
Název: Re:Trénování OCR Tesseract
Přispěvatel: Aleš Dvoika 23. 10. 2019, 14:09:06
ahoj verzi 4 sem zatim ani nezkoušel, zatím nemá GUI nástavby nebo trainery...jen pro zajimavost jak slozity by bylo vytahnout tento text?
(https://i.imgur.com/yCjnjEW.png)
Název: Re:Trénování OCR Tesseract
Přispěvatel: Aleš Dvoika 23. 10. 2019, 14:11:00
Myslím že celý proces je dobre popísaný v dokumentácii https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05 (https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05#putting-it-all-together)

uplne se v te dokumentaci ztrácím ale pomohl mi jtessboxeditor(java) a serak trainer ale jen pod win32
Název: Re:Trénování OCR Tesseract
Přispěvatel: _Jenda 23. 10. 2019, 14:49:16
ahoj verzi 4 sem zatim ani nezkoušel, zatím nemá GUI nástavby nebo trainery...jen pro zajimavost jak slozity by bylo vytahnout tento text?
Tak jak jsi ho dodal tak se to skoro nechytlo, ale když z toho ten text jednoduše vyextrahuju (vyberu bílou s thresholdem 73, odečtu oblasti které se dotýkají okraje, zbylý výběr začerním, všechno ostatní smažu), tak dostanu obrázek viz příloha a z něj anglický Tesseract 4 z Debianu unstable dá „Valve allows the life inside the other gives birth... struck ablaze by godly plug igniter! Revolution about revolution rejoice! *,“ což je správný výsledek až na ten bordel na konci. Přičemž tahle extrakce byla nastřelená a triviální, určitě by šlo vymyslet něco lepšího, co bude brát v úvahu že písmenka jsou světlá s tmavým okrajem.
Název: Re:Trénování OCR Tesseract
Přispěvatel: Wangarad 23. 10. 2019, 15:20:11
Jenda a co je pointa? Nanovo vymyslas koleso alebo sa zabavas pripadne ucis?
Název: Re:Trénování OCR Tesseract
Přispěvatel: _Jenda 23. 10. 2019, 15:45:15
Jenda a co je pointa?

Pointa čeho? Pointa radění v poradně na Rootu a AbcLinuxu?

Nanovo vymyslas koleso

Zatím se tu žádné řešení neobjevilo, takže staré kolo nám není známé.

alebo sa zabavas pripadne ucis?

Ano, přijde mi, že pročítáním a řešením poraden jsem se toho spoustu naučil.
Název: Re:Trénování OCR Tesseract
Přispěvatel: Aleš Dvoika 23. 10. 2019, 16:20:04
ahoj verzi 4 sem zatim ani nezkoušel, zatím nemá GUI nástavby nebo trainery...jen pro zajimavost jak slozity by bylo vytahnout tento text?
Tak jak jsi ho dodal tak se to skoro nechytlo, ale když z toho ten text jednoduše vyextrahuju (vyberu bílou s thresholdem 73, odečtu oblasti které se dotýkají okraje, zbylý výběr začerním, všechno ostatní smažu), tak dostanu obrázek viz příloha a z něj anglický Tesseract 4 z Debianu unstable dá „Valve allows the life inside the other gives birth... struck ablaze by godly plug igniter! Revolution about revolution rejoice! *,“ což je správný výsledek až na ten bordel na konci. Přičemž tahle extrakce byla nastřelená a triviální, určitě by šlo vymyslet něco lepšího, co bude brát v úvahu že písmenka jsou světlá s tmavým okrajem.

takže bez pozadí to přechroustá.... potřeboval bych z videa kazdy pul sekundy sejmout titulky, tohle reseni neni moc realtime :D
tato stranka https://ocr.sanskritdictionary.com mi text prevede bez problemu ale buh ví co dělá s tim obrazkem predtim

díky díky moc za reply
Název: Re:Trénování OCR Tesseract
Přispěvatel: Aleš Dvoika 23. 10. 2019, 16:34:21
origo fonty
(https://i.imgur.com/VcBdHBp.png)
Název: Re:Trénování OCR Tesseract
Přispěvatel: Aleš Dvoika 23. 10. 2019, 17:01:30
guugl si stim taky pohral jako by nic
(https://i.imgur.com/MmYizVI.png)
Název: Re:Trénování OCR Tesseract
Přispěvatel: _Jenda 23. 10. 2019, 19:21:44
potřeboval bych z videa kazdy pul sekundy sejmout titulky, tohle reseni neni moc realtime :D
Jak není? To jsou dva průchody tím obrázkem (jeden fill a jedno sežrání od okrajů), to je naprosto zanedbatelné s tím co pak dělá to OCR.