Trénování OCR Tesseract

Trénování OCR Tesseract
« kdy: 22. 10. 2019, 16:18:45 »
Ahoj poradí mi někdo jak na training tesseractu? mam vytvořenou mapu fontu v *.tiff a i *.box ale zaboha nemuzu prijit na to jak z toho vytvořit *.traineddata

xubuntu 18, tesseract 3.05.00
děkuji za odpověd :)
« Poslední změna: 22. 10. 2019, 20:15:25 od Petr Krčmář »


Re:Trénování OCR Tesseract
« Odpověď #1 kdy: 22. 10. 2019, 21:35:40 »
Myslím že celý proces je dobre popísaný v dokumentácii https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05

_Jenda

  • *****
  • 1 550
    • Zobrazit profil
    • https://jenda.hrach.eu/
    • E-mail
Re:Trénování OCR Tesseract
« Odpověď #2 kdy: 23. 10. 2019, 01:15:14 »
Jenom bych chtěl poznamenat, že Tesseract 4.0 (s moderními neuronovými sítěmi) mi fungoval podstatně lépe. Možná by stálo za to trénovat rovnou ten?

Re:Trénování OCR Tesseract
« Odpověď #3 kdy: 23. 10. 2019, 14:09:06 »
ahoj verzi 4 sem zatim ani nezkoušel, zatím nemá GUI nástavby nebo trainery...jen pro zajimavost jak slozity by bylo vytahnout tento text?

Re:Trénování OCR Tesseract
« Odpověď #4 kdy: 23. 10. 2019, 14:11:00 »
Myslím že celý proces je dobre popísaný v dokumentácii https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05

uplne se v te dokumentaci ztrácím ale pomohl mi jtessboxeditor(java) a serak trainer ale jen pod win32


_Jenda

  • *****
  • 1 550
    • Zobrazit profil
    • https://jenda.hrach.eu/
    • E-mail
Re:Trénování OCR Tesseract
« Odpověď #5 kdy: 23. 10. 2019, 14:49:16 »
ahoj verzi 4 sem zatim ani nezkoušel, zatím nemá GUI nástavby nebo trainery...jen pro zajimavost jak slozity by bylo vytahnout tento text?
Tak jak jsi ho dodal tak se to skoro nechytlo, ale když z toho ten text jednoduše vyextrahuju (vyberu bílou s thresholdem 73, odečtu oblasti které se dotýkají okraje, zbylý výběr začerním, všechno ostatní smažu), tak dostanu obrázek viz příloha a z něj anglický Tesseract 4 z Debianu unstable dá „Valve allows the life inside the other gives birth... struck ablaze by godly plug igniter! Revolution about revolution rejoice! *,“ což je správný výsledek až na ten bordel na konci. Přičemž tahle extrakce byla nastřelená a triviální, určitě by šlo vymyslet něco lepšího, co bude brát v úvahu že písmenka jsou světlá s tmavým okrajem.

Re:Trénování OCR Tesseract
« Odpověď #6 kdy: 23. 10. 2019, 15:20:11 »
Jenda a co je pointa? Nanovo vymyslas koleso alebo sa zabavas pripadne ucis?

_Jenda

  • *****
  • 1 550
    • Zobrazit profil
    • https://jenda.hrach.eu/
    • E-mail
Re:Trénování OCR Tesseract
« Odpověď #7 kdy: 23. 10. 2019, 15:45:15 »
Jenda a co je pointa?

Pointa čeho? Pointa radění v poradně na Rootu a AbcLinuxu?

Nanovo vymyslas koleso

Zatím se tu žádné řešení neobjevilo, takže staré kolo nám není známé.

alebo sa zabavas pripadne ucis?

Ano, přijde mi, že pročítáním a řešením poraden jsem se toho spoustu naučil.

Re:Trénování OCR Tesseract
« Odpověď #8 kdy: 23. 10. 2019, 16:20:04 »
ahoj verzi 4 sem zatim ani nezkoušel, zatím nemá GUI nástavby nebo trainery...jen pro zajimavost jak slozity by bylo vytahnout tento text?
Tak jak jsi ho dodal tak se to skoro nechytlo, ale když z toho ten text jednoduše vyextrahuju (vyberu bílou s thresholdem 73, odečtu oblasti které se dotýkají okraje, zbylý výběr začerním, všechno ostatní smažu), tak dostanu obrázek viz příloha a z něj anglický Tesseract 4 z Debianu unstable dá „Valve allows the life inside the other gives birth... struck ablaze by godly plug igniter! Revolution about revolution rejoice! *,“ což je správný výsledek až na ten bordel na konci. Přičemž tahle extrakce byla nastřelená a triviální, určitě by šlo vymyslet něco lepšího, co bude brát v úvahu že písmenka jsou světlá s tmavým okrajem.

takže bez pozadí to přechroustá.... potřeboval bych z videa kazdy pul sekundy sejmout titulky, tohle reseni neni moc realtime :D
tato stranka https://ocr.sanskritdictionary.com mi text prevede bez problemu ale buh ví co dělá s tim obrazkem predtim

díky díky moc za reply

Re:Trénování OCR Tesseract
« Odpověď #9 kdy: 23. 10. 2019, 16:34:21 »
origo fonty
« Poslední změna: 23. 10. 2019, 16:38:37 od Aleš Dvoika »

Re:Trénování OCR Tesseract
« Odpověď #10 kdy: 23. 10. 2019, 17:01:30 »
guugl si stim taky pohral jako by nic

_Jenda

  • *****
  • 1 550
    • Zobrazit profil
    • https://jenda.hrach.eu/
    • E-mail
Re:Trénování OCR Tesseract
« Odpověď #11 kdy: 23. 10. 2019, 19:21:44 »
potřeboval bych z videa kazdy pul sekundy sejmout titulky, tohle reseni neni moc realtime :D
Jak není? To jsou dva průchody tím obrázkem (jeden fill a jedno sežrání od okrajů), to je naprosto zanedbatelné s tím co pak dělá to OCR.