Automatické doplnění diakritiky do českého textu offline

Ahoj,

nemáte prosím tip na v subjektu uvedené? Rád bych doplňoval diakritiku v cli a offline, ideálně opensource. Našel jsem různé online doplňovače nebo doplňky do excelu či google doc, ale nic co bych mohl použít tak jak píši.

Díky


jjrsk

  • *****
  • 527
    • Zobrazit profil
Re:Automatické doplnění diakritiky do českého textu offline
« Odpověď #1 kdy: 26. 03. 2024, 16:26:08 »
To by me zajimalo, jak by sis to predstavoval ...

živě, živé, zíve ...

Pokud namitnes nejakou tu IA, neboli jazykovy model ... tak to typicky nezvlada ani he vs she.

Re:Automatické doplnění diakritiky do českého textu offline
« Odpověď #2 kdy: 26. 03. 2024, 16:38:46 »
Tak moje představa je automatické doplňování diakritiky offline, cli (tedy univerzálně) a ideálně opensource. Řešení je to co hledám, ať už je to AI model, statistická analýza nebo i poměrně hloupé doplňovadlo, které naznačuješ. Pro vyzkoušení například toto:

https://www.nechybujte.cz/nastroje
https://nlp.fi.muni.cz/cz_accent/
https://diakritikovac.kinit.sk/

Re:Automatické doplnění diakritiky do českého textu offline
« Odpověď #3 kdy: 26. 03. 2024, 17:19:26 »
Obecně mám i problém s rozumým slovníkem popřípadě překladačem českého textu. Rád si nechám poradit i tady...

Re:Automatické doplnění diakritiky do českého textu offline
« Odpověď #4 kdy: 26. 03. 2024, 22:15:33 »
Pár dalších odkazů najdete zde: https://www.jakpsatweb.cz/clanky/zacesteni-textu.html Na ty nástroje od Lingey nebo NLP by se nejspíš dala koupit licence.


Re:Automatické doplnění diakritiky do českého textu offline
« Odpověď #5 kdy: 26. 03. 2024, 22:55:33 »
Díky za reakci. Ano, na tomto odkazu jsem byl a uvedené nástroje  jsem zkoušel a odkazuji na ně. Přiznám se, že se mi za to nechce platit, i proto hledám opensource.

Re:Automatické doplnění diakritiky do českého textu offline
« Odpověď #6 kdy: 27. 03. 2024, 08:30:04 »
Bez něčeho chytřejšího to půjde blbě. Hodně často je potřeba kontext. GPT do OpenAI to umí, ale není to zadarmo.   

Mužete zkusit i Smolíčka od Seznamu. https://github.com/seznam/small-e-czech

Pár "Old school"  možností je také zde:   
https://dspace.cuni.cz/bitstream/handle/20.500.11956/85667/DPTX_2016_1_11320_0_477390_0_188260.pdf?sequence=1

Je tam toho dost od čeho se dá odrazit.

Re:Automatické doplnění diakritiky do českého textu offline
« Odpověď #7 kdy: 27. 03. 2024, 08:45:21 »
nebo v zavorkach pridat vsechny moznosti a clovek si pak sam odmaze co je zbytecne.

Re:Automatické doplnění diakritiky do českého textu offline
« Odpověď #8 kdy: 27. 03. 2024, 09:42:46 »
[...] GPT do OpenAI to umí, ale není to zadarmo.   

A zkoušel jste to? Na běžných modelech jsou výsledky dost tristní.

hmmmw

Re:Automatické doplnění diakritiky do českého textu offline
« Odpověď #9 kdy: 27. 03. 2024, 09:57:06 »
Tak moje představa je automatické doplňování diakritiky offline, cli (tedy univerzálně) a ideálně opensource. Řešení je to co hledám, ať už je to AI model, statistická analýza nebo i poměrně hloupé doplňovadlo, které naznačuješ. Pro vyzkoušení například toto:

https://www.nechybujte.cz/nastroje
https://nlp.fi.muni.cz/cz_accent/
https://diakritikovac.kinit.sk/


Do toho prvního jsem zkusil dát "Tatínek natírá okapi", a poznalo to, že o hrubku se nejedná. https://www.bugemos.com/?q=node/153

Ovšem větu "Babicka neumi hackovat." to zprznilo na nějaké háčkování, a to babička rozhodně umí.
« Poslední změna: 27. 03. 2024, 09:59:04 od hmmmw »

Re:Automatické doplnění diakritiky do českého textu offline
« Odpověď #10 kdy: 27. 03. 2024, 13:02:23 »
[...] GPT do OpenAI to umí, ale není to zadarmo.   

A zkoušel jste to? Na běžných modelech jsou výsledky dost tristní.

Ano, funguje to dobre. Bezi mi "doplnovac" diakritiky na GPT 3.5 pro vyhledavani. Jen je to pomerne draha stranda, pokud jsou ty dokumenty velke. Leccos jde cachovat, ale je potreba pocitat s tim, ze se za to neco zaplati.

Prilis dobre to nefunguje, kdyz neexistuje kontext. Je spousta slov, kde zmenou diakritiky se zmeni vyznam.

LLM modely si s tim umi docela poradit. Ale muze to byt zbytecne kanon na vrabce.

Re:Automatické doplnění diakritiky do českého textu offline
« Odpověď #11 kdy: 27. 03. 2024, 13:35:25 »
No LLM super, ale pokud nemas NVDII tak nic moc, treba na sluezbaku s AMD, jsem to neuchodil, protoze to vsude cpe MS driver.