Fórum Root.cz

Hlavní témata => Software => Téma založeno: noonenoone 26. 03. 2024, 14:31:49

Název: Automatické doplnění diakritiky do českého textu offline
Přispěvatel: noonenoone 26. 03. 2024, 14:31:49
Ahoj,

nemáte prosím tip na v subjektu uvedené? Rád bych doplňoval diakritiku v cli a offline, ideálně opensource. Našel jsem různé online doplňovače nebo doplňky do excelu či google doc, ale nic co bych mohl použít tak jak píši.

Díky
Název: Re:Automatické doplnění diakritiky do českého textu offline
Přispěvatel: jjrsk 26. 03. 2024, 16:26:08
To by me zajimalo, jak by sis to predstavoval ...

živě, živé, zíve ...

Pokud namitnes nejakou tu IA, neboli jazykovy model ... tak to typicky nezvlada ani he vs she.
Název: Re:Automatické doplnění diakritiky do českého textu offline
Přispěvatel: noonenoone 26. 03. 2024, 16:38:46
Tak moje představa je automatické doplňování diakritiky offline, cli (tedy univerzálně) a ideálně opensource. Řešení je to co hledám, ať už je to AI model, statistická analýza nebo i poměrně hloupé doplňovadlo, které naznačuješ. Pro vyzkoušení například toto:

https://www.nechybujte.cz/nastroje
https://nlp.fi.muni.cz/cz_accent/
https://diakritikovac.kinit.sk/
Název: Re:Automatické doplnění diakritiky do českého textu offline
Přispěvatel: noonenoone 26. 03. 2024, 17:19:26
Obecně mám i problém s rozumým slovníkem popřípadě překladačem českého textu. Rád si nechám poradit i tady...
Název: Re:Automatické doplnění diakritiky do českého textu offline
Přispěvatel: Filip Jirsák 26. 03. 2024, 22:15:33
Pár dalších odkazů najdete zde: https://www.jakpsatweb.cz/clanky/zacesteni-textu.html Na ty nástroje od Lingey nebo NLP by se nejspíš dala koupit licence.
Název: Re:Automatické doplnění diakritiky do českého textu offline
Přispěvatel: noonenoone 26. 03. 2024, 22:55:33
Díky za reakci. Ano, na tomto odkazu jsem byl a uvedené nástroje  jsem zkoušel a odkazuji na ně. Přiznám se, že se mi za to nechce platit, i proto hledám opensource.
Název: Re:Automatické doplnění diakritiky do českého textu offline
Přispěvatel: Marcel Callo 27. 03. 2024, 08:30:04
Bez něčeho chytřejšího to půjde blbě. Hodně často je potřeba kontext. GPT do OpenAI to umí, ale není to zadarmo.   

Mužete zkusit i Smolíčka od Seznamu. https://github.com/seznam/small-e-czech

Pár "Old school"  možností je také zde:   
https://dspace.cuni.cz/bitstream/handle/20.500.11956/85667/DPTX_2016_1_11320_0_477390_0_188260.pdf?sequence=1

Je tam toho dost od čeho se dá odrazit.
Název: Re:Automatické doplnění diakritiky do českého textu offline
Přispěvatel: ogdru6jahad 27. 03. 2024, 08:45:21
nebo v zavorkach pridat vsechny moznosti a clovek si pak sam odmaze co je zbytecne.
Název: Re:Automatické doplnění diakritiky do českého textu offline
Přispěvatel: Martin Poljak 27. 03. 2024, 09:42:46
[...] GPT do OpenAI to umí, ale není to zadarmo.   

A zkoušel jste to? Na běžných modelech jsou výsledky dost tristní.
Název: Re:Automatické doplnění diakritiky do českého textu offline
Přispěvatel: hmmmw 27. 03. 2024, 09:57:06
Tak moje představa je automatické doplňování diakritiky offline, cli (tedy univerzálně) a ideálně opensource. Řešení je to co hledám, ať už je to AI model, statistická analýza nebo i poměrně hloupé doplňovadlo, které naznačuješ. Pro vyzkoušení například toto:

https://www.nechybujte.cz/nastroje
https://nlp.fi.muni.cz/cz_accent/
https://diakritikovac.kinit.sk/


Do toho prvního jsem zkusil dát "Tatínek natírá okapi", a poznalo to, že o hrubku se nejedná. https://www.bugemos.com/?q=node/153

Ovšem větu "Babicka neumi hackovat." to zprznilo na nějaké háčkování, a to babička rozhodně umí.
Název: Re:Automatické doplnění diakritiky do českého textu offline
Přispěvatel: Marcel Callo 27. 03. 2024, 13:02:23
[...] GPT do OpenAI to umí, ale není to zadarmo.   

A zkoušel jste to? Na běžných modelech jsou výsledky dost tristní.

Ano, funguje to dobre. Bezi mi "doplnovac" diakritiky na GPT 3.5 pro vyhledavani. Jen je to pomerne draha stranda, pokud jsou ty dokumenty velke. Leccos jde cachovat, ale je potreba pocitat s tim, ze se za to neco zaplati.

Prilis dobre to nefunguje, kdyz neexistuje kontext. Je spousta slov, kde zmenou diakritiky se zmeni vyznam.

LLM modely si s tim umi docela poradit. Ale muze to byt zbytecne kanon na vrabce.
Název: Re:Automatické doplnění diakritiky do českého textu offline
Přispěvatel: LivingLegend 27. 03. 2024, 13:35:25
No LLM super, ale pokud nemas NVDII tak nic moc, treba na sluezbaku s AMD, jsem to neuchodil, protoze to vsude cpe MS driver.
Název: Re:Automatické doplnění diakritiky do českého textu offline
Přispěvatel: Tomas-T 27. 03. 2024, 13:51:00
Třeba se brzy dočkáme.
https://the-decoder.com/google-intel-and-qualcomm-aim-to-break-nvidias-ai-dominance/