Fórum Root.cz

Hlavní témata => Software => Téma založeno: Michal Zahradníček 17. 07. 2015, 08:54:44

Název: Slovník pre množné čísla a tvary slov
Přispěvatel: Michal Zahradníček 17. 07. 2015, 08:54:44
Zdravím,

práve riešim vyhľadávanie pre jednu stránku. Potreboval by som poradiť, že či existuje nejaký slovník, ktorý by obsahoval slová s previazaním na ich tvary(množné čísla).

Napr:
Auto => autá, autom, autu, aute...

Ďakujem za návrhy a rady.
Název: Re:Slovník pre množné čísla a tvary slov
Přispěvatel: uetoyo 17. 07. 2015, 12:42:29
Zdravím, nebylo by lepší naopak nehledat různé tvary, ale osekat si to na lemma, tedy základ slova?
K hledání všemožnách tvarů jinak slouží korpus.https://www.korpus.cz/
Název: Re:Slovník pre množné čísla a tvary slov
Přispěvatel: Michal Zahradníček 17. 07. 2015, 16:58:22
Základ slova by bolo tiež riešenie, lenže to riešim pre jeden nemecký portál. Urobiť skript, ktorý by definoval základ slova by bolo vzhľadom na jazykovú bariéru dosť komplikované.

Ak neexistuje nejaký zoznam slov a ich tvarov, možno by pomohlo niečo ako SOUNDEX, len určené pre nemecký jazyk, ale nebolo by to príliš presné.
Název: Re:Slovník pre množné čísla a tvary slov
Přispěvatel: uetoyo 17. 07. 2015, 17:10:57
Jedno z řešení by bylo sehnat si slovník na kterém se dá natrénovat algoritmus, koukni na knihovnu MorphoDiTa.  Nebo co jsem zběžně koukal NLTK pro Python zvládá němčinu.
Název: Re:Slovník pre množné čísla a tvary slov
Přispěvatel: uetoyo 17. 07. 2015, 17:16:37
Každopádně, bych šel cestou nalezení základu slova než nějakým výčtem všech možných tvarů, připočti různé nepravidelnosti a jsi namydlený .) V češtině vezmu text, určím lemma, slovní druh a jiné a pak dělám dělám nějaké operace nad textem.
Název: Re:Slovník pre množné čísla a tvary slov
Přispěvatel: Ondrej Nemecek 18. 07. 2015, 01:27:14
Co je úkolem? Nešlo by nasadit nějaké hotové řešení? Jako příklad: Postgres má fulltext, který hledá bez ohledu na tvar slova (pokud se správně nastaví). A funguje to docela dobře a je to skoro bez práce. Případně by šla vzít inspirace.
Název: Re:Slovník pre množné čísla a tvary slov
Přispěvatel: Nebylo zadáno jméno. 18. 07. 2015, 14:42:41
Vrele doporucuji dostudovat zaklady vyhledavani (pekne to je popsane v nekterych kapitolach v knize "Web Data Management" - http://webdam.inria.fr/Jorge/?action=chapters) a to zejmena klicove slovo "stemming" (napr. takovy Snowball je velice rychly, ma propracovanou podporu pro mnoho jazyku a je pouzivan napr. v MongoDB).
Název: Re:Slovník pre množné čísla a tvary slov
Přispěvatel: dustin 18. 07. 2015, 15:17:59
Pro tenhle účel jsem před lety používali ispell a jeho český slovník. U většiny slov to fungovalo OK.
Název: Re:Slovník pre množné čísla a tvary slov
Přispěvatel: Michal Zahradníček 20. 07. 2015, 11:45:46
Aby som to upresnil úlohou je fulltext vyhľadávanie. Projekt je postavený na mysql v nemeckom jazyku. Jedná sa o eshop.

Mám produkt napr. "Auto na baterky"

a keď zákazní, napíše do vyhľadávania slovo "autá", tak aby sa zobrazil aj tento produkt.

Samotný systém ako to dosiahnuť je vyriešený - problém je len s tým, že kde zohnať nejaký slovník, v ktorom je základný tvar slova a potom všetky jeho ostatné tvary.
Název: Re:Slovník pre množné čísla a tvary slov
Přispěvatel: Honza1Ubuntu 27. 07. 2015, 19:22:13
Slovníky podstatných jmen i jiných tvarů existují v mnoha jazycích - pro páčení hesel v naději že to někdo dal v základním tvaru. Na slovník,  tkerý by obsahoval všechny možné tvarz vzorz pády a pod. jsem nenarazil. Hodil by se. Možností bude řádově až 100x víc. I když sklonování a časování na posílení hesla nic moc - účinnost malá a blbě se to pamatuje a spíš to nikdo nepoužívá.
Název: Re:Slovník pre množné čísla a tvary slov
Přispěvatel: Logik 27. 07. 2015, 21:56:46
To co hledáš je hunspell.
Název: Re:Slovník pre množné čísla a tvary slov
Přispěvatel: Ivan 28. 07. 2015, 14:20:23
Kdysi jsem neco takovyho videl. Bylo to postaveny nad korpusem ktery firma koupila od MFF anebo Akademie ved. Nejsem si jistej, jestli se uz dneska da neco takovyho sehnat zadarmo. Naucit pocitac sklonovat, casovat, vcetne vyjimek tak to stoji hodne prace.
Název: Re:Slovník pre množné čísla a tvary slov
Přispěvatel: dustin 28. 07. 2015, 22:06:33
Už to tu zazněl dvakrát. Ispell, hunspell.