Zobrazit příspěvky

Tato sekce Vám umožňuje zobrazit všechny příspěvky tohoto uživatele. Prosím uvědomte si, že můžete vidět příspěvky pouze z oblastí Vám přístupných.


Příspěvky - xblaha

Stran: [1]
1
Jedná se o DB (MS SQL), která obsahuje poměrně značné množství článků ve smyslu znalostní databáze, kterou si vytváří příslušné oddělení. A to (bohužel) ještě včetně příloh (PDF, DOCX atd.), ale to bych (snad) považoval za technikálii dostat z nich něco na způsob plain textu, který by následně prošel úplně stejným vyhledáváním...

Vyhledávaly by se právě podle krátkých řetězců, obvykle jedno až čtyři slova. Velmi zřídka podle více slov.

Řazení výsledků... ta logika už může být poměrně komplikovaná, protože počet shod v příslušném článku nemusí nutně znamenat, že se jedná o nejrelevantnější výsledek. Dalo by se do toho zařadit s určitou váhou i četnost zobrazení takových článků za např. poslední tři měsíce apod.

Nerozumím až tak návrhu "Zvazil bych vygenerovani embdedingu z dokumentu/dotazu pomoci jazykoveho modelu a pouziti podobnostniho hledani." Případné HW nároky bychom si vyřešili - na příslušné farmě máme výkonu dost ;)


Stalo by za to trochu rozvest:
- "velkém množství českého textu" -- kolik zhruba dokumentu, jak jsou velke?
- jake dotazy se budou hledat? (kraticke 2-3 slovne dotazy vs cele dlouhe vety o desitkach slov)
- jakym zpusobem se maji vysledky radit? (pouze podle textove relevance/shody s dotazem, nebo i neceho dalsiho)

2
Měl by prosím někdo nápad či odkaz na způsob, jak alespoň trochu rozumně vyhledávat ve velkém množství českého textu podle hledaného výrazu, kde hledaný výraz nemusí (bohužel ani nemůže) být ve stejném tvaru (pád, čas...), jako je výraz v hledaném textu?

Hledal jsem slovníky, dokonce jsem oslovil i Ústav pro jazyk český, ale výsledek veškerý nepraktický, prakticky žádný.

Děkuji za nápady ;)

Stran: [1]