1
Vývoj / Re:Návrh jak vyhledávat v textu - skloňování a časování
« kdy: 25. 08. 2023, 15:27:57 »
Jedná se o DB (MS SQL), která obsahuje poměrně značné množství článků ve smyslu znalostní databáze, kterou si vytváří příslušné oddělení. A to (bohužel) ještě včetně příloh (PDF, DOCX atd.), ale to bych (snad) považoval za technikálii dostat z nich něco na způsob plain textu, který by následně prošel úplně stejným vyhledáváním...
Vyhledávaly by se právě podle krátkých řetězců, obvykle jedno až čtyři slova. Velmi zřídka podle více slov.
Řazení výsledků... ta logika už může být poměrně komplikovaná, protože počet shod v příslušném článku nemusí nutně znamenat, že se jedná o nejrelevantnější výsledek. Dalo by se do toho zařadit s určitou váhou i četnost zobrazení takových článků za např. poslední tři měsíce apod.
Nerozumím až tak návrhu "Zvazil bych vygenerovani embdedingu z dokumentu/dotazu pomoci jazykoveho modelu a pouziti podobnostniho hledani." Případné HW nároky bychom si vyřešili - na příslušné farmě máme výkonu dost
Vyhledávaly by se právě podle krátkých řetězců, obvykle jedno až čtyři slova. Velmi zřídka podle více slov.
Řazení výsledků... ta logika už může být poměrně komplikovaná, protože počet shod v příslušném článku nemusí nutně znamenat, že se jedná o nejrelevantnější výsledek. Dalo by se do toho zařadit s určitou váhou i četnost zobrazení takových článků za např. poslední tři měsíce apod.
Nerozumím až tak návrhu "Zvazil bych vygenerovani embdedingu z dokumentu/dotazu pomoci jazykoveho modelu a pouziti podobnostniho hledani." Případné HW nároky bychom si vyřešili - na příslušné farmě máme výkonu dost

Stalo by za to trochu rozvest:
- "velkém množství českého textu" -- kolik zhruba dokumentu, jak jsou velke?
- jake dotazy se budou hledat? (kraticke 2-3 slovne dotazy vs cele dlouhe vety o desitkach slov)
- jakym zpusobem se maji vysledky radit? (pouze podle textove relevance/shody s dotazem, nebo i neceho dalsiho)