Chcel by som implementovat full text vyhladavanie pre beznu db(maria). Nechcem ziadnu externu zavyslost ako sphinx, elastic, solr...
V principe by sa text tokenizoval a vlozil do db ako tri stlpce: slovo, id obsahu, pocet vysktov v obsahu. Tokenizacia znamena ze text sa rozdeli na slova, s min/max dlzkou, transliteruje sa, minimalizuje sa pismo a tak sa potom identifikuje. Cize slovo "Přeshraniční" by bolo tokenizovane ako "preshranicni".
Vyhladavanie sa potom taktiez tokenizuje a vysledky sa zoradia podla poctu vyskytov slova v obsahu.
Skratka take zakladne vyhladavanie ktore postaci pre 90% pripadov.
Moja otazka je, ako by sa dalo pristupit k preklepom? Inak povedane, ako by sa dalo vyhladavat podla podobnosti slova? Cize ak niekto hlada "přehsraniční" namiesto "přeshraniční" tak mu to najde spravny vysledok. Je tu len jedno prehodniee slov no dost vyznamne, na rozdiel od napriklad "přeshraniční" vs "řeshraniční".
Treba nejak sledovat ktore slova/vysledky sa paruju s akymi frazami alebo pouzit nejaky pattern matching?
Neviem ci sa tento koncept vola fuzzy search alebo proximity search...ale teda ci je to aj mozne nejak jednoducho implementovat v beznej db?