Frekvenční analýza výskytu řetězce?

pruzkumbojem · « **kdy:** 12. 01. 2022, 14:41:41 »

co je nejlepsi nastroj pro zjisteni cetnosti patternu?

napriklad mam tabulku a potrebuju zjistit 100 nejcasteji se vyskytujicich alfanumerickych stringu o 10 znacich (a pocet tech vyskytu).

moznost SQL query jsou hodne omezene ( a midleware to zabije na 3 dny), ale mam moznost vyexpertovat jeden log jako text
co je na tohle nejlepsi nastroj, vzit splunk? R?

BTW tohle je mimo moje knowhow, ale potrebuju to a mnoha hlavy indicky tym zasadne nic nedoda. uz jsem to zkousel escalovat, ale to by musel management pripustit, ze platit asi 50 "levnych" indu zbytecne, takze to je nepruchozi.

Reklama

Karmelos · « **Odpověď #1 kdy:** 12. 01. 2022, 17:40:16 »

něco takovýho? https://cran.r-project.org/web/packages/bpa/vignettes/introduction.html
pro r je dobrý si nainstalovat rstudio

alex6bbc · « **Odpověď #2 kdy:** 12. 01. 2022, 19:10:32 »

a kolik dat v db tabulce je?
nebo jak je velky vyexportovany textovy log?

mate k dispozici vice stroju, ze by slo praci rozsekat ukol na n samostatnych pocitacu.
podobne by to slo udelat jako viceprocesove, vicevlaknove zpracovani.

1) nejprve bych log prohnal filtrem na 10 znakove slova.
2) pak bych zacal plnit vhodnou strukturu kde by slo rychle vyhledat zda slovo uz existuje pripadne slovo vlozit (mapa, strom, apod.)
3) v datove strukture (2) bych vyhledal slovo a zvysil counter pokud uz tam slovo je nebo ho vlozil, pokud se slovo objevilo poprve.

_Jenda · « **Odpověď #3 kdy:** 13. 01. 2022, 00:57:38 »

Citace: alex6bbc 12. 01. 2022, 19:10:32

mate k dispozici vice stroju, ze by slo praci rozsekat ukol na n samostatnych pocitacu.

Jak se tohle paralelizuje? Podle mě bude bottleneck velikost paměti, protože těch možných stringů je… hodně (64**10, resp. 10*velikost_vstupních_dat). Pokud jsou statisticky hodně nerovnoměrně rozdělené (což v „lidském textu“ jsou), tak by to možná šlo nejdřív předfiltrovat třeba počítáním 32bit hashů těch substringů (nějaké zkolidují) a v druhé fázi počítat jenom ty co se zahashovaly do bucketů kde toho je nejvíc.

Google CTCCTCGGCGGGCACGTAG · « **Odpověď #4 kdy:** 13. 01. 2022, 07:51:35 »

nejdriv bych zkusil trivialne

Kód: [Vybrat]

from collections import Counter

def chunks(s, n=10):
    for i in range(len(s)):
        yield s[i:i + n]

c = Counter()

for s in zdrojdat():
     c.update(chunks(s))

print(c.most_common(3))

zalezi, jestli to potrebujes jen jednou, nebo chces vysledky drzet v databazi

Pokud je tech dat opravdu hodne, typicka uloha pro mapreduce

Reklama

Exceptions · « **Odpověď #5 kdy:** 13. 01. 2022, 08:42:46 »

Citace: _Jenda 13. 01. 2022, 00:57:38

Citace: alex6bbc 12. 01. 2022, 19:10:32
mate k dispozici vice stroju, ze by slo praci rozsekat ukol na n samostatnych pocitacu.
Jak se tohle paralelizuje? Podle mě bude bottleneck velikost paměti, protože těch možných stringů je… hodně (64**10, resp. 10*velikost_vstupních_dat). Pokud jsou statisticky hodně nerovnoměrně rozdělené (což v „lidském textu“ jsou), tak by to možná šlo nejdřív předfiltrovat třeba počítáním 32bit hashů těch substringů (nějaké zkolidují) a v druhé fázi počítat jenom ty co se zahashovaly do bucketů kde toho je nejvíc.

ano, přesně takhle se to paralelizuje, spočítaj se postupně kolidující stringy (buď využití hashe nebo v případě stejné délky řětězců jdeš postupně po písmenech) a přiděluješ jednotlivé prefixy nějakému výpočetnímu procesu. Frekvenční analýza je aditivní výpočet, lze tedy počítat postupně a připočítávat mezivýsledky, dobře se to paralelizuje.

Frekvenční analýza výskytu řetězce?

pruzkumbojem

Frekvenční analýza výskytu řetězce?

Reklama

Karmelos

Re:Frekvenční analýza výskytu řetězce?

alex6bbc

Re:Frekvenční analýza výskytu řetězce?

_Jenda

Re:Frekvenční analýza výskytu řetězce?

Google CTCCTCGGCGGGCACGTAG

Re:Frekvenční analýza výskytu řetězce?

Reklama

Exceptions

Re:Frekvenční analýza výskytu řetězce?