Fórum Root.cz

Ostatní => Odkladiště => Téma založeno: VeBu 01. 12. 2014, 17:12:12

Název: Vyhledávač s regulárními výrazy
Přispěvatel: VeBu 01. 12. 2014, 17:12:12
Existuje nějaký, který by dovoloval používání regulárních výrazů?
Název: Re:Vyhledávač s regulárními výrazy
Přispěvatel: j 01. 12. 2014, 18:57:44
Dost pochybuju, je to totiz technicky (temer) nerealizovatelny. Respektive, jde o to, ze pri vyhodnoceni obecneho regularniho vyrazu nemuzes pouzivat index. Tudiz ti klidne i jediny "spravne" polozeny dotaz, muze doslova odsat veskery vykon ktery ma cely vyhledavac k dizpozici.
Název: Re:Vyhledávač s regulárními výrazy
Přispěvatel: Filip Jirsák 01. 12. 2014, 19:44:11
Myslíte internetový vyhledávač jako službu (např. Google), nebo aplikaci, kterou můžete sám provozovat (např. Solr), nebo třeba knihovnu (např. Lucene)? Nebo to má být specializovaný vyhledávač, třeba pro nějaký korpus?
A jaké regulární výrazy byste si představoval? Google umí hvězdičku (můžete hledat "lepší * v hrsti než * na střeše"), Lucene umí otazník, hvězdičku a takovéhle (http://lucene.apache.org/core/4_10_2/core/org/apache/lucene/util/automaton/RegExp.html?is-external=true) regulární výrazy...
Název: Re:Vyhledávač s regulárními výrazy
Přispěvatel: student 01. 12. 2014, 20:11:46
pri vyhodnoceni obecneho regularniho vyrazu nemuzes pouzivat index.
A co viac, regex od uzivatela vzdy nesie riziko DoSovania; v horsom pripade to uzivatel nemusi robi umyselne: http://en.wikipedia.org/wiki/ReDoS
Název: Re:Vyhledávač s regulárními výrazy
Přispěvatel: Radek Miček 01. 12. 2014, 22:30:08
Dost pochybuju, je to totiz technicky (temer) nerealizovatelny. Respektive, jde o to, ze pri vyhodnoceni obecneho regularniho vyrazu nemuzes pouzivat index. Tudiz ti klidne i jediny "spravne" polozeny dotaz, muze doslova odsat veskery vykon ktery ma cely vyhledavac k dizpozici.

Google code search podporoval regulární výrazy. Relevantní je prezentace Index support for regular expression search (http://wiki.postgresql.org/images/6/6c/Index_support_for_regular_expression_search.pdf).
Název: Re:Vyhledávač s regulárními výrazy
Přispěvatel: karel 02. 12. 2014, 08:02:14
grep
Název: Re:Vyhledávač s regulárními výrazy
Přispěvatel: dustin 02. 12. 2014, 08:46:26
Google code search podporoval regulární výrazy. Relevantní je prezentace Index support for regular expression search (http://wiki.postgresql.org/images/6/6c/Index_support_for_regular_expression_search.pdf).

Moc pěkné. Je nějaký plán, kdy by se to do PG dostalo?
Název: Re:Vyhledávač s regulárními výrazy
Přispěvatel: VeBu 02. 12. 2014, 09:33:11
Filip Jirsák: nejlépe službu, google umí 'jen' toto https://support.google.com/websearch/answer/2466433

ehm, vlastně zjišťuji že jsem blbý a zapoměl jsem si tam dát uvozovky pro sousloví na začátku, ale stejně když zadám (př.1a):
Kód: [Vybrat]
seznam koření -prodat -nabízíme -prodejna -reportáž -Kčhned na druhé stránce výsledků je vidět v popisku stránky, cituji (př.1b):
Kód: [Vybrat]
Přidat ke srovnání. 64,20Kč Bez DPH: 64,20Kč. štěstí směs květů a koření BIO 35g .. Přidat do seznamu přání. Přidat ke srovnání. 42,00Kč Bez DPH: 42,00Kč.což znamená že -Kč nestačí na vše a chtělo by nějak odfiltrovat i případy kdy přímo před Kč je číslo
ovšem něco jako (př.2)
Kód: [Vybrat]
seznam koření -prodat -nabízíme -Kč -0Kč -1Kč -2Kč -3Kč -4Kč -5Kč -6Kč -7Kč -8Kč -9Kč
moc nepomůže (naopak to najde více výsledků - pravděpodobně to vpodstatě bere jako záporné číslo), ale i kdyby, přijde mi vypisování jednotlivých (alespoň) koncových hodnot jako blbost

jde napsat i (př.4)
Kód: [Vybrat]
seznam koření -prodat -nabízíme -Kč -0..9Kčkde se mi na první pohled zdálo že je to o trochu lepší než př.2, ale jen do té doby než jsem zjistil že výsledek je jen totožný s př.1

takže bych na to asi potřeboval něco na spojování textu, závorky na oddělení číselného textu od negace (aby to nebralo jako mínus) a závorky na oddělení or tak, aby se dalo použít uvnitř dotazu s negací (protože tu zároveň máme Kč i CZK)

Název: Re:Vyhledávač s regulárními výrazy
Přispěvatel: aaa158 02. 12. 2014, 10:46:32
No kedysi davno ~ cca 10 rokov dozadu - google nejake regexpy podporoval (vtedy som ich ja bohvieako nepoznal, len zaklad), asi potichu a experimentalne. A potom to zatrhli :-(
Název: Re:Vyhledávač s regulárními výrazy
Přispěvatel: hawran diskuse 02. 12. 2014, 12:53:06
grep

 ;D  ;D
A sakra.

(nechybí tam wget?)
Název: Re:Vyhledávač s regulárními výrazy
Přispěvatel: j 02. 12. 2014, 14:16:14
No kedysi davno ~ cca 10 rokov dozadu - google nejake regexpy podporoval (vtedy som ich ja bohvieako nepoznal, len zaklad), asi potichu a experimentalne. A potom to zatrhli :-(

Ono jde i o to, ze pokud neco takovyho pouzijes, tak zjevne vis pomerne presne co hledas, a dost tezko se ti natlaci nejaka reklama. Kdysi davno fungovaly aspon ty pluska a minuska, ale i to uz google vesele ignoruje. Nebo taky fungovalo poradi = prvni slovo je nejdulezitejsi, coz taky uz nefunguje. Posledni dobou cim dal castejes narazim na to, ze google vyheldava metodou "aspon neco z hledanych slov" + "a pokud nam za to nekdo plati, tak i cokoli co vypada pribuzne"
Název: Re:Vyhledávač s regulárními výrazy
Přispěvatel: rincewind 7a 02. 12. 2014, 14:48:30
Ono jde i o to, ze pokud neco takovyho pouzijes, tak zjevne vis pomerne presne co hledas, a dost tezko se ti natlaci nejaka reklama. Kdysi davno fungovaly aspon ty pluska a minuska, ale i to uz google vesele ignoruje. Nebo taky fungovalo poradi = prvni slovo je nejdulezitejsi, coz taky uz nefunguje. Posledni dobou cim dal castejes narazim na to, ze google vyheldava metodou "aspon neco z hledanych slov" + "a pokud nam za to nekdo plati, tak i cokoli co vypada pribuzne"

Nemam pocit, ze by Google menil vyhladavaci algoritmus kvoli reklamam. Ja vyhladavam stylom nahadzat tam klucove slova (v lubovolnom poradi) a na prekvapenie to funguje dost dobre.
Název: Re:Vyhledávač s regulárními výrazy
Přispěvatel: VeBu 02. 12. 2014, 23:53:27
grep
Ano, něco takového ale na prohledávání internetu ;)
Název: Re:Vyhledávač s regulárními výrazy
Přispěvatel: Zopper 03. 12. 2014, 09:06:40
Tak to je jasné. To pak chceš Hlodač. Jen jsem soudruha z Lednice už nějakou dobu neviděl a neslyšel. Asi od té doby, co údajně sehnal nějaké peníze a pak měl ukázat výsledek. Nevíte někdo, jestli ho našli třeba někde zalitého do betonu? To by si nezasloužil... :-(