reklama

Sken všech veřejných domén

SB

Re:Sken všech veřejných domén
« Odpověď #15 kdy: 13. 02. 2020, 14:35:02 »
Ono je toho více https://en.wikipedia.org/wiki/Distributed_search_engine , ale asi to chce tazatel zkusit sám. Spíš mám obavu, zda je možno problém daného rozsahu umlátit jedním počítačem odkudsi z domu.

reklama


Re:Sken všech veřejných domén
« Odpověď #16 kdy: 13. 02. 2020, 16:05:51 »
Chtělo by to zmodernizovat GUI :-)

Jinak, jestli se chceš přidat do klubu lidí, co mají lepší vyhledávač než google, tak bych doporučoval navštívit https://hlodac.cz/
Já bych teda začal modernizací data, asi tak tak o 2400 dní, mají tam 19.7.2013. To je asi den, kdy projekt uhynul.

Re:Sken všech veřejných domén
« Odpověď #17 kdy: 13. 02. 2020, 16:53:00 »
@BobTheBuilder

No, původně to byl spíš vtip, jen jsem myslel, že o tomto ikonickém webu ví daleko víc lidí.

Jinak tedy abych to uvedl na pravou míru, vytvořil to člověk, který tvrdil, že má nápad na vyhledávač, který bude, tuším, o 20% efektivnější než google. Jeho nejvyšším úspěchem bylo, že jeho převratný vyhledávač našel asi 30 výsledků, ale pouze na jeden konkrétní dotaz na který byl připravený, a to slovo "Lednice". S tímto převratným nápadem vystupoval v pořadu "Den D", kde chtěl investici milion korun na to aby si koupil server a najal programátora, protože "jemu už se to programovat nechtělo". Jeho představa byla, že tuto převratnou myšlenku prodá za minimálně 1 miliardu korun Microsoftu, nebo Googlu

Re:Sken všech veřejných domén
« Odpověď #18 kdy: 13. 02. 2020, 17:58:34 »
vystupoval v pořadu "Den D"
To si matně pamatuju, dokonce jsem si během této diskuze na to vzpomněl, ale nevěděl jsem, že výsledkem je zrovna tento web. Jestli se nemýlím, tak tu investici nezískal a utkvělo mi v hlavě jak ten žadatel o investici říkal: "...no a když to nevyjde, tak přijdeme o peníze." a myslím, že Tomio mu do toho skočil a řekl "Né vy, to my přijdeme o peníze".  :)
« Poslední změna: 13. 02. 2020, 18:01:58 od LarryLin »

McFly

  • ****
  • 352
    • Zobrazit profil
    • E-mail
Re:Sken všech veřejných domén
« Odpověď #19 kdy: 13. 02. 2020, 18:28:06 »
Kde je panu Hejlovi konec. Pamatuju na ty úžasné diskuse na Lupě. Škoda, že Lupa zrušila diskusní fórum. Za ty roky tam vznikly perly českého Internetu, viz Hlodač ("jiné objekty" included), bubocloud atd.

reklama


mhi

  • ***
  • 117
    • Zobrazit profil
Re:Sken všech veřejných domén
« Odpověď #20 kdy: 14. 02. 2020, 22:23:22 »
Existuje nejaky web crawler, jehoz vystup (nejake indexy - linky, slova, stranky) se da stahnout ve forme nejakeho obrovskeho souboru.  Bohuzel si nepamatuji jmeno, ale na wiki/apod to urcite pujde dohledat. Prisel jsem na nej tak, ze nam zpusoboval nejake potize na serveru, doloval data moc rychle.

Na rovinu - myslim si o takovych pokusech sve, ale mozna by stazeni toho indexu tazateli ukazalo s jakym mnozstvim dat se hodla zabyvat.

Re:Sken všech veřejných domén
« Odpověď #21 kdy: 14. 02. 2020, 22:27:49 »
kolem toho ukladani a indexace takovych dat je veda jako prase, proto vzinkly big data.
takze podle me nic lehkeho jednoducheho asi moc nebude.

Re:Sken všech veřejných domén
« Odpověď #22 kdy: 14. 02. 2020, 23:53:14 »
a co takhle všetko crawlovat do elasticsearch clastru?

Re:Sken všech veřejných domén
« Odpověď #23 kdy: 15. 02. 2020, 00:30:40 »

Re:Sken všech veřejných domén
« Odpověď #24 kdy: 15. 02. 2020, 06:41:09 »
Tady se dají stahnout nějaké datasety:

https://opendata.rapid7.com/sonar.fdns_v2/

Re:Sken všech veřejných domén
« Odpověď #25 kdy: 15. 02. 2020, 09:06:27 »
a co takhle všetko crawlovat do elasticsearch clastru?
Akorát to bude chtít bohatého strýčka multimilionáře, který to zaplatí.

Re:Sken všech veřejných domén
« Odpověď #26 kdy: 16. 02. 2020, 09:50:24 »
Zde máte ke stažení cca 1,4 mil adres českých webů (převážně funkčních  ;)).

https://www.edisk.cz/stahni/58568/nove_weby_cz.csv_124.98MB.html/

Pouze pro nekomerční použití, v případě zájmu o komerční využití či kompletnějšího seznamu mě kontaktujte.

Re:Sken všech veřejných domén
« Odpověď #27 kdy: 17. 02. 2020, 08:09:49 »
No, myslím, že OP má už dostatek záznamů na to, aby to nestíhal zpracovat. Zmíněné certificate transparency bude obsahovat všechny bezpečnost dobře funkční* weby na HTTPS. Vzhledem k tomu, že asi přes 3/4 provozu jde přes HTTPS, bude to asi významná část webu. Ano, přes 3/4 provozu není nutně přes 3/4 webů, ale otázka je, jak moc Vás zajímají stránky, kam prakticky nikdo nechodí.

Pokud chcete experimentovat s nějakým vyhledávacím algoritmem, máte nyní IMHO dost dat na to, abyste to bez větších investic do infrastruktury nezvládal zpracovat (doba indexování, velikost úložiště, datový tok, …). Můžete se k tomu postavit:

a) zaindexuju, co zaindexuju, pro experiment to bude stačit
b) omezit scope, například pouze na české stránky nebo na weby na doméně cz (i to je docela dost)

Upřímně si nemyslím, že byste byl schopen vymyslet lepší algoritmus, než jaký má celý Google. Neberte mě špatně, ale když si vezmete, kolik lidí na tom v celém Googlu pracuje, je to dost nepravděpodobné. I tak taková věc může mít smysl:

a) Na nějaké dost omezené skupině webů by se to s dobrým nápadem podařit mohlo. Pak bych ale vzal do úvahy tu skupinu webů již na začátku, tedy pří sbírání seznamu webů k zaindexování.
b) Může to být cvičení, při kterém se něco naučíte.

*) tím nemyslím weby s neplatným certifikátem

 

reklama