Fórum Root.cz
Ostatní => Odkladiště => Téma založeno: maw abi 12. 02. 2020, 20:49:02
-
Ahoj.
Řekněme že bych chtěl udělat něco jako google. Tzn. proskenovat všechny dostupné domény a částečně zindexovat jejich obsah...
Jak získám nějaký úvodní seznam všech veřejných domén kterými bych mohl začít?
Je mi jasné, že (velmi zjednodušeně)
a) můžu začít 0.0.0.0 a skončit 255.255.255.255. Tento postup ale u IPv6 není reálný, takže za pár let bude naprosto nepoužitelný.
b) Předpokládám že CZ.NIC žádný seznam veřejných domén neposkytuje, a náhodně generovat jedno jméno za druhým a testovat zda existuje či ne je samozřejmě taky blbost.
c) Najít si pár nejnavštěvovanějších stránek, skenovat jejich obsah a pokračovat na všechny možné odkazy které najdu je sice asi taky cesta, ale opět strašně krkolomná a nevedoucí k cíli.
Tušíte jak postupovat? Poskytují jednotlivé národní domény nějaké veřejné seznamy použitých domén? Nebo se to musí kupovat, nebo se nato jde jinak?
Díky za info.
-
Podle toho, co píšete, nechcete skenovat všechny dostupné domény, ale weby. 0.0.0.0 až 255.255.255.255 nejsou domény, ale IP adresy. Na jedné IP adrese může běžet web server, který hostuje stovky různých domén. Když jejich názvy neznáte, server vám je nemusí prozradit. CZ.NIC veřejný seznam domén neposkytuje. Ve výjimečných případech poskytuje seznam domén pro nějaké studijní nebo výzkumné účely, což váš projekt nesplňuje. Navíc seznam domén by vám opět byl k ničemu – z toho, že existuje root.cz, se nedozvíte, že existuje také forum.root.cz.
To, co jste popsal jako c), je přesně ta cesta, kterou používá Google i všichni ostatní. Prostě začnete nějakým seznamem stránek a následujete odkazy. Samozřejmě tak neobjevíte vše, ale ani Google nemá zaindexované ani zdaleka vše. Akorát nezačínejte nejnavštěvovanějšími stránkami (k těm bude patřit třeba domovská stránka Googlu, a tam moc odkazů neobjevíte), spíš začněte stránkami, které mají hodně externích odkazů – katalogy, Wikipedie, agregátory, média.
-
https://forum.root.cz/index.php?topic=11203.0
-
Díky za odpověďi. Tajně jsem doufal že kamsi pisu dotaz který mi vrátí n webů seřazených od a do z.
Toto je opravdu nepěkný postup, ale tak nějak jsem to tušil :).
PS: Je to nějaké tajemství za které budu viset? Pokud takovýto seznam bez dalších podrobností dodám? Předpokládám že je to ok, tedy nikdo nemůže nic namítat. Samozřejmě že seznam nikde neukradnu, tzn zveřejním to, co se mi podaří posbírat.
-
pokud by slo jen o cesky web, tak bych zkusil vzit seznam ceskych slov, serazenych podle delky
a zkousel zda dotaz na takovou domenu neco vrati. a pokud vrati tak v odpovedi prohledavat odkazy.
https://gpsfreemaps.net/navody/security/komplexni-cesky-a-slovensky-wordlist-ke-stazeni
-
Hm... Zajímavý odkaz. Super. Díky.
pokud by slo jen o cesky web, tak bych zkusil vzit seznam ceskych slov, serazenych podle delky
a zkousel zda dotaz na takovou domenu neco vrati. a pokud vrati tak v odpovedi prohledavat odkazy.
https://gpsfreemaps.net/navody/security/komplexni-cesky-a-slovensky-wordlist-ke-stazeni
-
Ze zóny s DNSSEC se většinou dají dostat hashe domén a následně je můžeš crackovat offline, což bude nejspíš rychlejší (a nebude to štvát lidi kterým budeš přetěžovat DNS servery).
https://github.com/anonion0/nsec3map + hcstat, https://dnscurve.org/nsec3walker.html
A začít můžeš třeba s https://github.com/spaze/domains
-
Bohužel, než jsem odeslal rozsáhlý popis s odpovědí, vyexpirovala mi session. Vše ztraceno. Takže se zeptám stručně, chceš dělat něco jako google (veřejně dostupné věci, ke kterým vede hyperlink) nebo chceš sniffovat?
Chceš psát bakalářku nebo objevit jak věci fungují?
-
A začít můžeš třeba s https://github.com/spaze/domains
Certificate Transparency je dnes asi nejlepší zdroj. Každý rozumný web má dnes HTTPS.
-
Balakářku nedělám, snifovat nechci. Chci opravdu zkusit udělat něco podobného jako dělá google, akorát trochu jinak. Chci otestovat s jakým výsledkem, jestli to bude vůbec použitelné.
Google je skvělý když hledám něco a pořádně "nevím co". Například co je to "exosféra". Když ale hledám "kominictví polanka", vypadnou z toho samé nesmysly. Nakonec se k tomu co potřebuju nějak prokoušu, ale z každých 100 odkazů je 95% odpad.
Takže chci zkusit znidexovat český web jinak a ověřit jestli je to použitelné nebo ne.
Bohužel, než jsem odeslal rozsáhlý popis s odpovědí, vyexpirovala mi session. Vše ztraceno. Takže se zeptám stručně, chceš dělat něco jako google (veřejně dostupné věci, ke kterým vede hyperlink) nebo chceš sniffovat?
Chceš psát bakalářku nebo objevit jak věci fungují?
-
To taky není špatný nápad :-). Díky za tip.
A začít můžeš třeba s https://github.com/spaze/domains
Certificate Transparency je dnes asi nejlepší zdroj. Každý rozumný web má dnes HTTPS.
-
chces udelat fakt uzitecny vyhledavac??!!
nastav si nejake dns servery pro svobodne domeny na https://www.opennic.org/
a udelej vyhledavac pro neoficialni domeny .bbs, .cyb, .null, .oz....................
-
Jinak, jestli se chceš přidat do klubu lidí, co mají lepší vyhledávač než google, tak bych doporučoval navštívit https://hlodac.cz/
-
Chtělo by to zmodernizovat GUI :-)
Jinak, jestli se chceš přidat do klubu lidí, co mají lepší vyhledávač než google, tak bych doporučoval navštívit https://hlodac.cz/
-
Ahoj.
Řekněme že bych chtěl udělat něco jako google..
Myslim ze tenhle napad uz pred tebou nekdo dostal :)
https://www.cnx-software.com/2014/01/17/yacy-p2p-non-tracking-search-engine-and-yacypi-linux-distribution-for-raspberry-pi/
-
Ono je toho více https://en.wikipedia.org/wiki/Distributed_search_engine (https://en.wikipedia.org/wiki/Distributed_search_engine) , ale asi to chce tazatel zkusit sám. Spíš mám obavu, zda je možno problém daného rozsahu umlátit jedním počítačem odkudsi z domu.
-
Chtělo by to zmodernizovat GUI :-)
Jinak, jestli se chceš přidat do klubu lidí, co mají lepší vyhledávač než google, tak bych doporučoval navštívit https://hlodac.cz/
Já bych teda začal modernizací data, asi tak tak o 2400 dní, mají tam 19.7.2013. To je asi den, kdy projekt uhynul.
-
@BobTheBuilder
No, původně to byl spíš vtip, jen jsem myslel, že o tomto ikonickém webu ví daleko víc lidí.
Jinak tedy abych to uvedl na pravou míru, vytvořil to člověk, který tvrdil, že má nápad na vyhledávač, který bude, tuším, o 20% efektivnější než google. Jeho nejvyšším úspěchem bylo, že jeho převratný vyhledávač našel asi 30 výsledků, ale pouze na jeden konkrétní dotaz na který byl připravený, a to slovo "Lednice". S tímto převratným nápadem vystupoval v pořadu "Den D", kde chtěl investici milion korun na to aby si koupil server a najal programátora, protože "jemu už se to programovat nechtělo". Jeho představa byla, že tuto převratnou myšlenku prodá za minimálně 1 miliardu korun Microsoftu, nebo Googlu
-
vystupoval v pořadu "Den D"
To si matně pamatuju, dokonce jsem si během této diskuze na to vzpomněl, ale nevěděl jsem, že výsledkem je zrovna tento web. Jestli se nemýlím, tak tu investici nezískal a utkvělo mi v hlavě jak ten žadatel o investici říkal: "...no a když to nevyjde, tak přijdeme o peníze." a myslím, že Tomio mu do toho skočil a řekl "Né vy, to my přijdeme o peníze". :)
-
Kde je panu Hejlovi konec. Pamatuju na ty úžasné diskuse na Lupě. Škoda, že Lupa zrušila diskusní fórum. Za ty roky tam vznikly perly českého Internetu, viz Hlodač ("jiné objekty" included), bubocloud atd.
-
Existuje nejaky web crawler, jehoz vystup (nejake indexy - linky, slova, stranky) se da stahnout ve forme nejakeho obrovskeho souboru. Bohuzel si nepamatuji jmeno, ale na wiki/apod to urcite pujde dohledat. Prisel jsem na nej tak, ze nam zpusoboval nejake potize na serveru, doloval data moc rychle.
Na rovinu - myslim si o takovych pokusech sve, ale mozna by stazeni toho indexu tazateli ukazalo s jakym mnozstvim dat se hodla zabyvat.
-
kolem toho ukladani a indexace takovych dat je veda jako prase, proto vzinkly big data.
takze podle me nic lehkeho jednoducheho asi moc nebude.
-
a co takhle všetko crawlovat do elasticsearch clastru?
-
https://github.com/vavkamil/S-rankCheck
-
Tady se dají stahnout nějaké datasety:
https://opendata.rapid7.com/sonar.fdns_v2/
-
a co takhle všetko crawlovat do elasticsearch clastru?
Akorát to bude chtít bohatého strýčka multimilionáře, který to zaplatí.
-
Zde máte ke stažení cca 1,4 mil adres českých webů (převážně funkčních ;)).
https://www.edisk.cz/stahni/58568/nove_weby_cz.csv_124.98MB.html/
Pouze pro nekomerční použití, v případě zájmu o komerční využití či kompletnějšího seznamu mě kontaktujte.
-
No, myslím, že OP má už dostatek záznamů na to, aby to nestíhal zpracovat. Zmíněné certificate transparency bude obsahovat všechny bezpečnost dobře funkční* weby na HTTPS. Vzhledem k tomu, že asi přes 3/4 provozu jde přes HTTPS, bude to asi významná část webu. Ano, přes 3/4 provozu není nutně přes 3/4 webů, ale otázka je, jak moc Vás zajímají stránky, kam prakticky nikdo nechodí.
Pokud chcete experimentovat s nějakým vyhledávacím algoritmem, máte nyní IMHO dost dat na to, abyste to bez větších investic do infrastruktury nezvládal zpracovat (doba indexování, velikost úložiště, datový tok, …). Můžete se k tomu postavit:
a) zaindexuju, co zaindexuju, pro experiment to bude stačit
b) omezit scope, například pouze na české stránky nebo na weby na doméně cz (i to je docela dost)
Upřímně si nemyslím, že byste byl schopen vymyslet lepší algoritmus, než jaký má celý Google. Neberte mě špatně, ale když si vezmete, kolik lidí na tom v celém Googlu pracuje, je to dost nepravděpodobné. I tak taková věc může mít smysl:
a) Na nějaké dost omezené skupině webů by se to s dobrým nápadem podařit mohlo. Pak bych ale vzal do úvahy tu skupinu webů již na začátku, tedy pří sbírání seznamu webů k zaindexování.
b) Může to být cvičení, při kterém se něco naučíte.
*) tím nemyslím weby s neplatným certifikátem