Fórum Root.cz

Ostatní => Odkladiště => Téma založeno: maw abi 12. 02. 2020, 20:49:02

Název: Sken všech veřejných domén
Přispěvatel: maw abi 12. 02. 2020, 20:49:02
Ahoj.
Řekněme že bych chtěl udělat něco jako google. Tzn. proskenovat všechny dostupné domény a částečně zindexovat jejich obsah...
Jak získám nějaký úvodní seznam všech veřejných domén kterými bych mohl začít?

Je mi jasné, že (velmi zjednodušeně)
a) můžu začít 0.0.0.0 a skončit 255.255.255.255. Tento postup ale u IPv6 není reálný, takže za pár let bude naprosto nepoužitelný.
b) Předpokládám že CZ.NIC žádný seznam veřejných domén neposkytuje, a náhodně generovat jedno jméno za druhým a testovat zda existuje či ne je samozřejmě taky blbost.

c) Najít si pár nejnavštěvovanějších stránek, skenovat jejich obsah a pokračovat na všechny možné odkazy které najdu je sice asi taky cesta, ale opět strašně krkolomná a nevedoucí k cíli.

Tušíte jak postupovat? Poskytují jednotlivé národní domény nějaké veřejné seznamy použitých domén? Nebo se to musí kupovat, nebo se nato jde jinak?

Díky za info.
Název: Re:scan všech veřejných domén
Přispěvatel: Filip Jirsák 12. 02. 2020, 21:00:34
Podle toho, co píšete, nechcete skenovat všechny dostupné domény, ale weby. 0.0.0.0 až 255.255.255.255 nejsou domény, ale IP adresy. Na jedné IP adrese může běžet web server, který hostuje stovky různých domén. Když jejich názvy neznáte, server vám je nemusí prozradit. CZ.NIC veřejný seznam domén neposkytuje. Ve výjimečných případech poskytuje seznam domén pro nějaké studijní nebo výzkumné účely, což váš projekt nesplňuje. Navíc seznam domén by vám opět byl k ničemu – z toho, že existuje root.cz, se nedozvíte, že existuje také forum.root.cz.

To, co jste popsal jako c), je přesně ta cesta, kterou používá Google i všichni ostatní. Prostě začnete nějakým seznamem stránek a následujete odkazy. Samozřejmě tak neobjevíte vše, ale ani Google nemá zaindexované ani zdaleka vše. Akorát nezačínejte nejnavštěvovanějšími stránkami (k těm bude patřit třeba domovská stránka Googlu, a tam moc odkazů neobjevíte), spíš začněte stránkami, které mají hodně externích odkazů – katalogy, Wikipedie, agregátory, média.
Název: Re:scan všech veřejných domén
Přispěvatel: cjohn 12. 02. 2020, 21:03:23
https://forum.root.cz/index.php?topic=11203.0
Název: Re:Sken všech veřejných domén
Přispěvatel: maw abi 12. 02. 2020, 21:54:28
Díky za odpověďi. Tajně jsem doufal že kamsi pisu dotaz který mi vrátí n webů seřazených od a do z.
Toto je opravdu nepěkný postup, ale tak nějak jsem to tušil :).

PS: Je to nějaké tajemství za které budu viset? Pokud takovýto seznam bez dalších podrobností dodám? Předpokládám že je to ok, tedy nikdo nemůže nic namítat. Samozřejmě že seznam nikde neukradnu, tzn zveřejním to, co se mi podaří posbírat.
Název: Re:Sken všech veřejných domén
Přispěvatel: alex6bbc 12. 02. 2020, 22:06:54
pokud by slo jen o cesky web, tak bych zkusil vzit seznam ceskych slov, serazenych podle delky
a zkousel zda dotaz na takovou domenu neco vrati. a pokud vrati tak v odpovedi prohledavat odkazy.

https://gpsfreemaps.net/navody/security/komplexni-cesky-a-slovensky-wordlist-ke-stazeni
Název: Re:Sken všech veřejných domén
Přispěvatel: maw abi 12. 02. 2020, 22:11:55
Hm... Zajímavý odkaz. Super. Díky.

pokud by slo jen o cesky web, tak bych zkusil vzit seznam ceskych slov, serazenych podle delky
a zkousel zda dotaz na takovou domenu neco vrati. a pokud vrati tak v odpovedi prohledavat odkazy.

https://gpsfreemaps.net/navody/security/komplexni-cesky-a-slovensky-wordlist-ke-stazeni
Název: Re:Sken všech veřejných domén
Přispěvatel: _Jenda 12. 02. 2020, 23:30:43
Ze zóny s DNSSEC se většinou dají dostat hashe domén a následně je můžeš crackovat offline, což bude nejspíš rychlejší (a nebude to štvát lidi kterým budeš přetěžovat DNS servery).

https://github.com/anonion0/nsec3map + hcstat, https://dnscurve.org/nsec3walker.html

A začít můžeš třeba s https://github.com/spaze/domains
Název: Re:Sken všech veřejných domén
Přispěvatel: DanProkop 13. 02. 2020, 01:40:04
Bohužel, než jsem odeslal rozsáhlý popis s odpovědí, vyexpirovala mi session. Vše ztraceno. Takže se zeptám stručně, chceš dělat něco jako google (veřejně dostupné věci, ke kterým vede hyperlink) nebo chceš sniffovat?

Chceš psát bakalářku nebo objevit jak věci fungují?
Název: Re:Sken všech veřejných domén
Přispěvatel: Ondřej Caletka 13. 02. 2020, 09:13:29
A začít můžeš třeba s https://github.com/spaze/domains
Certificate Transparency je dnes asi nejlepší zdroj. Každý rozumný web má dnes HTTPS.
Název: Re:Sken všech veřejných domén
Přispěvatel: maw abi 13. 02. 2020, 09:57:10
Balakářku nedělám, snifovat nechci. Chci opravdu zkusit udělat něco podobného jako dělá google, akorát trochu jinak. Chci otestovat s jakým výsledkem, jestli to bude vůbec použitelné.
Google je skvělý když hledám něco a pořádně "nevím co". Například co je to "exosféra". Když ale hledám "kominictví polanka", vypadnou z toho samé nesmysly. Nakonec se k tomu co potřebuju nějak prokoušu, ale z každých 100 odkazů je 95% odpad.
Takže chci zkusit znidexovat český web jinak a ověřit jestli je to použitelné nebo ne.

Bohužel, než jsem odeslal rozsáhlý popis s odpovědí, vyexpirovala mi session. Vše ztraceno. Takže se zeptám stručně, chceš dělat něco jako google (veřejně dostupné věci, ke kterým vede hyperlink) nebo chceš sniffovat?

Chceš psát bakalářku nebo objevit jak věci fungují?
Název: Re:Sken všech veřejných domén
Přispěvatel: maw abi 13. 02. 2020, 10:03:45
To taky není špatný nápad :-). Díky za tip.

A začít můžeš třeba s https://github.com/spaze/domains
Certificate Transparency je dnes asi nejlepší zdroj. Každý rozumný web má dnes HTTPS.
Název: Re:Sken všech veřejných domén
Přispěvatel: alex6bbc 13. 02. 2020, 10:45:36
chces udelat fakt uzitecny vyhledavac??!!

nastav si nejake dns servery pro svobodne domeny na https://www.opennic.org/

a udelej vyhledavac pro neoficialni domeny .bbs, .cyb, .null, .oz....................
Název: Re:Sken všech veřejných domén
Přispěvatel: Jen Kings 13. 02. 2020, 11:38:10
Jinak, jestli se chceš přidat do klubu lidí, co mají lepší vyhledávač než google, tak bych doporučoval navštívit https://hlodac.cz/
Název: Re:Sken všech veřejných domén
Přispěvatel: maw abi 13. 02. 2020, 12:28:06
Chtělo by to zmodernizovat GUI :-)

Jinak, jestli se chceš přidat do klubu lidí, co mají lepší vyhledávač než google, tak bych doporučoval navštívit https://hlodac.cz/
Název: Re:Sken všech veřejných domén
Přispěvatel: hugochavez . 13. 02. 2020, 14:04:09
Ahoj.
Řekněme že bych chtěl udělat něco jako google..

Myslim ze tenhle napad uz pred tebou nekdo dostal  :)

https://www.cnx-software.com/2014/01/17/yacy-p2p-non-tracking-search-engine-and-yacypi-linux-distribution-for-raspberry-pi/
Název: Re:Sken všech veřejných domén
Přispěvatel: SB 13. 02. 2020, 14:35:02
Ono je toho více https://en.wikipedia.org/wiki/Distributed_search_engine (https://en.wikipedia.org/wiki/Distributed_search_engine) , ale asi to chce tazatel zkusit sám. Spíš mám obavu, zda je možno problém daného rozsahu umlátit jedním počítačem odkudsi z domu.
Název: Re:Sken všech veřejných domén
Přispěvatel: BobTheBuilder 13. 02. 2020, 16:05:51
Chtělo by to zmodernizovat GUI :-)

Jinak, jestli se chceš přidat do klubu lidí, co mají lepší vyhledávač než google, tak bych doporučoval navštívit https://hlodac.cz/
Já bych teda začal modernizací data, asi tak tak o 2400 dní, mají tam 19.7.2013. To je asi den, kdy projekt uhynul.
Název: Re:Sken všech veřejných domén
Přispěvatel: Jen Kings 13. 02. 2020, 16:53:00
@BobTheBuilder

No, původně to byl spíš vtip, jen jsem myslel, že o tomto ikonickém webu ví daleko víc lidí.

Jinak tedy abych to uvedl na pravou míru, vytvořil to člověk, který tvrdil, že má nápad na vyhledávač, který bude, tuším, o 20% efektivnější než google. Jeho nejvyšším úspěchem bylo, že jeho převratný vyhledávač našel asi 30 výsledků, ale pouze na jeden konkrétní dotaz na který byl připravený, a to slovo "Lednice". S tímto převratným nápadem vystupoval v pořadu "Den D", kde chtěl investici milion korun na to aby si koupil server a najal programátora, protože "jemu už se to programovat nechtělo". Jeho představa byla, že tuto převratnou myšlenku prodá za minimálně 1 miliardu korun Microsoftu, nebo Googlu
Název: Re:Sken všech veřejných domén
Přispěvatel: LarryLin 13. 02. 2020, 17:58:34
vystupoval v pořadu "Den D"
To si matně pamatuju, dokonce jsem si během této diskuze na to vzpomněl, ale nevěděl jsem, že výsledkem je zrovna tento web. Jestli se nemýlím, tak tu investici nezískal a utkvělo mi v hlavě jak ten žadatel o investici říkal: "...no a když to nevyjde, tak přijdeme o peníze." a myslím, že Tomio mu do toho skočil a řekl "Né vy, to my přijdeme o peníze".  :)
Název: Re:Sken všech veřejných domén
Přispěvatel: McFly 13. 02. 2020, 18:28:06
Kde je panu Hejlovi konec. Pamatuju na ty úžasné diskuse na Lupě. Škoda, že Lupa zrušila diskusní fórum. Za ty roky tam vznikly perly českého Internetu, viz Hlodač ("jiné objekty" included), bubocloud atd.
Název: Re:Sken všech veřejných domén
Přispěvatel: mhi 14. 02. 2020, 22:23:22
Existuje nejaky web crawler, jehoz vystup (nejake indexy - linky, slova, stranky) se da stahnout ve forme nejakeho obrovskeho souboru.  Bohuzel si nepamatuji jmeno, ale na wiki/apod to urcite pujde dohledat. Prisel jsem na nej tak, ze nam zpusoboval nejake potize na serveru, doloval data moc rychle.

Na rovinu - myslim si o takovych pokusech sve, ale mozna by stazeni toho indexu tazateli ukazalo s jakym mnozstvim dat se hodla zabyvat.
Název: Re:Sken všech veřejných domén
Přispěvatel: alex6bbc 14. 02. 2020, 22:27:49
kolem toho ukladani a indexace takovych dat je veda jako prase, proto vzinkly big data.
takze podle me nic lehkeho jednoducheho asi moc nebude.
Název: Re:Sken všech veřejných domén
Přispěvatel: Jojo Kuko 14. 02. 2020, 23:53:14
a co takhle všetko crawlovat do elasticsearch clastru?
Název: Re:Sken všech veřejných domén
Přispěvatel: misemot287 15. 02. 2020, 00:30:40
https://github.com/vavkamil/S-rankCheck
Název: Re:Sken všech veřejných domén
Přispěvatel: nobody65534 15. 02. 2020, 06:41:09
Tady se dají stahnout nějaké datasety:

https://opendata.rapid7.com/sonar.fdns_v2/
Název: Re:Sken všech veřejných domén
Přispěvatel: Filip Jirsák 15. 02. 2020, 09:06:27
a co takhle všetko crawlovat do elasticsearch clastru?
Akorát to bude chtít bohatého strýčka multimilionáře, který to zaplatí.
Název: Re:Sken všech veřejných domén
Přispěvatel: Michal Hmmm 16. 02. 2020, 09:50:24
Zde máte ke stažení cca 1,4 mil adres českých webů (převážně funkčních  ;)).

https://www.edisk.cz/stahni/58568/nove_weby_cz.csv_124.98MB.html/

Pouze pro nekomerční použití, v případě zájmu o komerční využití či kompletnějšího seznamu mě kontaktujte.
Název: Re:Sken všech veřejných domén
Přispěvatel: Vít Šesták (v6ak) 17. 02. 2020, 08:09:49
No, myslím, že OP má už dostatek záznamů na to, aby to nestíhal zpracovat. Zmíněné certificate transparency bude obsahovat všechny bezpečnost dobře funkční* weby na HTTPS. Vzhledem k tomu, že asi přes 3/4 provozu jde přes HTTPS, bude to asi významná část webu. Ano, přes 3/4 provozu není nutně přes 3/4 webů, ale otázka je, jak moc Vás zajímají stránky, kam prakticky nikdo nechodí.

Pokud chcete experimentovat s nějakým vyhledávacím algoritmem, máte nyní IMHO dost dat na to, abyste to bez větších investic do infrastruktury nezvládal zpracovat (doba indexování, velikost úložiště, datový tok, …). Můžete se k tomu postavit:

a) zaindexuju, co zaindexuju, pro experiment to bude stačit
b) omezit scope, například pouze na české stránky nebo na weby na doméně cz (i to je docela dost)

Upřímně si nemyslím, že byste byl schopen vymyslet lepší algoritmus, než jaký má celý Google. Neberte mě špatně, ale když si vezmete, kolik lidí na tom v celém Googlu pracuje, je to dost nepravděpodobné. I tak taková věc může mít smysl:

a) Na nějaké dost omezené skupině webů by se to s dobrým nápadem podařit mohlo. Pak bych ale vzal do úvahy tu skupinu webů již na začátku, tedy pří sbírání seznamu webů k zaindexování.
b) Může to být cvičení, při kterém se něco naučíte.

*) tím nemyslím weby s neplatným certifikátem