Sken všech veřejných domén

Sken všech veřejných domén
« kdy: 12. 02. 2020, 20:49:02 »
Ahoj.
Řekněme že bych chtěl udělat něco jako google. Tzn. proskenovat všechny dostupné domény a částečně zindexovat jejich obsah...
Jak získám nějaký úvodní seznam všech veřejných domén kterými bych mohl začít?

Je mi jasné, že (velmi zjednodušeně)
a) můžu začít 0.0.0.0 a skončit 255.255.255.255. Tento postup ale u IPv6 není reálný, takže za pár let bude naprosto nepoužitelný.
b) Předpokládám že CZ.NIC žádný seznam veřejných domén neposkytuje, a náhodně generovat jedno jméno za druhým a testovat zda existuje či ne je samozřejmě taky blbost.

c) Najít si pár nejnavštěvovanějších stránek, skenovat jejich obsah a pokračovat na všechny možné odkazy které najdu je sice asi taky cesta, ale opět strašně krkolomná a nevedoucí k cíli.

Tušíte jak postupovat? Poskytují jednotlivé národní domény nějaké veřejné seznamy použitých domén? Nebo se to musí kupovat, nebo se nato jde jinak?

Díky za info.
« Poslední změna: 12. 02. 2020, 21:43:28 od Petr Krčmář »


Re:scan všech veřejných domén
« Odpověď #1 kdy: 12. 02. 2020, 21:00:34 »
Podle toho, co píšete, nechcete skenovat všechny dostupné domény, ale weby. 0.0.0.0 až 255.255.255.255 nejsou domény, ale IP adresy. Na jedné IP adrese může běžet web server, který hostuje stovky různých domén. Když jejich názvy neznáte, server vám je nemusí prozradit. CZ.NIC veřejný seznam domén neposkytuje. Ve výjimečných případech poskytuje seznam domén pro nějaké studijní nebo výzkumné účely, což váš projekt nesplňuje. Navíc seznam domén by vám opět byl k ničemu – z toho, že existuje root.cz, se nedozvíte, že existuje také forum.root.cz.

To, co jste popsal jako c), je přesně ta cesta, kterou používá Google i všichni ostatní. Prostě začnete nějakým seznamem stránek a následujete odkazy. Samozřejmě tak neobjevíte vše, ale ani Google nemá zaindexované ani zdaleka vše. Akorát nezačínejte nejnavštěvovanějšími stránkami (k těm bude patřit třeba domovská stránka Googlu, a tam moc odkazů neobjevíte), spíš začněte stránkami, které mají hodně externích odkazů – katalogy, Wikipedie, agregátory, média.


Re:Sken všech veřejných domén
« Odpověď #3 kdy: 12. 02. 2020, 21:54:28 »
Díky za odpověďi. Tajně jsem doufal že kamsi pisu dotaz který mi vrátí n webů seřazených od a do z.
Toto je opravdu nepěkný postup, ale tak nějak jsem to tušil :).

PS: Je to nějaké tajemství za které budu viset? Pokud takovýto seznam bez dalších podrobností dodám? Předpokládám že je to ok, tedy nikdo nemůže nic namítat. Samozřejmě že seznam nikde neukradnu, tzn zveřejním to, co se mi podaří posbírat.

alex6bbc

  • *****
  • 1 432
    • Zobrazit profil
    • E-mail
Re:Sken všech veřejných domén
« Odpověď #4 kdy: 12. 02. 2020, 22:06:54 »
pokud by slo jen o cesky web, tak bych zkusil vzit seznam ceskych slov, serazenych podle delky
a zkousel zda dotaz na takovou domenu neco vrati. a pokud vrati tak v odpovedi prohledavat odkazy.

https://gpsfreemaps.net/navody/security/komplexni-cesky-a-slovensky-wordlist-ke-stazeni


Re:Sken všech veřejných domén
« Odpověď #5 kdy: 12. 02. 2020, 22:11:55 »
Hm... Zajímavý odkaz. Super. Díky.

pokud by slo jen o cesky web, tak bych zkusil vzit seznam ceskych slov, serazenych podle delky
a zkousel zda dotaz na takovou domenu neco vrati. a pokud vrati tak v odpovedi prohledavat odkazy.

https://gpsfreemaps.net/navody/security/komplexni-cesky-a-slovensky-wordlist-ke-stazeni

_Jenda

  • *****
  • 1 550
    • Zobrazit profil
    • https://jenda.hrach.eu/
    • E-mail
Re:Sken všech veřejných domén
« Odpověď #6 kdy: 12. 02. 2020, 23:30:43 »
Ze zóny s DNSSEC se většinou dají dostat hashe domén a následně je můžeš crackovat offline, což bude nejspíš rychlejší (a nebude to štvát lidi kterým budeš přetěžovat DNS servery).

https://github.com/anonion0/nsec3map + hcstat, https://dnscurve.org/nsec3walker.html

A začít můžeš třeba s https://github.com/spaze/domains

Re:Sken všech veřejných domén
« Odpověď #7 kdy: 13. 02. 2020, 01:40:04 »
Bohužel, než jsem odeslal rozsáhlý popis s odpovědí, vyexpirovala mi session. Vše ztraceno. Takže se zeptám stručně, chceš dělat něco jako google (veřejně dostupné věci, ke kterým vede hyperlink) nebo chceš sniffovat?

Chceš psát bakalářku nebo objevit jak věci fungují?

Re:Sken všech veřejných domén
« Odpověď #8 kdy: 13. 02. 2020, 09:13:29 »
A začít můžeš třeba s https://github.com/spaze/domains
Certificate Transparency je dnes asi nejlepší zdroj. Každý rozumný web má dnes HTTPS.

Re:Sken všech veřejných domén
« Odpověď #9 kdy: 13. 02. 2020, 09:57:10 »
Balakářku nedělám, snifovat nechci. Chci opravdu zkusit udělat něco podobného jako dělá google, akorát trochu jinak. Chci otestovat s jakým výsledkem, jestli to bude vůbec použitelné.
Google je skvělý když hledám něco a pořádně "nevím co". Například co je to "exosféra". Když ale hledám "kominictví polanka", vypadnou z toho samé nesmysly. Nakonec se k tomu co potřebuju nějak prokoušu, ale z každých 100 odkazů je 95% odpad.
Takže chci zkusit znidexovat český web jinak a ověřit jestli je to použitelné nebo ne.

Bohužel, než jsem odeslal rozsáhlý popis s odpovědí, vyexpirovala mi session. Vše ztraceno. Takže se zeptám stručně, chceš dělat něco jako google (veřejně dostupné věci, ke kterým vede hyperlink) nebo chceš sniffovat?

Chceš psát bakalářku nebo objevit jak věci fungují?

Re:Sken všech veřejných domén
« Odpověď #10 kdy: 13. 02. 2020, 10:03:45 »
To taky není špatný nápad :-). Díky za tip.

A začít můžeš třeba s https://github.com/spaze/domains
Certificate Transparency je dnes asi nejlepší zdroj. Každý rozumný web má dnes HTTPS.

alex6bbc

  • *****
  • 1 432
    • Zobrazit profil
    • E-mail
Re:Sken všech veřejných domén
« Odpověď #11 kdy: 13. 02. 2020, 10:45:36 »
chces udelat fakt uzitecny vyhledavac??!!

nastav si nejake dns servery pro svobodne domeny na https://www.opennic.org/

a udelej vyhledavac pro neoficialni domeny .bbs, .cyb, .null, .oz....................

Jen Kings

  • **
  • 50
  • Hryprodva.cz
    • Zobrazit profil
    • Hry Pro Dva
    • E-mail
Re:Sken všech veřejných domén
« Odpověď #12 kdy: 13. 02. 2020, 11:38:10 »
Jinak, jestli se chceš přidat do klubu lidí, co mají lepší vyhledávač než google, tak bych doporučoval navštívit https://hlodac.cz/

Re:Sken všech veřejných domén
« Odpověď #13 kdy: 13. 02. 2020, 12:28:06 »
Chtělo by to zmodernizovat GUI :-)

Jinak, jestli se chceš přidat do klubu lidí, co mají lepší vyhledávač než google, tak bych doporučoval navštívit https://hlodac.cz/

Re:Sken všech veřejných domén
« Odpověď #14 kdy: 13. 02. 2020, 14:04:09 »
Ahoj.
Řekněme že bych chtěl udělat něco jako google..

Myslim ze tenhle napad uz pred tebou nekdo dostal  :)

https://www.cnx-software.com/2014/01/17/yacy-p2p-non-tracking-search-engine-and-yacypi-linux-distribution-for-raspberry-pi/