Fórum Root.cz

Ostatní => Odkladiště => Téma založeno: Michal Hmmm 29. 04. 2014, 11:27:46

Název: Může komunita zaindexovat celý internet?
Přispěvatel: Michal Hmmm 29. 04. 2014, 11:27:46: Trošku bulvární předmět, ale z nějaké osobní zvědavosti či zvídavosti. Hledal jsem volně dostupnou databázi/informaci o počtu webových stránek či nějaký seznam webových míst. Internetové katalogy i ty největší jsou zoufale neúplné, vyhledávače své databáze nezveřejňují….

Jako blázen a snílek jsem začal podobnou databázi jako experiment sestavovat sám, ale pro jednotlivce je podobné snažení řekl bych Sysifofská práce.

Jak složité by asi bylo zorganizovat projekt, kdy dobrovolníci procházeli web a výsledky ukládali do společné databáze? Po technické stránce by to asi až takový problém být neměl. Ale sociologické hledisko mi vrtá hlavou. Najdou se lidé, kteří se takového projektu budou chtít zúčastnit?

Má databáze se nyní téměř 600 000 záznamů, ale nárůst je již relativně pomalý, pokud by se zde vyskytl někdo, kdo by se chtěl zapojit do procházení webu již nyní může mě kontaktovat, odměnou by mu byl seznam aktivních domén 3. řádu (případně i vyfiltrovaný seznam domén 2. řádu)
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Sten 29. 04. 2014, 12:00:56: Nechápu, proč to mají dělat nějací dobrovolníci. Roboti tohle dokážou mnohem efektivněji a přesněji.
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Franta <xkucf03/> 29. 04. 2014, 12:03:57: Existují různé wiki a portály zaměřené na určitou oblast, které shromažďují i odkazy – tam občas najdeš zajímavé věci, které by v obecném vyhledávači typu Googlu byly až na několikáté stránce (jestli vůbec).

Ale dělat univerzální katalog je asi blbost – nedokážeš posoudit, co je zajímavé a co už ne, bude se ti tam cpát spousta SEO spamu… Fulltext + sémantický web je lepší cesta.

Koukni na decentralizovaný vyhledávač YaCy (http://www.yacy.net/)
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Filip Jirsák 29. 04. 2014, 12:13:26: Co by vůbec mělo být výsledkem té práce? Seznam domén? Seznam domén druhé úrovně? Seznam webových adres? Seznam webových adres s nějakým komentářem?
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Makovec 29. 04. 2014, 12:20:25: Zaindexovat nevím, ale ohlodat určitě...
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Michal Hmmm 29. 04. 2014, 12:20:56: Citace: Sten 29. 04. 2014, 12:00:56
Nechápu, proč to mají dělat nějací dobrovolníci. Roboti tohle dokážou mnohem efektivněji a přesněji.

Protože ten robot musí běžet na nějaké stroji, a ten musí někdo koupit a provozovat. Spustí-li někdo na svém běžném PC tak se náklady mohou rozložit a potřebný výpočetní výkon mohou rozložit na více strojů účastníků. Nehledě na to, že takováto PC jsou často předimenzována a nevyužita.
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Miramel 29. 04. 2014, 12:27:08: Ahoj,

pošli e-mail, kam se ti dá psát, podobný projekt startuji v létě.

Dík :-)
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Michal Hmmm 29. 04. 2014, 12:30:56: Citace: Filip Jirsák 29. 04. 2014, 12:13:26
Co by vůbec mělo být výsledkem té práce? Seznam domén? Seznam domén druhé úrovně? Seznam webových adres? Seznam webových adres s nějakým komentářem?

Tak předpokládám, že seznam domén 2. úrovně by se dal jednodušeji získat od registrátorů. V současnosti jsem to pojal spíše jako seznam aktivních webů. Pro mě osobně je to něco jako základní výzkum.
Pokud by se měl projekt rozjet, tak v první fázi by to bylo dobré tak maximálně pro studijní nebo statistické účely. Študáků do diplomek, nebo nějakým sociologům ...
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Michal Hmmm 29. 04. 2014, 12:32:39: Citace: Miramel 29. 04. 2014, 12:27:08
Ahoj,

pošli e-mail, kam se ti dá psát, podobný projekt startuji v létě.

Dík :-)

Použít můžete email ze zdejšího profilu. (http://forum.root.cz/index.php?action=profile;u=2630)
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Michal Hmmm 29. 04. 2014, 12:43:55: Citace: Franta <xkucf03/> 29. 04. 2014, 12:03:57
Ale dělat univerzální katalog je asi blbost – nedokážeš posoudit, co je zajímavé a co už ne, bude se ti tam cpát spousta SEO spamu… Fulltext + sémantický web je lepší cesta.

Koukni na decentralizovaný vyhledávač YaCy (http://www.yacy.net/)

Nemíním dělat katalog nebo vyhledávač jako takový. Výstupem by měla být spíše databáze/soubor dat vhodná k nějakému statistickému zpracování.

Ale díky za YaCy způsob sběru a princip uchování dat by ve finále měl být podobný nebo totožný ... ale k tomu je cesta daleká ;-)
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: perceptron 29. 04. 2014, 13:00:23: aky je rozdiel medzi katalogom a vasim webom? [asi je jasne, ze centralizovane katalogy ako myslienka su mrtve]

lebo ak pouzivatel zada do katalogu url, nazov a popis
a do vasho systemu co nie je katalogom zada url nazov a popis...

alebo aky je rozdiel medzi googlom a vami? okrem toho, ze ludske usilie odfiltruje ocividny spam a kazdy blog / portal / sajtu zareprezentuje jednym zaznamom?

lebo to rozhodne, ci je to fakt ocividna blbost, alebo koncept, ktory bol a neujal sa alebo nejaky napad.
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Filip Jirsák 29. 04. 2014, 13:12:22: Citace: Michal Hmmm 29. 04. 2014, 12:30:56
V současnosti jsem to pojal spíše jako seznam aktivních webů.
Jak poznáte, co je jeden web? A navíc automatizovaně…

Různé odhady počtu stránek se pohybují kolem řádu jeden bilion (10¹²) – 1 bilion unikátních URL nalezených Google, odhadovaných 500 miliard stránek v hlubokém webu. Takže už máte jednu miliontinu.
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: jehovista 29. 04. 2014, 13:12:40: Petr Hejl?
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Michal Hmmm 29. 04. 2014, 13:23:13: Citace: perceptron 29. 04. 2014, 13:00:23
aky je rozdiel medzi katalogom a vasim webom? [asi je jasne, ze centralizovane katalogy ako myslienka su mrtve]

No hlavní asi v tom, že to nemá (ani v plánu) žádný "frontend"

Citace: perceptron 29. 04. 2014, 13:00:23
lebo ak pouzivatel zada do katalogu url, nazov a popis
a do vasho systemu co nie je katalogom zada url nazov a popis...
... no nezadá, nebude mít kde ... výstupem nemá být žádná aplikace, alespoň v současném pojetí ...

Citace: perceptron 29. 04. 2014, 13:00:23
alebo aky je rozdiel medzi googlom a vami? okrem toho, ze ludske usilie odfiltruje ocividny spam a kazdy blog / portal / sajtu zareprezentuje jednym zaznamom?

lebo to rozhodne, ci je to fakt ocividna blbost, alebo koncept, ktory bol a neujal sa alebo nejaky napad.
žádná cenzura žádné filtrování, to nechť si řeší až uživatelé těch dat ....
a lidskému úsilí bych se při práci s takovým množstvím dat také raději co nejvíce vyhýbal
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Michal Hmmm 29. 04. 2014, 13:29:23: Citace: Filip Jirsák 29. 04. 2014, 13:12:22
Jak poznáte, co je jeden web? A navíc automatizovaně…
Nevím, nějaký nápad?
V současnosti to jsou právě ty domény 3. řádu

Citace: Filip Jirsák 29. 04. 2014, 13:12:22
Různé odhady počtu stránek se pohybují kolem řádu jeden bilion (10¹²) – 1 bilion unikátních URL nalezených Google, odhadovaných 500 miliard stránek v hlubokém webu. Takže už máte jednu miliontinu.
No právě odhady, spekulace ... Vás nikdy nezajímala skutečnost, exaktní čísla?
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Michal Hmmm 29. 04. 2014, 13:30:48: Citace: jehovista 29. 04. 2014, 13:12:40
Petr Hejl?
No to jsem čekal ;D
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Filip Jirsák 29. 04. 2014, 14:19:35: Citace: Michal Hmmm 29. 04. 2014, 13:29:23
Vás nikdy nezajímala skutečnost, exaktní čísla?
Nevíte, co je jeden web, ale chcete vědět přesně, kolik je webů celkem – z toho žádná exaktní čísla nedostanete.
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Zopper 29. 04. 2014, 14:38:07: Citace: Michal Hmmm 29. 04. 2014, 13:29:23
No právě odhady, spekulace ... Vás nikdy nezajímala skutečnost, exaktní čísla?

V roce 2013 bylo zaregistrováno měsíčně v průměru 20 369 nových .cz domén [1]. To je zhruba jedna doména každé dvě minuty. Tohle dělá jakékoliv měření crawlerem nepřesné, protože se měřená data mění pod rukama. Navíc, jak už tu bylo zmíněno, kdy je něco jedna stránka a kdy dvě? Například ikea.cz, ikea.dk, ikea.fi, ... To je jeden web, nebo několik? A navíc se crawlerem obvykle dostaneš jen tam, kam se odkazuje.

Fakt, pokud chceš jen vědět, kolik je domén 2. řádu, koukni se do reportů správců TLD. (Teda aspoň těch, co to zveřejňují... ). Pokud chceš 3. řádu, udělej si vzorek a použij matematiku. Statistika nuda je... [2] ;)

Udělat si crawlera může být zábava, ale použil bych ho spíš k zajímavějším a praktičtějším věcem, než tohle.

[1] https://stats.nic.cz/reports/2013/
[2] https://www.youtube.com/watch?v=zQ82GKpFL_M
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Michal Hmmm 29. 04. 2014, 14:43:47: Citace: Filip Jirsák 29. 04. 2014, 14:19:35
Citace: Michal Hmmm 29. 04. 2014, 13:29:23
Vás nikdy nezajímala skutečnost, exaktní čísla?
Nevíte, co je jeden web, ale chcete vědět přesně, kolik je webů celkem – z toho žádná exaktní čísla nedostanete.
To je takové to slovíčkaření a hledání 100 a 1 důvodu proč něco nejde a je to nemožné. Jsem si moc dobře vědom toho, že to je netriviální úloha. (z hlediska technologie i terminologie). Ale to není důvod se alespoň nepokusit. Není prohrou neuspět, prohrou je rezignovat.
A spokojit se s tím, že někdo odhadne číslo XXX^NNN, nebo s tím, že bůh G či jeho představitel velkomožný LP dá číslo ZZZ^XXX je návrat ke středověkým metodám. Co takhle zkusit nějakou věštkyni? ;)
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Michal Hmmm 29. 04. 2014, 15:02:42: Citace: Jan Ťulák 29. 04. 2014, 14:38:07
V roce 2013 bylo zaregistrováno měsíčně v průměru 20 369 nových .cz domén [1]. To je zhruba jedna doména každé dvě minuty. Tohle dělá jakékoliv měření crawlerem nepřesné, protože se měřená data mění pod rukama. Navíc, jak už tu bylo zmíněno, kdy je něco jedna stránka a kdy dvě? Například ikea.cz, ikea.dk, ikea.fi, ... To je jeden web, nebo několik? A navíc se crawlerem obvykle dostaneš jen tam, kam se odkazuje.
No jistě, ale už nic to neříká kolik domén bylo registrováno spekulativně, a kolik jich je používáno aktivně. Kolik jich zaniklo nebo kolik má která těch subdomén, atd ...
Navíc je to číslo jednoho správce, co další, jak to ověřit, neudělal někdo někdy nějakou chybu ve sčítání ...

Citace: Jan Ťulák 29. 04. 2014, 14:38:07
Fakt, pokud chceš jen vědět, kolik je domén 2. řádu, koukni se do reportů správců TLD. (Teda aspoň těch, co to zveřejňují... ). Pokud chceš 3. řádu, udělej si vzorek a použij matematiku. Statistika nuda je... [2] ;)

Udělat si crawlera může být zábava, ale použil bych ho spíš k zajímavějším a praktičtějším věcem, než tohle.

[1] https://stats.nic.cz/reports/2013/
[2] https://www.youtube.com/watch?v=zQ82GKpFL_M
A jak velký by měl být reprezentativní vzorek pro takovou matematiku nyní jsem podle všech těchto odhadů někde na 10^-6% (nepletu-li se) to bych řekl je na posuzování čehokoliv dost málo. To by bylo málo i kdyby se zaměři na jednu tld.
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: werwertwert 29. 04. 2014, 15:08:28: Citace: Michal Hmmm 29. 04. 2014, 13:29:23
Citace: Filip Jirsák 29. 04. 2014, 13:12:22
Jak poznáte, co je jeden web? A navíc automatizovaně…
Nevím, nějaký nápad?
V současnosti to jsou právě ty domény 3. řádu
To nepoznate. Clovek A pristoupi na adresu http://example.com/, nasledne se preklikne na http://example.com/obsah?SESSION=012345abcd a je mu zobrazen pro jednoduchost jenom aktualni cas nebo jeho IP.
Clovek B udela to same, stejne se preklikne a dostane jinou session a typicky i jiny obsah (aktualni cas). Vzato ad absurdum, kdyz to decentralizujete a vsichni se pokusi pristoupit ke stejne strance, kazdy muze dostat jinou. Nebo se to bude zhodovat podle bloku IP, nebo jinak.
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: JSH 29. 04. 2014, 15:22:55: Citace: Michal Hmmm 29. 04. 2014, 14:43:47
To je takové to slovíčkaření a hledání 100 a 1 důvodu proč něco nejde a je to nemožné.
Tohle není slovíčkaření. Pokud chcete nějaká exaktní čísla, tak se napřed musí říct, co a jak přesně se bude měřit.
Citace
Jsem si moc dobře vědom toho, že to je netriviální úloha. (z hlediska technologie i terminologie). Ale to není důvod se alespoň nepokusit. Není prohrou neuspět, prohrou je rezignovat.
Netriviální úloha z hlediska terminologie? No jestli bude ten seznam budovat komunita a ani se neupřesní co má být jeden záznam a jaké stránky případně nepočítat vůbec, tak budou výsledky velice zajímavé...
Citace
A spokojit se s tím, že někdo odhadne číslo XXX^NNN, nebo s tím, že bůh G či jeho představitel velkomožný LP dá číslo ZZZ^XXX je návrat ke středověkým metodám. Co takhle zkusit nějakou věštkyni? ;)
Pokud z principu není možné zjistit nic přesnějšího než nějaký řádový odhad, pak je blbost se o nějaké přesné číslo vůbec snažit. Není to hledání výmluv. "It is better to be approximately right, than exactly wrong" hezký český překlad neznám.
Citace: Michal Hmmm 29. 04. 2014, 15:02:42
No jistě, ale už nic to neříká kolik domén bylo registrováno spekulativně, a kolik jich je používáno aktivně. Kolik jich zaniklo nebo kolik má která těch subdomén, atd ...
Všechno to jsou hodně neostré pojmy. Podle toho, jak se nastaví prahy budou výsledky řádově jiné.
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Zopper 29. 04. 2014, 15:34:23: Citace: JSH 29. 04. 2014, 15:22:55
+1

Citace: Michal Hmmm 29. 04. 2014, 15:02:42
No jistě, ale už nic to neříká kolik domén bylo registrováno spekulativně, a kolik jich je používáno aktivně. Kolik jich zaniklo nebo kolik má která těch subdomén, atd ...
A ten crawler bude tak chytrý, že to dokáže poznat? A i pokud to vezmeš stylem "dostanu se na nějaký web -> je používaná aktivně" (bez ohledu na to, že to bude něco ve stylu "tato doména je registrovaná u AAA Domény"), tak se stejně nedostaneš na všechny aktivní weby a na druhou stranu ti do druhého dne spousta webů skončí. Nebo třeba někde bude zrovna výpadek připojení... To procházení bude mít ještě menší vypovídací hodnotu, než report správce domény.
(A pořád nemáš jasnou definici toho, co vlastně chceš změřit!)

Citace: Michal Hmmm 29. 04. 2014, 15:02:42
Navíc je to číslo jednoho správce, co další, jak to ověřit, neudělal někdo někdy nějakou chybu ve sčítání ...
Co další... Já nevím, třeba vlézt na jejich stránky a zkusit najít "report"? A promiň, ale budu víc věřit číslu, které si registrátor vytáhl ze svojí databáze, než crawleru.

Citace: Michal Hmmm 29. 04. 2014, 15:02:42
A jak velký by měl být reprezentativní vzorek pro takovou matematiku nyní jsem podle všech těchto odhadů někde na 10^-6% (nepletu-li se) to bych řekl je na posuzování čehokoliv dost málo. To by bylo málo i kdyby se zaměři na jednu tld.
No, to záleží na tom, jak moc dobrý jsi matematik a jakou hladinu pravděpodobnosti chceš... :-) Víme jen o jedné planetě vhodné pro život a máme "pár zachycených fotonů" na vzdálenost spousty světelných let, ale stejně se z toho dá dělat statistický odhad počtu zemi podobných planet.

Suma sumárum: Crawlera si klidně dál vylepšuj, bav se, ale nevydávej to za nějaká relevantnější data, než "co můj crawler nasbíral". A třeba zkus začít i procházet obsah a dělat si třeba databázi zajímavých stránek.
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: perceptron 29. 04. 2014, 16:54:22: hlavne nerozumiem, naco su *v tejto ulohe* exaktne cisla: maximalne, ze na slajde bude ze 29. 4. 2014 o 16:26 bolo 1234567890123456790 webov*

-------
* merane metodikou Michala Hmmmmm

ak pouzivatelia nezadaju nic a crawlovat sa to bude automaticky, ako chcete rozpoznat unikatne weby? a ako chcete ignorovat spamy a fiktivne portaly, co mirroruju stack overflow? pouzivatelsky / komunitny zaklad dokaze vylepsit vasu umelu inteligenciu, ale podla vasho navrhu to ma byt magicke
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Franta <xkucf03/> 29. 04. 2014, 18:18:36: Možná jsem něco přehlédnul, ale pořád mi uchází ten smysl. A proč se radši nezapojíš do vývoje/provozu YaCy? To by mi přišlo užitečnější.

A ještě k tomu „Internetové katalogy i ty největší jsou zoufale neúplné“ – na webu je takového odpadu a spamu, že není o co stát, ta neúplnost je naopak výhodou, nemá cenu katalogizovat všechno.
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Filip Jirsák 29. 04. 2014, 19:21:49: Já vůbec netvrdím, že to nejde. Jenom když vůbec nevíte, co vlastně chcete dostat, těžko se navrhuje nějaké technické řešení, a ještě hůř se navrhuje, co na to řeknou lidi. Klidně můžete zblbnout lidi, ať nechají robot stahovat náhodné adresy, když to uděláte šikovně a budete mít štěstí, vyrobíte krásný globální DDoS.

Chcete započítávat i deep web? Jak se na něj dostanete, když na něj nevedou odkazy? Stačí vám to bez? Pak si asi stačí najít nějakou statistiku, kterou publikují vyhledávače. Zkoušel jste odhadnout, jak rychle byste musel weby procházet, abyste vůbec stíhal nově vznikající weby?
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Jarin 30. 04. 2014, 00:25:03: Ahoj, mám db "všech" .com domén je jich ~111M celý internet může být třeba i 10x více, když se začnete zabývat doménami 3. řádu dostáváte se zase o pár řádů dále . Krom problému neustáleho přibývání jsou tu další problémy cca polovina z těch 111M již není aktivní (někdo si je zaregistroval a pak je opustil) na plno z nich jsou redirecty (nebo přímé umístění obsahu) na prodej domén a na velké části se nachází malware. Pokud jde o db samotnou tak to problém není, ovšem indexování nedej bože efektivní vyhledávání už zase tak snadné není.
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Zamzam 30. 04. 2014, 00:48:57: Ahoj, mohli byste to někdo hodit na ulož.to?
Rád bych se v tom prohrabal, aktuálnost není problém.
Dik.
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: shejby 30. 04. 2014, 09:59:15: Jarin=Shejby :-)

teď jsem zjistil, že to má 3GB tak to bude asi chvilku trvat ... v jakém formátu je vám to nejpříjemnější sql csv ?
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Miramel 30. 04. 2014, 10:17:19: Taky mám zájem a pro mě prosím CSV.
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Michal Hmmm 30. 04. 2014, 12:57:36: Citace: shejby 30. 04. 2014, 09:59:15
Jarin=Shejby :-)

teď jsem zjistil, že to má 3GB tak to bude asi chvilku trvat ... v jakém formátu je vám to nejpříjemnější sql csv ?

Mohl bych se zeptat na původ těch dat? A také bych poprosil o zaslání.
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: shejby 30. 04. 2014, 14:34:45: původ.. je to vucuclý z těchto stránek http://www.registered-domains-list.com/com-2013/ (http://www.registered-domains-list.com/com-2013/) takže se můžete brodit tam :-D ...ale jinak vám to samo pošlu není problém ..
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: shejby 30. 04. 2014, 16:13:25: http://ulozto.cz/soubory/PSJB/other/ (http://ulozto.cz/soubory/PSJB/other/) tak to tady máte :P

jinak co s tím máte v plánu ?
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Miramel 30. 04. 2014, 16:40:31: Já chci třeba zjistit, kolik z toho je Apache, kolik Nginx a kolik IIS, dále nad tím chci pustit další funkce, které mi z toho vytáhnout data.
Například kolik těch domén sídlí na stejné IP, kolik těchto IP má nastavený reverzní překlad, jestli je k doménám SMTP server a tak.
Možná k tomu přidělám i nějaký web interface a výstupy dám v XML.
To je první krok.
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Franta <xkucf03/> 30. 04. 2014, 18:01:31: Citace: Miramel 30. 04. 2014, 16:40:31
Já chci třeba zjistit, kolik z toho je Apache, kolik Nginx a kolik IIS, dále nad tím chci pustit další funkce, které mi z toho vytáhnout data.
Například kolik těch domén sídlí na stejné IP, kolik těchto IP má nastavený reverzní překlad, jestli je k doménám SMTP server a tak.
Možná k tomu přidělám i nějaký web interface a výstupy dám v XML.
To je první krok.

BTW: něco podobného dělají tady Open e-mail survey (http://www.openemailsurvey.org/) – zaměřené na e-mail a skenovali to po IP adresách.
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: pavelxxx 01. 05. 2014, 09:08:52: Citace: Miramel 30. 04. 2014, 16:40:31
Já chci třeba zjistit, kolik z toho je Apache, kolik Nginx a kolik IIS, dále nad tím chci pustit další funkce, které mi z toho vytáhnout data.
Například kolik těch domén sídlí na stejné IP, kolik těchto IP má nastavený reverzní překlad, jestli je k doménám SMTP server a tak.
Možná k tomu přidělám i nějaký web interface a výstupy dám v XML.
To je první krok.
To by mě zajímalo co budou další kroky ... .
Název: Re:Může komunita zaindexovat celý internet?
Přispěvatel: Jan Forman 01. 05. 2014, 11:01:44: Mě by zajímalo, jestli už někoho napadlo, že sám Google by měl s touto úlohou problém a navíc jaký je benefit?
Některé statistické servery se o to snaží (Alexa, Netcraft, Robtex, DomainTools) - ale tam je jen zlomek.
Jde o počet virtuálních domén na IP, reverzní záznamy, STMP... ovšem on-demand většinou (alexa pomocí spyware lišty).

Je to jen doména, nebo obsah? S obsahem je to nesmysl - tam se cokoliv může měnit a je to hned nový obsah.
Obvykle se to eliminuje přes hash, pokud je to statické. Mnoho serverů používá různé proxy, tudíž reálný server
pod nimi také nelze dohledat.

Má to tedy být další taková služba viz výše?