Fórum Root.cz
Ostatní => Odkladiště => Téma založeno: Michal Hmmm 29. 04. 2014, 11:27:46
-
Trošku bulvární předmět, ale z nějaké osobní zvědavosti či zvídavosti. Hledal jsem volně dostupnou databázi/informaci o počtu webových stránek či nějaký seznam webových míst. Internetové katalogy i ty největší jsou zoufale neúplné, vyhledávače své databáze nezveřejňují….
Jako blázen a snílek jsem začal podobnou databázi jako experiment sestavovat sám, ale pro jednotlivce je podobné snažení řekl bych Sysifofská práce.
Jak složité by asi bylo zorganizovat projekt, kdy dobrovolníci procházeli web a výsledky ukládali do společné databáze? Po technické stránce by to asi až takový problém být neměl. Ale sociologické hledisko mi vrtá hlavou. Najdou se lidé, kteří se takového projektu budou chtít zúčastnit?
Má databáze se nyní téměř 600 000 záznamů, ale nárůst je již relativně pomalý, pokud by se zde vyskytl někdo, kdo by se chtěl zapojit do procházení webu již nyní může mě kontaktovat, odměnou by mu byl seznam aktivních domén 3. řádu (případně i vyfiltrovaný seznam domén 2. řádu)
-
Nechápu, proč to mají dělat nějací dobrovolníci. Roboti tohle dokážou mnohem efektivněji a přesněji.
-
Existují různé wiki a portály zaměřené na určitou oblast, které shromažďují i odkazy – tam občas najdeš zajímavé věci, které by v obecném vyhledávači typu Googlu byly až na několikáté stránce (jestli vůbec).
Ale dělat univerzální katalog je asi blbost – nedokážeš posoudit, co je zajímavé a co už ne, bude se ti tam cpát spousta SEO spamu… Fulltext + sémantický web je lepší cesta.
Koukni na decentralizovaný vyhledávač YaCy (http://www.yacy.net/)
-
Co by vůbec mělo být výsledkem té práce? Seznam domén? Seznam domén druhé úrovně? Seznam webových adres? Seznam webových adres s nějakým komentářem?
-
Zaindexovat nevím, ale ohlodat určitě...
-
Nechápu, proč to mají dělat nějací dobrovolníci. Roboti tohle dokážou mnohem efektivněji a přesněji.
Protože ten robot musí běžet na nějaké stroji, a ten musí někdo koupit a provozovat. Spustí-li někdo na svém běžném PC tak se náklady mohou rozložit a potřebný výpočetní výkon mohou rozložit na více strojů účastníků. Nehledě na to, že takováto PC jsou často předimenzována a nevyužita.
-
Ahoj,
pošli e-mail, kam se ti dá psát, podobný projekt startuji v létě.
Dík :-)
-
Co by vůbec mělo být výsledkem té práce? Seznam domén? Seznam domén druhé úrovně? Seznam webových adres? Seznam webových adres s nějakým komentářem?
Tak předpokládám, že seznam domén 2. úrovně by se dal jednodušeji získat od registrátorů. V současnosti jsem to pojal spíše jako seznam aktivních webů. Pro mě osobně je to něco jako základní výzkum.
Pokud by se měl projekt rozjet, tak v první fázi by to bylo dobré tak maximálně pro studijní nebo statistické účely. Študáků do diplomek, nebo nějakým sociologům ...
-
Ahoj,
pošli e-mail, kam se ti dá psát, podobný projekt startuji v létě.
Dík :-)
Použít můžete email ze zdejšího profilu. (http://forum.root.cz/index.php?action=profile;u=2630)
-
Ale dělat univerzální katalog je asi blbost – nedokážeš posoudit, co je zajímavé a co už ne, bude se ti tam cpát spousta SEO spamu… Fulltext + sémantický web je lepší cesta.
Koukni na decentralizovaný vyhledávač YaCy (http://www.yacy.net/)
Nemíním dělat katalog nebo vyhledávač jako takový. Výstupem by měla být spíše databáze/soubor dat vhodná k nějakému statistickému zpracování.
Ale díky za YaCy způsob sběru a princip uchování dat by ve finále měl být podobný nebo totožný ... ale k tomu je cesta daleká ;-)
-
aky je rozdiel medzi katalogom a vasim webom? [asi je jasne, ze centralizovane katalogy ako myslienka su mrtve]
lebo ak pouzivatel zada do katalogu url, nazov a popis
a do vasho systemu co nie je katalogom zada url nazov a popis...
alebo aky je rozdiel medzi googlom a vami? okrem toho, ze ludske usilie odfiltruje ocividny spam a kazdy blog / portal / sajtu zareprezentuje jednym zaznamom?
lebo to rozhodne, ci je to fakt ocividna blbost, alebo koncept, ktory bol a neujal sa alebo nejaky napad.
-
V současnosti jsem to pojal spíše jako seznam aktivních webů.
Jak poznáte, co je jeden web? A navíc automatizovaně…
Různé odhady počtu stránek se pohybují kolem řádu jeden bilion (1012) – 1 bilion unikátních URL nalezených Google, odhadovaných 500 miliard stránek v hlubokém webu. Takže už máte jednu miliontinu.
-
Petr Hejl?
-
aky je rozdiel medzi katalogom a vasim webom? [asi je jasne, ze centralizovane katalogy ako myslienka su mrtve]
No hlavní asi v tom, že to nemá (ani v plánu) žádný "frontend"
lebo ak pouzivatel zada do katalogu url, nazov a popis
a do vasho systemu co nie je katalogom zada url nazov a popis...
... no nezadá, nebude mít kde ... výstupem nemá být žádná aplikace, alespoň v současném pojetí ...
alebo aky je rozdiel medzi googlom a vami? okrem toho, ze ludske usilie odfiltruje ocividny spam a kazdy blog / portal / sajtu zareprezentuje jednym zaznamom?
lebo to rozhodne, ci je to fakt ocividna blbost, alebo koncept, ktory bol a neujal sa alebo nejaky napad.
žádná cenzura žádné filtrování, to nechť si řeší až uživatelé těch dat ....
a lidskému úsilí bych se při práci s takovým množstvím dat také raději co nejvíce vyhýbal
-
Jak poznáte, co je jeden web? A navíc automatizovaně…
Nevím, nějaký nápad?
V současnosti to jsou právě ty domény 3. řádu
Různé odhady počtu stránek se pohybují kolem řádu jeden bilion (1012) – 1 bilion unikátních URL nalezených Google, odhadovaných 500 miliard stránek v hlubokém webu. Takže už máte jednu miliontinu.
No právě odhady, spekulace ... Vás nikdy nezajímala skutečnost, exaktní čísla?
-
Petr Hejl?
No to jsem čekal ;D
-
Vás nikdy nezajímala skutečnost, exaktní čísla?
Nevíte, co je jeden web, ale chcete vědět přesně, kolik je webů celkem – z toho žádná exaktní čísla nedostanete.
-
No právě odhady, spekulace ... Vás nikdy nezajímala skutečnost, exaktní čísla?
V roce 2013 bylo zaregistrováno měsíčně v průměru 20 369 nových .cz domén [1]. To je zhruba jedna doména každé dvě minuty. Tohle dělá jakékoliv měření crawlerem nepřesné, protože se měřená data mění pod rukama. Navíc, jak už tu bylo zmíněno, kdy je něco jedna stránka a kdy dvě? Například ikea.cz, ikea.dk, ikea.fi, ... To je jeden web, nebo několik? A navíc se crawlerem obvykle dostaneš jen tam, kam se odkazuje.
Fakt, pokud chceš jen vědět, kolik je domén 2. řádu, koukni se do reportů správců TLD. (Teda aspoň těch, co to zveřejňují... ). Pokud chceš 3. řádu, udělej si vzorek a použij matematiku. Statistika nuda je... [2] ;)
Udělat si crawlera může být zábava, ale použil bych ho spíš k zajímavějším a praktičtějším věcem, než tohle.
[1] https://stats.nic.cz/reports/2013/
[2] https://www.youtube.com/watch?v=zQ82GKpFL_M
-
Vás nikdy nezajímala skutečnost, exaktní čísla?
Nevíte, co je jeden web, ale chcete vědět přesně, kolik je webů celkem – z toho žádná exaktní čísla nedostanete.
To je takové to slovíčkaření a hledání 100 a 1 důvodu proč něco nejde a je to nemožné. Jsem si moc dobře vědom toho, že to je netriviální úloha. (z hlediska technologie i terminologie). Ale to není důvod se alespoň nepokusit. Není prohrou neuspět, prohrou je rezignovat.
A spokojit se s tím, že někdo odhadne číslo XXX^NNN, nebo s tím, že bůh G či jeho představitel velkomožný LP dá číslo ZZZ^XXX je návrat ke středověkým metodám. Co takhle zkusit nějakou věštkyni? ;)
-
V roce 2013 bylo zaregistrováno měsíčně v průměru 20 369 nových .cz domén [1]. To je zhruba jedna doména každé dvě minuty. Tohle dělá jakékoliv měření crawlerem nepřesné, protože se měřená data mění pod rukama. Navíc, jak už tu bylo zmíněno, kdy je něco jedna stránka a kdy dvě? Například ikea.cz, ikea.dk, ikea.fi, ... To je jeden web, nebo několik? A navíc se crawlerem obvykle dostaneš jen tam, kam se odkazuje.
No jistě, ale už nic to neříká kolik domén bylo registrováno spekulativně, a kolik jich je používáno aktivně. Kolik jich zaniklo nebo kolik má která těch subdomén, atd ...
Navíc je to číslo jednoho správce, co další, jak to ověřit, neudělal někdo někdy nějakou chybu ve sčítání ...
Fakt, pokud chceš jen vědět, kolik je domén 2. řádu, koukni se do reportů správců TLD. (Teda aspoň těch, co to zveřejňují... ). Pokud chceš 3. řádu, udělej si vzorek a použij matematiku. Statistika nuda je... [2] ;)
Udělat si crawlera může být zábava, ale použil bych ho spíš k zajímavějším a praktičtějším věcem, než tohle.
[1] https://stats.nic.cz/reports/2013/
[2] https://www.youtube.com/watch?v=zQ82GKpFL_M
A jak velký by měl být reprezentativní vzorek pro takovou matematiku nyní jsem podle všech těchto odhadů někde na 10-6% (nepletu-li se) to bych řekl je na posuzování čehokoliv dost málo. To by bylo málo i kdyby se zaměři na jednu tld.
-
Jak poznáte, co je jeden web? A navíc automatizovaně…
Nevím, nějaký nápad?
V současnosti to jsou právě ty domény 3. řádu
To nepoznate. Clovek A pristoupi na adresu http://example.com/, nasledne se preklikne na http://example.com/obsah?SESSION=012345abcd a je mu zobrazen pro jednoduchost jenom aktualni cas nebo jeho IP.
Clovek B udela to same, stejne se preklikne a dostane jinou session a typicky i jiny obsah (aktualni cas). Vzato ad absurdum, kdyz to decentralizujete a vsichni se pokusi pristoupit ke stejne strance, kazdy muze dostat jinou. Nebo se to bude zhodovat podle bloku IP, nebo jinak.
-
To je takové to slovíčkaření a hledání 100 a 1 důvodu proč něco nejde a je to nemožné.
Tohle není slovíčkaření. Pokud chcete nějaká exaktní čísla, tak se napřed musí říct, co a jak přesně se bude měřit.
Jsem si moc dobře vědom toho, že to je netriviální úloha. (z hlediska technologie i terminologie). Ale to není důvod se alespoň nepokusit. Není prohrou neuspět, prohrou je rezignovat.
Netriviální úloha z hlediska terminologie? No jestli bude ten seznam budovat komunita a ani se neupřesní co má být jeden záznam a jaké stránky případně nepočítat vůbec, tak budou výsledky velice zajímavé...
A spokojit se s tím, že někdo odhadne číslo XXX^NNN, nebo s tím, že bůh G či jeho představitel velkomožný LP dá číslo ZZZ^XXX je návrat ke středověkým metodám. Co takhle zkusit nějakou věštkyni? ;)
Pokud z principu není možné zjistit nic přesnějšího než nějaký řádový odhad, pak je blbost se o nějaké přesné číslo vůbec snažit. Není to hledání výmluv. "It is better to be approximately right, than exactly wrong" hezký český překlad neznám.No jistě, ale už nic to neříká kolik domén bylo registrováno spekulativně, a kolik jich je používáno aktivně. Kolik jich zaniklo nebo kolik má která těch subdomén, atd ...
Všechno to jsou hodně neostré pojmy. Podle toho, jak se nastaví prahy budou výsledky řádově jiné.
-
+1
No jistě, ale už nic to neříká kolik domén bylo registrováno spekulativně, a kolik jich je používáno aktivně. Kolik jich zaniklo nebo kolik má která těch subdomén, atd ...
A ten crawler bude tak chytrý, že to dokáže poznat? A i pokud to vezmeš stylem "dostanu se na nějaký web -> je používaná aktivně" (bez ohledu na to, že to bude něco ve stylu "tato doména je registrovaná u AAA Domény"), tak se stejně nedostaneš na všechny aktivní weby a na druhou stranu ti do druhého dne spousta webů skončí. Nebo třeba někde bude zrovna výpadek připojení... To procházení bude mít ještě menší vypovídací hodnotu, než report správce domény.
(A pořád nemáš jasnou definici toho, co vlastně chceš změřit!)
Navíc je to číslo jednoho správce, co další, jak to ověřit, neudělal někdo někdy nějakou chybu ve sčítání ...
Co další... Já nevím, třeba vlézt na jejich stránky a zkusit najít "report"? A promiň, ale budu víc věřit číslu, které si registrátor vytáhl ze svojí databáze, než crawleru.
A jak velký by měl být reprezentativní vzorek pro takovou matematiku nyní jsem podle všech těchto odhadů někde na 10-6% (nepletu-li se) to bych řekl je na posuzování čehokoliv dost málo. To by bylo málo i kdyby se zaměři na jednu tld.
No, to záleží na tom, jak moc dobrý jsi matematik a jakou hladinu pravděpodobnosti chceš... :-) Víme jen o jedné planetě vhodné pro život a máme "pár zachycených fotonů" na vzdálenost spousty světelných let, ale stejně se z toho dá dělat statistický odhad počtu zemi podobných planet.
Suma sumárum: Crawlera si klidně dál vylepšuj, bav se, ale nevydávej to za nějaká relevantnější data, než "co můj crawler nasbíral". A třeba zkus začít i procházet obsah a dělat si třeba databázi zajímavých stránek.
-
hlavne nerozumiem, naco su *v tejto ulohe* exaktne cisla: maximalne, ze na slajde bude ze 29. 4. 2014 o 16:26 bolo 1234567890123456790 webov*
-------
* merane metodikou Michala Hmmmmm
ak pouzivatelia nezadaju nic a crawlovat sa to bude automaticky, ako chcete rozpoznat unikatne weby? a ako chcete ignorovat spamy a fiktivne portaly, co mirroruju stack overflow? pouzivatelsky / komunitny zaklad dokaze vylepsit vasu umelu inteligenciu, ale podla vasho navrhu to ma byt magicke
-
Možná jsem něco přehlédnul, ale pořád mi uchází ten smysl. A proč se radši nezapojíš do vývoje/provozu YaCy? To by mi přišlo užitečnější.
A ještě k tomu „Internetové katalogy i ty největší jsou zoufale neúplné“ – na webu je takového odpadu a spamu, že není o co stát, ta neúplnost je naopak výhodou, nemá cenu katalogizovat všechno.
-
Já vůbec netvrdím, že to nejde. Jenom když vůbec nevíte, co vlastně chcete dostat, těžko se navrhuje nějaké technické řešení, a ještě hůř se navrhuje, co na to řeknou lidi. Klidně můžete zblbnout lidi, ať nechají robot stahovat náhodné adresy, když to uděláte šikovně a budete mít štěstí, vyrobíte krásný globální DDoS.
Chcete započítávat i deep web? Jak se na něj dostanete, když na něj nevedou odkazy? Stačí vám to bez? Pak si asi stačí najít nějakou statistiku, kterou publikují vyhledávače. Zkoušel jste odhadnout, jak rychle byste musel weby procházet, abyste vůbec stíhal nově vznikající weby?
-
Ahoj, mám db "všech" .com domén je jich ~111M celý internet může být třeba i 10x více, když se začnete zabývat doménami 3. řádu dostáváte se zase o pár řádů dále . Krom problému neustáleho přibývání jsou tu další problémy cca polovina z těch 111M již není aktivní (někdo si je zaregistroval a pak je opustil) na plno z nich jsou redirecty (nebo přímé umístění obsahu) na prodej domén a na velké části se nachází malware. Pokud jde o db samotnou tak to problém není, ovšem indexování nedej bože efektivní vyhledávání už zase tak snadné není.
-
Ahoj, mohli byste to někdo hodit na ulož.to?
Rád bych se v tom prohrabal, aktuálnost není problém.
Dik.
-
Jarin=Shejby :-)
teď jsem zjistil, že to má 3GB tak to bude asi chvilku trvat ... v jakém formátu je vám to nejpříjemnější sql csv ?
-
Taky mám zájem a pro mě prosím CSV.
-
Jarin=Shejby :-)
teď jsem zjistil, že to má 3GB tak to bude asi chvilku trvat ... v jakém formátu je vám to nejpříjemnější sql csv ?
Mohl bych se zeptat na původ těch dat? A také bych poprosil o zaslání.
-
původ.. je to vucuclý z těchto stránek http://www.registered-domains-list.com/com-2013/ (http://www.registered-domains-list.com/com-2013/) takže se můžete brodit tam :-D ...ale jinak vám to samo pošlu není problém ..
-
http://ulozto.cz/soubory/PSJB/other/ (http://ulozto.cz/soubory/PSJB/other/) tak to tady máte :P
jinak co s tím máte v plánu ?
-
Já chci třeba zjistit, kolik z toho je Apache, kolik Nginx a kolik IIS, dále nad tím chci pustit další funkce, které mi z toho vytáhnout data.
Například kolik těch domén sídlí na stejné IP, kolik těchto IP má nastavený reverzní překlad, jestli je k doménám SMTP server a tak.
Možná k tomu přidělám i nějaký web interface a výstupy dám v XML.
To je první krok.
-
Já chci třeba zjistit, kolik z toho je Apache, kolik Nginx a kolik IIS, dále nad tím chci pustit další funkce, které mi z toho vytáhnout data.
Například kolik těch domén sídlí na stejné IP, kolik těchto IP má nastavený reverzní překlad, jestli je k doménám SMTP server a tak.
Možná k tomu přidělám i nějaký web interface a výstupy dám v XML.
To je první krok.
BTW: něco podobného dělají tady Open e-mail survey (http://www.openemailsurvey.org/) – zaměřené na e-mail a skenovali to po IP adresách.
-
Já chci třeba zjistit, kolik z toho je Apache, kolik Nginx a kolik IIS, dále nad tím chci pustit další funkce, které mi z toho vytáhnout data.
Například kolik těch domén sídlí na stejné IP, kolik těchto IP má nastavený reverzní překlad, jestli je k doménám SMTP server a tak.
Možná k tomu přidělám i nějaký web interface a výstupy dám v XML.
To je první krok.
To by mě zajímalo co budou další kroky ... .
-
Mě by zajímalo, jestli už někoho napadlo, že sám Google by měl s touto úlohou problém a navíc jaký je benefit?
Některé statistické servery se o to snaží (Alexa, Netcraft, Robtex, DomainTools) - ale tam je jen zlomek.
Jde o počet virtuálních domén na IP, reverzní záznamy, STMP... ovšem on-demand většinou (alexa pomocí spyware lišty).
Je to jen doména, nebo obsah? S obsahem je to nesmysl - tam se cokoliv může měnit a je to hned nový obsah.
Obvykle se to eliminuje přes hash, pokud je to statické. Mnoho serverů používá různé proxy, tudíž reálný server
pod nimi také nelze dohledat.
Má to tedy být další taková služba viz výše?