Může komunita zaindexovat celý internet?

Michal Hmmm · « **Odpověď #15 kdy:** 29. 04. 2014, 13:30:48 »

Citace: jehovista 29. 04. 2014, 13:12:40

Petr Hejl?

No to jsem čekal

Reklama

Filip Jirsák · « **Odpověď #16 kdy:** 29. 04. 2014, 14:19:35 »

Citace: Michal Hmmm 29. 04. 2014, 13:29:23

Vás nikdy nezajímala skutečnost, exaktní čísla?

Nevíte, co je jeden web, ale chcete vědět přesně, kolik je webů celkem – z toho žádná exaktní čísla nedostanete.

Zopper · « **Odpověď #17 kdy:** 29. 04. 2014, 14:38:07 »

Citace: Michal Hmmm 29. 04. 2014, 13:29:23

No právě odhady, spekulace ... Vás nikdy nezajímala skutečnost, exaktní čísla?

V roce 2013 bylo zaregistrováno měsíčně v průměru 20 369 nových .cz domén [1]. To je zhruba jedna doména každé dvě minuty. Tohle dělá jakékoliv měření crawlerem nepřesné, protože se měřená data mění pod rukama. Navíc, jak už tu bylo zmíněno, kdy je něco jedna stránka a kdy dvě? Například ikea.cz, ikea.dk, ikea.fi, ... To je jeden web, nebo několik? A navíc se crawlerem obvykle dostaneš jen tam, kam se odkazuje.

Fakt, pokud chceš jen vědět, kolik je domén 2. řádu, koukni se do reportů správců TLD. (Teda aspoň těch, co to zveřejňují... ). Pokud chceš 3. řádu, udělej si vzorek a použij matematiku. Statistika nuda je... [2]

Udělat si crawlera může být zábava, ale použil bych ho spíš k zajímavějším a praktičtějším věcem, než tohle.

[1] https://stats.nic.cz/reports/2013/
[2] https://www.youtube.com/watch?v=zQ82GKpFL_M

Michal Hmmm · « **Odpověď #18 kdy:** 29. 04. 2014, 14:43:47 »

Citace: Filip Jirsák 29. 04. 2014, 14:19:35

Citace: Michal Hmmm 29. 04. 2014, 13:29:23
Vás nikdy nezajímala skutečnost, exaktní čísla?
Nevíte, co je jeden web, ale chcete vědět přesně, kolik je webů celkem – z toho žádná exaktní čísla nedostanete.

To je takové to slovíčkaření a hledání 100 a 1 důvodu proč něco nejde a je to nemožné. Jsem si moc dobře vědom toho, že to je netriviální úloha. (z hlediska technologie i terminologie). Ale to není důvod se alespoň nepokusit. Není prohrou neuspět, prohrou je rezignovat.
A spokojit se s tím, že někdo odhadne číslo XXX^NNN, nebo s tím, že bůh G či jeho představitel velkomožný LP dá číslo ZZZ^XXX je návrat ke středověkým metodám. Co takhle zkusit nějakou věštkyni?

Michal Hmmm · « **Odpověď #19 kdy:** 29. 04. 2014, 15:02:42 »

Citace: Jan Ťulák 29. 04. 2014, 14:38:07

V roce 2013 bylo zaregistrováno měsíčně v průměru 20 369 nových .cz domén [1]. To je zhruba jedna doména každé dvě minuty. Tohle dělá jakékoliv měření crawlerem nepřesné, protože se měřená data mění pod rukama. Navíc, jak už tu bylo zmíněno, kdy je něco jedna stránka a kdy dvě? Například ikea.cz, ikea.dk, ikea.fi, ... To je jeden web, nebo několik? A navíc se crawlerem obvykle dostaneš jen tam, kam se odkazuje.

No jistě, ale už nic to neříká kolik domén bylo registrováno spekulativně, a kolik jich je používáno aktivně. Kolik jich zaniklo nebo kolik má která těch subdomén, atd ...
Navíc je to číslo jednoho správce, co další, jak to ověřit, neudělal někdo někdy nějakou chybu ve sčítání ...

Citace: Jan Ťulák 29. 04. 2014, 14:38:07

Fakt, pokud chceš jen vědět, kolik je domén 2. řádu, koukni se do reportů správců TLD. (Teda aspoň těch, co to zveřejňují... ). Pokud chceš 3. řádu, udělej si vzorek a použij matematiku. Statistika nuda je... [2]

Udělat si crawlera může být zábava, ale použil bych ho spíš k zajímavějším a praktičtějším věcem, než tohle.

[1] https://stats.nic.cz/reports/2013/
[2] https://www.youtube.com/watch?v=zQ82GKpFL_M

A jak velký by měl být reprezentativní vzorek pro takovou matematiku nyní jsem podle všech těchto odhadů někde na 10^-6% (nepletu-li se) to bych řekl je na posuzování čehokoliv dost málo. To by bylo málo i kdyby se zaměři na jednu tld.

Reklama

werwertwert · « **Odpověď #20 kdy:** 29. 04. 2014, 15:08:28 »

Citace: Michal Hmmm 29. 04. 2014, 13:29:23

Citace: Filip Jirsák 29. 04. 2014, 13:12:22
Jak poznáte, co je jeden web? A navíc automatizovaně…
Nevím, nějaký nápad?
V současnosti to jsou právě ty domény 3. řádu

To nepoznate. Clovek A pristoupi na adresu http://example.com/, nasledne se preklikne na http://example.com/obsah?SESSION=012345abcd a je mu zobrazen pro jednoduchost jenom aktualni cas nebo jeho IP.
Clovek B udela to same, stejne se preklikne a dostane jinou session a typicky i jiny obsah (aktualni cas). Vzato ad absurdum, kdyz to decentralizujete a vsichni se pokusi pristoupit ke stejne strance, kazdy muze dostat jinou. Nebo se to bude zhodovat podle bloku IP, nebo jinak.

JSH · « **Odpověď #21 kdy:** 29. 04. 2014, 15:22:55 »

Citace: Michal Hmmm 29. 04. 2014, 14:43:47

To je takové to slovíčkaření a hledání 100 a 1 důvodu proč něco nejde a je to nemožné.

Tohle není slovíčkaření. Pokud chcete nějaká exaktní čísla, tak se napřed musí říct, co a jak přesně se bude měřit.

Citace

Jsem si moc dobře vědom toho, že to je netriviální úloha. (z hlediska technologie i terminologie). Ale to není důvod se alespoň nepokusit. Není prohrou neuspět, prohrou je rezignovat.

Netriviální úloha z hlediska terminologie? No jestli bude ten seznam budovat komunita a ani se neupřesní co má být jeden záznam a jaké stránky případně nepočítat vůbec, tak budou výsledky velice zajímavé...

Citace

A spokojit se s tím, že někdo odhadne číslo XXX^NNN, nebo s tím, že bůh G či jeho představitel velkomožný LP dá číslo ZZZ^XXX je návrat ke středověkým metodám. Co takhle zkusit nějakou věštkyni?

Pokud z principu není možné zjistit nic přesnějšího než nějaký řádový odhad, pak je blbost se o nějaké přesné číslo vůbec snažit. Není to hledání výmluv. "It is better to be approximately right, than exactly wrong" hezký český překlad neznám.

Citace: Michal Hmmm 29. 04. 2014, 15:02:42

No jistě, ale už nic to neříká kolik domén bylo registrováno spekulativně, a kolik jich je používáno aktivně. Kolik jich zaniklo nebo kolik má která těch subdomén, atd ...

Všechno to jsou hodně neostré pojmy. Podle toho, jak se nastaví prahy budou výsledky řádově jiné.

Zopper · « **Odpověď #22 kdy:** 29. 04. 2014, 15:34:23 »

Citace: JSH 29. 04. 2014, 15:22:55

+1

Citace: Michal Hmmm 29. 04. 2014, 15:02:42

No jistě, ale už nic to neříká kolik domén bylo registrováno spekulativně, a kolik jich je používáno aktivně. Kolik jich zaniklo nebo kolik má která těch subdomén, atd ...

A ten crawler bude tak chytrý, že to dokáže poznat? A i pokud to vezmeš stylem "dostanu se na nějaký web -> je používaná aktivně" (bez ohledu na to, že to bude něco ve stylu "tato doména je registrovaná u AAA Domény"), tak se stejně nedostaneš na všechny aktivní weby a na druhou stranu ti do druhého dne spousta webů skončí. Nebo třeba někde bude zrovna výpadek připojení... To procházení bude mít ještě menší vypovídací hodnotu, než report správce domény.
(A pořád nemáš jasnou definici toho, co vlastně chceš změřit!)

Citace: Michal Hmmm 29. 04. 2014, 15:02:42

Navíc je to číslo jednoho správce, co další, jak to ověřit, neudělal někdo někdy nějakou chybu ve sčítání ...

Co další... Já nevím, třeba vlézt na jejich stránky a zkusit najít "report"? A promiň, ale budu víc věřit číslu, které si registrátor vytáhl ze svojí databáze, než crawleru.

Citace: Michal Hmmm 29. 04. 2014, 15:02:42

A jak velký by měl být reprezentativní vzorek pro takovou matematiku nyní jsem podle všech těchto odhadů někde na 10^-6% (nepletu-li se) to bych řekl je na posuzování čehokoliv dost málo. To by bylo málo i kdyby se zaměři na jednu tld.

No, to záleží na tom, jak moc dobrý jsi matematik a jakou hladinu pravděpodobnosti chceš... :-) Víme jen o jedné planetě vhodné pro život a máme "pár zachycených fotonů" na vzdálenost spousty světelných let, ale stejně se z toho dá dělat statistický odhad počtu zemi podobných planet.

Suma sumárum: Crawlera si klidně dál vylepšuj, bav se, ale nevydávej to za nějaká relevantnější data, než "co můj crawler nasbíral". A třeba zkus začít i procházet obsah a dělat si třeba databázi zajímavých stránek.

perceptron · « **Odpověď #23 kdy:** 29. 04. 2014, 16:54:22 »

hlavne nerozumiem, naco su *v tejto ulohe* exaktne cisla: maximalne, ze na slajde bude ze 29. 4. 2014 o 16:26 bolo 1234567890123456790 webov*

-------
* merane metodikou Michala Hmmmmm

ak pouzivatelia nezadaju nic a crawlovat sa to bude automaticky, ako chcete rozpoznat unikatne weby? a ako chcete ignorovat spamy a fiktivne portaly, co mirroruju stack overflow? pouzivatelsky / komunitny zaklad dokaze vylepsit vasu umelu inteligenciu, ale podla vasho navrhu to ma byt magicke

Franta <xkucf03/> · « **Odpověď #24 kdy:** 29. 04. 2014, 18:18:36 »

Možná jsem něco přehlédnul, ale pořád mi uchází ten smysl. A proč se radši nezapojíš do vývoje/provozu YaCy? To by mi přišlo užitečnější.

A ještě k tomu „Internetové katalogy i ty největší jsou zoufale neúplné“ – na webu je takového odpadu a spamu, že není o co stát, ta neúplnost je naopak výhodou, nemá cenu katalogizovat všechno.

Filip Jirsák · « **Odpověď #25 kdy:** 29. 04. 2014, 19:21:49 »

Já vůbec netvrdím, že to nejde. Jenom když vůbec nevíte, co vlastně chcete dostat, těžko se navrhuje nějaké technické řešení, a ještě hůř se navrhuje, co na to řeknou lidi. Klidně můžete zblbnout lidi, ať nechají robot stahovat náhodné adresy, když to uděláte šikovně a budete mít štěstí, vyrobíte krásný globální DDoS.

Chcete započítávat i deep web? Jak se na něj dostanete, když na něj nevedou odkazy? Stačí vám to bez? Pak si asi stačí najít nějakou statistiku, kterou publikují vyhledávače. Zkoušel jste odhadnout, jak rychle byste musel weby procházet, abyste vůbec stíhal nově vznikající weby?

Jarin · « **Odpověď #26 kdy:** 30. 04. 2014, 00:25:03 »

Ahoj, mám db "všech" .com domén je jich ~111M celý internet může být třeba i 10x více, když se začnete zabývat doménami 3. řádu dostáváte se zase o pár řádů dále . Krom problému neustáleho přibývání jsou tu další problémy cca polovina z těch 111M již není aktivní (někdo si je zaregistroval a pak je opustil) na plno z nich jsou redirecty (nebo přímé umístění obsahu) na prodej domén a na velké části se nachází malware. Pokud jde o db samotnou tak to problém není, ovšem indexování nedej bože efektivní vyhledávání už zase tak snadné není.

Zamzam · « **Odpověď #27 kdy:** 30. 04. 2014, 00:48:57 »

Ahoj, mohli byste to někdo hodit na ulož.to?
Rád bych se v tom prohrabal, aktuálnost není problém.
Dik.

shejby · « **Odpověď #28 kdy:** 30. 04. 2014, 09:59:15 »

Jarin=Shejby :-)

teď jsem zjistil, že to má 3GB tak to bude asi chvilku trvat ... v jakém formátu je vám to nejpříjemnější sql csv ?

Miramel · « **Odpověď #29 kdy:** 30. 04. 2014, 10:17:19 »

Taky mám zájem a pro mě prosím CSV.

Může komunita zaindexovat celý internet?

Michal Hmmm

Re:Může komunita zaindexovat celý internet?

Reklama

Filip Jirsák

Re:Může komunita zaindexovat celý internet?

Zopper

Re:Může komunita zaindexovat celý internet?

Michal Hmmm

Re:Může komunita zaindexovat celý internet?

Michal Hmmm

Re:Může komunita zaindexovat celý internet?

Reklama

werwertwert

Re:Může komunita zaindexovat celý internet?

JSH

Re:Může komunita zaindexovat celý internet?

Zopper

Re:Může komunita zaindexovat celý internet?

perceptron

Re:Může komunita zaindexovat celý internet?

Franta <xkucf03/>

Re:Může komunita zaindexovat celý internet?

Filip Jirsák

Re:Může komunita zaindexovat celý internet?

Jarin

Re:Může komunita zaindexovat celý internet?

Zamzam

Re:Může komunita zaindexovat celý internet?

shejby

Re:Může komunita zaindexovat celý internet?

Miramel

Re:Může komunita zaindexovat celý internet?