Může komunita zaindexovat celý internet?

Může komunita zaindexovat celý internet?
« kdy: 29. 04. 2014, 11:27:46 »
Trošku bulvární předmět, ale z nějaké osobní zvědavosti či zvídavosti. Hledal jsem volně dostupnou databázi/informaci o počtu webových stránek či nějaký seznam webových míst. Internetové katalogy i ty největší jsou zoufale neúplné, vyhledávače své databáze nezveřejňují….

Jako blázen a snílek jsem začal podobnou databázi jako experiment sestavovat sám, ale pro jednotlivce je podobné snažení řekl bych Sysifofská práce.

Jak složité by asi bylo zorganizovat projekt, kdy dobrovolníci procházeli web a výsledky ukládali do společné databáze? Po technické stránce by to asi až takový problém být neměl. Ale sociologické hledisko mi vrtá hlavou. Najdou se lidé, kteří se takového projektu budou chtít zúčastnit?

Má databáze se nyní téměř 600 000 záznamů, ale nárůst je již relativně pomalý, pokud by se zde vyskytl někdo, kdo by se chtěl zapojit do procházení webu již nyní může mě kontaktovat, odměnou by mu byl seznam aktivních domén 3. řádu (případně i vyfiltrovaný seznam domén 2. řádu)


Sten

Re:Může komunita zaindexovat celý internet?
« Odpověď #1 kdy: 29. 04. 2014, 12:00:56 »
Nechápu, proč to mají dělat nějací dobrovolníci. Roboti tohle dokážou mnohem efektivněji a přesněji.

Franta <xkucf03/>

Re:Může komunita zaindexovat celý internet?
« Odpověď #2 kdy: 29. 04. 2014, 12:03:57 »
Existují různé wiki a portály zaměřené na určitou oblast, které shromažďují i odkazy – tam občas najdeš zajímavé věci, které by v obecném vyhledávači typu Googlu byly až na několikáté stránce (jestli vůbec).

Ale dělat univerzální katalog je asi blbost – nedokážeš posoudit, co je zajímavé a co už ne, bude se ti tam cpát spousta SEO spamu… Fulltext + sémantický web je lepší cesta.

Koukni na decentralizovaný vyhledávač YaCy

Re:Může komunita zaindexovat celý internet?
« Odpověď #3 kdy: 29. 04. 2014, 12:13:26 »
Co by vůbec mělo být výsledkem té práce? Seznam domén? Seznam domén druhé úrovně? Seznam webových adres? Seznam webových adres s nějakým komentářem?

Makovec

Re:Může komunita zaindexovat celý internet?
« Odpověď #4 kdy: 29. 04. 2014, 12:20:25 »
Zaindexovat nevím, ale ohlodat určitě...


Re:Může komunita zaindexovat celý internet?
« Odpověď #5 kdy: 29. 04. 2014, 12:20:56 »
Nechápu, proč to mají dělat nějací dobrovolníci. Roboti tohle dokážou mnohem efektivněji a přesněji.

Protože ten robot musí běžet na nějaké stroji, a ten musí někdo koupit a provozovat. Spustí-li někdo na svém běžném PC tak se náklady mohou rozložit a potřebný výpočetní výkon mohou rozložit na více strojů účastníků. Nehledě na to, že takováto PC jsou často předimenzována a nevyužita.

Miramel

Re:Může komunita zaindexovat celý internet?
« Odpověď #6 kdy: 29. 04. 2014, 12:27:08 »
Ahoj,

pošli e-mail, kam se ti dá psát, podobný projekt startuji v létě.

Dík :-)

Re:Může komunita zaindexovat celý internet?
« Odpověď #7 kdy: 29. 04. 2014, 12:30:56 »
Co by vůbec mělo být výsledkem té práce? Seznam domén? Seznam domén druhé úrovně? Seznam webových adres? Seznam webových adres s nějakým komentářem?

Tak předpokládám, že seznam domén 2. úrovně by se dal jednodušeji získat od registrátorů. V současnosti jsem to pojal spíše jako seznam aktivních webů. Pro mě osobně je to něco jako základní výzkum.
Pokud by se měl projekt rozjet, tak v první fázi by to bylo dobré tak maximálně pro studijní nebo statistické účely. Študáků do diplomek, nebo nějakým sociologům ...

Re:Může komunita zaindexovat celý internet?
« Odpověď #8 kdy: 29. 04. 2014, 12:32:39 »
Ahoj,

pošli e-mail, kam se ti dá psát, podobný projekt startuji v létě.

Dík :-)

Použít můžete email ze zdejšího profilu. (http://forum.root.cz/index.php?action=profile;u=2630)

Re:Může komunita zaindexovat celý internet?
« Odpověď #9 kdy: 29. 04. 2014, 12:43:55 »
Ale dělat univerzální katalog je asi blbost – nedokážeš posoudit, co je zajímavé a co už ne, bude se ti tam cpát spousta SEO spamu… Fulltext + sémantický web je lepší cesta.

Koukni na decentralizovaný vyhledávač YaCy

Nemíním dělat katalog nebo vyhledávač jako takový. Výstupem by měla být spíše databáze/soubor dat vhodná k nějakému statistickému zpracování.

Ale díky za YaCy způsob sběru a princip uchování dat by ve finále měl být podobný nebo totožný ... ale k tomu je cesta daleká ;-)

perceptron

Re:Může komunita zaindexovat celý internet?
« Odpověď #10 kdy: 29. 04. 2014, 13:00:23 »
aky je rozdiel medzi katalogom a vasim webom? [asi je jasne, ze centralizovane katalogy ako myslienka su mrtve]

lebo ak pouzivatel zada do katalogu url, nazov a popis
a do vasho systemu co nie je katalogom zada url nazov a popis...

alebo aky je rozdiel medzi googlom a vami? okrem toho, ze ludske usilie odfiltruje ocividny spam a kazdy blog / portal / sajtu zareprezentuje jednym zaznamom?

lebo to rozhodne, ci je to fakt ocividna blbost, alebo koncept, ktory bol a neujal sa alebo nejaky napad.





Re:Může komunita zaindexovat celý internet?
« Odpověď #11 kdy: 29. 04. 2014, 13:12:22 »
V současnosti jsem to pojal spíše jako seznam aktivních webů.
Jak poznáte, co je jeden web? A navíc automatizovaně…

Různé odhady počtu stránek se pohybují kolem řádu jeden bilion (1012) – 1 bilion unikátních URL nalezených Google, odhadovaných 500 miliard stránek v hlubokém webu. Takže už máte jednu miliontinu.

jehovista

Re:Může komunita zaindexovat celý internet?
« Odpověď #12 kdy: 29. 04. 2014, 13:12:40 »
Petr Hejl?

Re:Může komunita zaindexovat celý internet?
« Odpověď #13 kdy: 29. 04. 2014, 13:23:13 »
aky je rozdiel medzi katalogom a vasim webom? [asi je jasne, ze centralizovane katalogy ako myslienka su mrtve]

No hlavní asi v tom, že to nemá (ani v plánu) žádný "frontend"

lebo ak pouzivatel zada do katalogu url, nazov a popis
a do vasho systemu co nie je katalogom zada url nazov a popis...
... no nezadá, nebude mít kde ... výstupem nemá být žádná aplikace, alespoň v současném pojetí ...

alebo aky je rozdiel medzi googlom a vami? okrem toho, ze ludske usilie odfiltruje ocividny spam a kazdy blog / portal / sajtu zareprezentuje jednym zaznamom?

lebo to rozhodne, ci je to fakt ocividna blbost, alebo koncept, ktory bol a neujal sa alebo nejaky napad.
žádná cenzura žádné filtrování, to nechť si řeší až uživatelé těch dat ....
a lidskému úsilí bych se při práci s takovým množstvím dat také raději co nejvíce vyhýbal

Re:Může komunita zaindexovat celý internet?
« Odpověď #14 kdy: 29. 04. 2014, 13:29:23 »
Jak poznáte, co je jeden web? A navíc automatizovaně…
Nevím, nějaký nápad?
V současnosti to jsou právě ty domény 3. řádu


Různé odhady počtu stránek se pohybují kolem řádu jeden bilion (1012) – 1 bilion unikátních URL nalezených Google, odhadovaných 500 miliard stránek v hlubokém webu. Takže už máte jednu miliontinu.
No právě odhady, spekulace ... Vás nikdy nezajímala skutečnost, exaktní čísla?