+1
No jistě, ale už nic to neříká kolik domén bylo registrováno spekulativně, a kolik jich je používáno aktivně. Kolik jich zaniklo nebo kolik má která těch subdomén, atd ...
A ten crawler bude tak chytrý, že to dokáže poznat? A i pokud to vezmeš stylem "dostanu se na nějaký web -> je používaná aktivně" (bez ohledu na to, že to bude něco ve stylu "tato doména je registrovaná u AAA Domény"), tak se stejně nedostaneš na všechny aktivní weby a na druhou stranu ti do druhého dne spousta webů skončí. Nebo třeba někde bude zrovna výpadek připojení... To procházení bude mít ještě menší vypovídací hodnotu, než report správce domény.
(A pořád nemáš jasnou definici toho, co vlastně chceš změřit!)
Navíc je to číslo jednoho správce, co další, jak to ověřit, neudělal někdo někdy nějakou chybu ve sčítání ...
Co další... Já nevím, třeba vlézt na jejich stránky a zkusit najít "report"? A promiň, ale budu víc věřit číslu, které si registrátor vytáhl ze svojí databáze, než crawleru.
A jak velký by měl být reprezentativní vzorek pro takovou matematiku nyní jsem podle všech těchto odhadů někde na 10-6% (nepletu-li se) to bych řekl je na posuzování čehokoliv dost málo. To by bylo málo i kdyby se zaměři na jednu tld.
No, to záleží na tom, jak moc dobrý jsi matematik a jakou hladinu pravděpodobnosti chceš... :-) Víme jen o jedné planetě vhodné pro život a máme "pár zachycených fotonů" na vzdálenost spousty světelných let, ale stejně se z toho dá dělat statistický odhad počtu zemi podobných planet.
Suma sumárum: Crawlera si klidně dál vylepšuj, bav se, ale nevydávej to za nějaká relevantnější data, než "co můj crawler nasbíral". A třeba zkus začít i procházet obsah a dělat si třeba databázi zajímavých stránek.