No, myslím, že OP má už dostatek záznamů na to, aby to nestíhal zpracovat. Zmíněné certificate transparency bude obsahovat všechny bezpečnost dobře funkční* weby na HTTPS. Vzhledem k tomu, že asi přes 3/4 provozu jde přes HTTPS, bude to asi významná část webu. Ano, přes 3/4 provozu není nutně přes 3/4 webů, ale otázka je, jak moc Vás zajímají stránky, kam prakticky nikdo nechodí.
Pokud chcete experimentovat s nějakým vyhledávacím algoritmem, máte nyní IMHO dost dat na to, abyste to bez větších investic do infrastruktury nezvládal zpracovat (doba indexování, velikost úložiště, datový tok, …). Můžete se k tomu postavit:
a) zaindexuju, co zaindexuju, pro experiment to bude stačit
b) omezit scope, například pouze na české stránky nebo na weby na doméně cz (i to je docela dost)
Upřímně si nemyslím, že byste byl schopen vymyslet lepší algoritmus, než jaký má celý Google. Neberte mě špatně, ale když si vezmete, kolik lidí na tom v celém Googlu pracuje, je to dost nepravděpodobné. I tak taková věc může mít smysl:
a) Na nějaké dost omezené skupině webů by se to s dobrým nápadem podařit mohlo. Pak bych ale vzal do úvahy tu skupinu webů již na začátku, tedy pří sbírání seznamu webů k zaindexování.
b) Může to být cvičení, při kterém se něco naučíte.
*) tím nemyslím weby s neplatným certifikátem