Suma vstupu - balast = 10% výstupu?
Tak bych to dal na ty RPi.
Jsou místa, kde můžeš crawlit zdarma, aniž bys někoho obtěžoval. Možná v noci na konektivitě ve škole, v kavárně, v práci na WIFI pro zaměstnance, u babči na DSL. RPi se vleze všude. To neobtěžoval je zásadni! Někam jebneš crawluj.csv a výsledky zazipuješ a uploaduješ někam. WatchDoga uděláš třeba z ESP.
Za 300 jsou RPi like ovoceazeleniny. Zcrawlovaná data sypej na ramdisk, nic nezapisuj. Udělej si cron.job na úlohy, co mají přijít do cronu, update.job pro aktualizace crawlera...
Kdysi jsem takhle crawlil, ošustil jsem všechny stránky v čr za měsíc a půl. Jen ne do hloubky.
Dneska bych zase použil RPI, zamontoval je do 1U case a prdnul to do DC6. Za litr měsíčně si to žije svým životem na 1GbE.
Těch věcí, kolik se do 1U vleze, je hrozně moc. Konektivitu dostaneš IPv6 zadarmiko, zbytek NAT.
RPi můžeš nahradit VPS, ale tam bych použil filtr. Tj. jde o to získat data, ořezat je a okamžitě poslat dál. VPS filtruje balast, za 200Kč získáš získáš konektivitu, předzpracuješ data, aby to prolezlo přes DSL a zpracuješ doma.