Je lepší 4x RPi4 nebo 4x VM v i5 NUC pro web crawlera?

PanVP · « **Odpověď #15 kdy:** 09. 07. 2021, 15:53:07 »

Suma vstupu - balast = 10% výstupu?
Tak bych to dal na ty RPi.
Jsou místa, kde můžeš crawlit zdarma, aniž bys někoho obtěžoval. Možná v noci na konektivitě ve škole, v kavárně, v práci na WIFI pro zaměstnance, u babči na DSL. RPi se vleze všude. To neobtěžoval je zásadni! Někam jebneš crawluj.csv a výsledky zazipuješ a uploaduješ někam. WatchDoga uděláš třeba z ESP.

Za 300 jsou RPi like ovoceazeleniny. Zcrawlovaná data sypej na ramdisk, nic nezapisuj. Udělej si cron.job na úlohy, co mají přijít do cronu, update.job pro aktualizace crawlera...

Kdysi jsem takhle crawlil, ošustil jsem všechny stránky v čr za měsíc a půl. Jen ne do hloubky.

Dneska bych zase použil RPI, zamontoval je do 1U case a prdnul to do DC6. Za litr měsíčně si to žije svým životem na 1GbE.

Těch věcí, kolik se do 1U vleze, je hrozně moc. Konektivitu dostaneš IPv6 zadarmiko, zbytek NAT.

RPi můžeš nahradit VPS, ale tam bych použil filtr. Tj. jde o to získat data, ořezat je a okamžitě poslat dál. VPS filtruje balast, za 200Kč získáš získáš konektivitu, předzpracuješ data, aby to prolezlo přes DSL a zpracuješ doma.

Reklama

PanVP · « **Odpověď #16 kdy:** 10. 07. 2021, 15:37:21 »

Doplnění: Zrovna včera jsem viděl reklamu na VPS za 29 Kč (běžně tak 100 Kč).
Nějaké směšné systémové prostředky (tuším necelé GB RAM a disk do pěti GB), ale mělo veřejnou IP a za 30 Kč se jich dá pustit třeba deset.

Něco podobného by šlo i na Amazoním cloudu, generovat si je automaticky. Ale u Amazoního cloudu pozor na přenosy, oni mají sice "neomezenou" konektivitu, ale platí se tam nějaký 1 šprušlík za XY přenesených dat. Když těch dat přeneseš hodně, náklady lezou strmě nahoru. Nicméně Amazoní i jiné Cloudy běžně dávají nějaké drobné "na vyzkoušení služeb". Pokud by byly třeba 200 Kč měsíčně moc...

EDIT: Pokud by ses do toho pustil, dej vědět, jak získáváš seznam webových stránek v ČR. Já šel tupou cestou prohledávání seznamu vydaných SSL certifikátů a druhou "horší" cestou skenování "českých" IPv4 adres. To je bohužel celkem bolest, protože adresní prostor IPv4 je poměrně rozbitý a navíc, pokud je na nějaké webové adrese víc serverů, bez správného požadavku máš peška. Řešení je samozřejmě po adresy, na kterých webový server žije, zkusit reverzní DNS dotaz. No někdy to pomůže... Docela rád bych znal tvojí cestu.

Doplnění: Nezkoušej Crawlovat Google, crawlování nesnáší a při pokusu o vyhledávání bys pak musel řešit pokaždé captcha a navíc tě můžou zařadit na blacklist...což někteří poskytovatelé hodně špatně nesou. Jestli se podobně chová seznam nebo Bing nevím. Mimo to, chování Google se mohlo změnit. Už to jsou léta, co jsem to provozoval....jéééé chtěl jsem udělat vyhledávač, abych konkurovatl Google a měl vlastní DuckDuck

YourDog · « **Odpověď #17 kdy:** 10. 07. 2021, 17:19:04 »

Díky za info, napíšu do zprávy...

luvar · « **Odpověď #18 kdy:** 10. 07. 2021, 23:23:24 »

Tri veci, co ma napadaju k teme:

bottleneck sa hlada "jednoducho"... Zacal by som iotop, iostat, sar, htop a podobnymi. Ked veci nebudu zjavne, tak nasadit cokolvek z repertoaru http://www.brendangregg.com/linuxperf.html
aj nie je nutnost vlastneho kravleru, tak https://yacy.net/ ma pekny kravler a funkcny i pre lokalne pouzitie
otazka, ci app pustat v kontajneri, alebo na virtualkach je "zcestna". Ak nejde o akademicke cvicenie, ale o serioznu app, tak musi byt nakodena tak, aby single app dokazala vyuzit cely server (fyzicky). Inak by to mohlo znamenat mrhanie prostriedkami, alebo nutnost k danej app na dany server prilepit inu app, aby sa doplnali co do spotreby zdrojov. Mam overene v praxi, ze pouzivanim "epol" (https://man7.org/linux/man-pages/man7/epoll.7.html, v jave je to nio balicek) je mozne na jednom threade "pocuvat" na milione endpointov (ip:port) a v jednom threade sa aplikacia ani nezapoti, ked ma odpovedat kratkymi spravami na kratke requesty (TCP). Latencia (95p) bola pod milisekundu. Pripadne odporucam mrknut 10k problem (https://en.wikipedia.org/wiki/C10k_problem) a jeho nastupcovia.

ondrah · « **Odpověď #19 kdy:** 13. 07. 2021, 14:51:56 »

Citace: PanVP 10. 07. 2021, 15:37:21

Doplnění: Nezkoušej Crawlovat Google, crawlování nesnáší a při pokusu o vyhledávání bys pak musel řešit pokaždé captcha a navíc tě můžou zařadit na blacklist...což někteří poskytovatelé hodně špatně nesou. Jestli se podobně chová seznam nebo Bing nevím.

Tohle je snad lepší řešit obecně tím, že budu respektovat robots.txt, ne? Pak nemusím zkoumat, jak to ten který web snáší, crawler to zjistí automaticky.

Reklama

YourDog · « **Odpověď #20 kdy:** 13. 07. 2021, 23:46:07 »

Citace: ondrah 13. 07. 2021, 14:51:56

Citace: PanVP 10. 07. 2021, 15:37:21
Doplnění: Nezkoušej Crawlovat Google, crawlování nesnáší a při pokusu o vyhledávání bys pak musel řešit pokaždé captcha a navíc tě můžou zařadit na blacklist...což někteří poskytovatelé hodně špatně nesou. Jestli se podobně chová seznam nebo Bing nevím.

Tohle je snad lepší řešit obecně tím, že budu respektovat robots.txt, ne? Pak nemusím zkoumat, jak to ten který web snáší, crawler to zjistí automaticky.

Crawlování je žádoucí, bez toho by se jinak nic nevyhledalo, nefungovala by ani heureka nic. Ale stále se z toho dělá šedá zóna nebo něco co dělají hackeři/spameři aby získali seznam emailu a podobně a plete se to s bezohledným scrapingem webů a dat, co shazuje weby.
Jinak ten google robots.txt je dost perverzní, to jsem ještě neviděl

https://www.google.com/robots.txt

Je lepší 4x RPi4 nebo 4x VM v i5 NUC pro web crawlera?

PanVP

Re:Je lepší 4x RPi4 nebo 4x VM v i5 NUC pro web crawlera?

Reklama

PanVP

Re:Je lepší 4x RPi4 nebo 4x VM v i5 NUC pro web crawlera?

YourDog

Re:Je lepší 4x RPi4 nebo 4x VM v i5 NUC pro web crawlera?

luvar

Re:Je lepší 4x RPi4 nebo 4x VM v i5 NUC pro web crawlera?

ondrah

Re:Je lepší 4x RPi4 nebo 4x VM v i5 NUC pro web crawlera?

Reklama

YourDog

Re:Je lepší 4x RPi4 nebo 4x VM v i5 NUC pro web crawlera?