Jak zabránit harvestování WWW?

ByCzech · « **Odpověď #30 kdy:** 29. 02. 2016, 21:16:10 »

Určitě existují nějaké techniky jak se bráni, ale trochu to někdy připomíná boj dona Quichotta s větrnými mlýny.

Jde v principu jen o dvě věci, které se musí vyřešit

1. Detekce takového vykradače

2. Akce, kterou chceme takovému "uživateli" provést

Ad 1.

Typicky je možná detekce podle množství dotazů, ale ne vždy účinná. Když vykradači na datech opravdu záleží, zajistí si dostatek IP adres, aby zátěž rozložil nebo aby se maskoval za vyhledávač ap.). Takže je lepší třeba nalíčit na takového crawlovacího bota např. návnadu v podobě speciální stránky, na které není nic užitečného. Stránku ZAKÁZAT v robots.txt, takže se slušný vyhledávač na návnadu nechytí a někde na stránkách dát odkaz na tuto stránku a kaskádami tento odkaz skrýt, třeba display: none; nebo bílý text na bílém podkladu a podobně. Běžný uživatel se na ni nedostane, ale vykradač na ni vleze, tím je detekován.
Fantazii pro další způsoby detekce se samozřejmě meze nekladou.

Ad 2.

- zablokovat po detekci IP

- zpomalit

- nahrnout vykradači falešná data

Tady se taktéž fantazii meze nekladou.

Nicméně jak jsem řekl prve, je to trochu boj s větrnými mlýny, protože když na to vykradač přijde, udělá protiopatření, aby se to nedělo. Je proto třeba s ním držet krok a hlavně, jak už tu nejednou padlo, je třeba bránit se zároveň právní cestou. Je to trochu běh na dlouhou trať, ale ptal jste se, odpovídám. Záleží na vás, jestli vám data stojí za takový boj nebo ne.

Reklama

to_je_jedno · « **Odpověď #31 kdy:** 29. 02. 2016, 22:49:38 »

Citace: Michal Švarc 29. 02. 2016, 18:37:56

pokud tam je zhruba něco jako
Kód: [Vybrat]
<div><div name="nazev">Název zboží</div><div name="popis">Popis zboží</div></div> (pro každý výrobek), pak se má robot čeho chytit a je pro něj snažší s informacemi pracovat.

Irelevantni. EDIT: protoze robot neni robot, ale clovek ktery robota naprogramoval.

lobo · « **Odpověď #32 kdy:** 29. 02. 2016, 22:56:00 »

cele je to otazka penazi a vynalozenej namahy - z obidvoch stran...

vies kde tie data koncia? (je to 1-2 velke konkurencie co ti vytahali 2/3 obrazkov a popisov, alebo 1000 ludi si stiahne po 2-3 obrazkoch a vyvesi si ich na fakebook?)

naklady na 1 fotku s popisom sa daju celkom dobre odhadnut. v podobnom pripade poskodeny dal do vseobecnych obchodnych podmienok na stranke ze za pouzitie foto bude uctovat jednorazovy poplatok 150Sk + 30Sk za mesiac pouzivania. Trom firmam takto vystavil fakturu dokopy asi na 100.000 Sk a potom bolo okolo toho celkom veselo. vysledok bol uspokojivy :-)

Michal Švarc · « **Odpověď #33 kdy:** 02. 03. 2016, 01:04:21 »

Citace: to_je_jedno 29. 02. 2016, 22:49:38

Irelevantni. EDIT: protoze robot neni robot, ale clovek ktery robota naprogramoval.

Nechápu proč by to mělo být irelevantní. Ano, robot se chová podle toho jak ho člověk naprogramuje. Nicméně pokud by se robot v textu neměl čeho chytit, měl by to ten člověk pak daleko obtížnější, ne?

ByCzech · « **Odpověď #34 kdy:** 02. 03. 2016, 02:24:14 »

Citace: Michal Švarc 02. 03. 2016, 01:04:21

Citace: to_je_jedno 29. 02. 2016, 22:49:38
Irelevantni. EDIT: protoze robot neni robot, ale clovek ktery robota naprogramoval.
Nechápu proč by to mělo být irelevantní. Ano, robot se chová podle toho jak ho člověk naprogramuje. Nicméně pokud by se robot v textu neměl čeho chytit, měl by to ten člověk pak daleko obtížnější, ne?

Protože člověk není robot a jako takový má inteligenci a když někdo něco vymyslí, tak jiný na to přijde. Patří to k lidskému bytí.

Reklama

to_je_jedno · « **Odpověď #35 kdy:** 02. 03. 2016, 08:10:10 »

Citace: Michal Švarc 02. 03. 2016, 01:04:21

Nechápu proč by to mělo být irelevantní. Ano, robot se chová podle toho jak ho člověk naprogramuje. Nicméně pokud by se robot v textu neměl čeho chytit, měl by to ten člověk pak daleko obtížnější, ne?

Robot se tam niceho nechyta. Tohle vlastne neni robot. Takovy crawler na konkretni site nema zadnou inteligenci, je to jen stroj pro "nekonecne" opakovani. To jaka data a podle jakeho klice ma hledat mu rika programator. A je uplne jedno jestli mu reknu at najde div s id="nazev" nebo mu reknu najdi 8. div ktery nasleduje po h1 s tridou titulek-webu.
Pokud jako tvurce toho stahovace najdu nejake pravidla podle kterych data parsovat tak je proste budu parsovat. Takze hypoteticky by mohlo fungovat nejaky random generovani trid a id prvku, ale to by zase musel pro kazdy page load generovat CSS + JS a to by asi nebylo moc prakticke...

Pavouk106 · « **Odpověď #36 kdy:** 02. 03. 2016, 08:48:54 »

Otázka je, jak je nástroj udělanej. Pokud jen vykrádá konkrétní části stránky (tj. obrázky, názvy a popisy produktu), tak robots.txt je k ničemu, stejně jako nějaká speciální stránka, kde by ho nachytal. Pokud přistupuje z jedný IP adresy Případně z více IP adres nějaký cloudový služby - tak bych to asi na jeho místě dělal, pokud bych teda nesehnal dost známých, u kterých bych to pustil doma), tak by se dal najít podle přístupových logů k serveru (Apache). Bude se buď opakovat (jedna IP) u haldy obrázků, nebo to bude IP, která je privátní pro ten cloud (= nedostane jí běžněj Franta uživatel), případně je to IP z rozsahu cloudový služby (platí to samý co předtím, nedostane jí BFU).

Možná by se dalo vzít log, vyparsovat adresy, prohnat je přes WHOIS a z výsledku vyparsovat podezřelý věci (vynechat velký hráče - poskytovatele domácího připojení). Touhle cestou bych šel já, abych odhalil původce nebo na něj získal vazbu (pro soud). Blokovat IP ale nebude mít žádnej výsledek, sežene si jinou (jiné).

Do budoucna watermark na obrázky a/nebo do podmínek uvést to ohodnocení, jak pal lobo (když pak konkurenci pošleš fakturu na půl milionu, začne zajímavej spor :-) ). Pokud máš originály nebo seženeš fotografa, kterej to pro vás fotil (aby to odsvědčil, případně dodal originály, jestli je má), tak není o čem.

Pavouk106 · « **Odpověď #37 kdy:** 02. 03. 2016, 08:50:38 »

Ještě by šlo vytvořit nějakej automatickej systém, kterej by jednou za čas (měsic?) rotoval několik (třeba 10) různých kódů webu (kterej by ale vypadal navenek stále stejně) a ono by to konkurenci přestalo brzo bavit (pořád přepisovat parsery). Ale je jako Sisyfos - ten šutr z toho kopce stejně nakonec vždycky sjede dolu...

boo · « **Odpověď #38 kdy:** 02. 03. 2016, 09:13:23 »

Reseni je samozrejme jednoduche. Generujte stranky do png a html bude mit pouze <body><img src="stranka.png"/></body>. Klikani udelate pres mapy. Nebude to sice moc responzivni ale kazdy browser to ukaze stejne a vykradaci jsou namydleni a budou muset spoustet nejake OCR

to_je_jedno · « **Odpověď #39 kdy:** 02. 03. 2016, 09:23:37 »

Citace: Pavouk106 02. 03. 2016, 08:48:54

Bude se buď opakovat (jedna IP) u haldy obrázků

Tohle si myslim, ze nebude tak easy. IMHO kdybych byl na druhe strane tak stahnu stranku produktu, vyparsuju, stahnu obrazek atd. Tedy chovani velmi podobne realnemu uzivateli.

to_je_jedno · « **Odpověď #40 kdy:** 02. 03. 2016, 09:25:24 »

Citace: boo 02. 03. 2016, 09:13:23

Reseni je samozrejme jednoduche. Generujte stranky do png
...
vykradaci jsou namydleni a budou muset spoustet nejake OCR

Takze:
- zakaznikum se to bude pomalu nacitat (a zrat brutalne FUP)
- vubec nic jsem nezabezpecil protoze pouzit OCR by v tomto pripade bylo snad jednodussi nez to parsovat z DOM stromu...
- jako bonus dostanu nulovou dohledatelnost mych produktu v google. A TO SE VYPLATI!

to_je_jedno · « **Odpověď #41 kdy:** 02. 03. 2016, 09:26:59 »

Citace: Pavouk106 02. 03. 2016, 08:50:38

Ještě by šlo vytvořit nějakej automatickej systém, kterej by jednou za čas (měsic?) rotoval několik (třeba 10) různých kódů webu (kterej by ale vypadal navenek stále stejně) a ono by to konkurenci přestalo brzo bavit (pořád přepisovat parsery). Ale je jako Sisyfos - ten šutr z toho kopce stejně nakonec vždycky sjede dolu...

Rotace x je o nicem - v crawleru budu mit 10 funkci s jednou napred jako detekci. Pokud to bude skutecne rotovat tak po me chtel jen prvotni casovou investici.
Aby to on porad prepisoval unikatne co mesic ho to asi prestane bavit driv nez me...

lojza · « **Odpověď #42 kdy:** 02. 03. 2016, 09:46:52 »

uz se to tu dloooouze rozebiralo neni treba dalsi thread..

placeny pristup login/passwd, jen x stranek/ dotazu z dane IP za jednotku casu pak nic nebo captcha, captcha (riziko indove..), honeypots,

katastr nemovitosti vcetne sbirky listin taky nestahnes

http://forum.root.cz/index.php?topic=11893.0

Ondrej Nemecek · « **Odpověď #43 kdy:** 02. 03. 2016, 11:59:11 »

Citace: lojza 02. 03. 2016, 09:46:52

uz se to tu dloooouze rozebiralo neni treba dalsi thread.. placeny pristup login/passwd, jen x stranek/ dotazu z dane IP za jednotku casu pak nic nebo captcha, captcha (riziko indove..), honeypots, katastr nemovitosti vcetne sbirky listin taky nestahnes http://forum.root.cz/index.php?topic=11893.0

Přesně tak:

buď omezíte skupinu příjemců a budete je smluvně vázat (čímž váš problém mizí)
nebo ta data jednoduše otevřete a změníte obchodní model (čímž problém také zmizí)

Mezi těmito variantami neexistuje žádné třetí stabilní řešení, nanejvýš se budete donekonečna předhánět s těžiči vašich dat.

Citace

Ekonom Paul Romer, jehož práce publikované v devadesátých letech utvářely naše porozumění informačního kapitalismu, definoval informace jako "instrukce jak věci vyrábět". Protože jsou tyto instrukce kopírovatelné s minimálním množstvím pracovních nákladů a protože se při výrobním procesu nespotřebovávají, Romer dospěl k závěru, že nakonec budou nesmírně levné, anebo budou k dispozici zadarmo. - Zdroj: http://blisty.cz/art/81323.html#sthash.kiXh9ALx.dpuf

Podle této teze tedy pořizovací cena dat neurčuje jejich cenu, protože libovolná pořizovací cena je postupně kompenzována neomezenou replikovatelností. To dobře odpovídá názoru některých lidí, že patenty by měly platit tak krátkou dobu, aby pouze zajistili krátkodobou konkurenční výhodu na začátku (třeba 2 roky).

Jak zabránit harvestování WWW?

ByCzech

Re:Jak zabránit harvestování WWW?

Reklama

to_je_jedno

Re:Jak zabránit harvestování WWW?

lobo

Re:Jak zabránit harvestování WWW?

Michal Švarc

Re:Jak zabránit harvestování WWW?

ByCzech

Re:Jak zabránit harvestování WWW?

Reklama

to_je_jedno

Re:Jak zabránit harvestování WWW?

Pavouk106

Re:Jak zabránit harvestování WWW?

Pavouk106

Re:Jak zabránit harvestování WWW?

boo

Re:Jak zabránit harvestování WWW?

to_je_jedno

Re:Jak zabránit harvestování WWW?

to_je_jedno

Re:Jak zabránit harvestování WWW?

to_je_jedno

Re:Jak zabránit harvestování WWW?

lojza

Re:Jak zabránit harvestování WWW?

Ondrej Nemecek

Re:Jak zabránit harvestování WWW?