Fórum Root.cz

Hlavní témata => Server => Téma založeno: butan 29. 02. 2016, 09:01:24

Název: Jak zabránit harvestování WWW?
Přispěvatel: butan 29. 02. 2016, 09:01:24

Zdravím, před časem se tady v jiném vlákně řešilo jak zobrazit data na www a přitom blokovat jejich kopírování.

Mám asi podobný problém, rozsáhlejší web (Apache/PHP/Mysql), tisíce produktů (kategorie, uspořádání, parametry, popisky, obrázky), problém je, že nás vykrádá konkurence, existují techniky jak detekovat takového robota a následně blokovat?
(aktuálně si hraju s robots.txt, tak že pomocí disallow direktivy udělám past kam se nemají roboti dívat a hlídám ji co tam leze a loguji si přístupy, aby něco viděl, ale je to takové diskutabilní)
Nějaká nápady, díky But.

Název: Re:Harvestování WWW
Přispěvatel: hu 29. 02. 2016, 09:19:01

Citace: butan 29. 02. 2016, 09:01:24

Zdravím, před časem se tady v jiném vlákně řešilo jak zobrazit data na www a přitom blokovat jejich kopírování.

Mám asi podobný problém, rozsáhlejší web (Apache/PHP/Mysql), tisíce produktů (kategorie, uspořádání, parametry, popisky, obrázky), problém je, že nás vykrádá konkurence, existují techniky jak detekovat takového robota a následně blokovat?
(aktuálně si hraju s robots.txt, tak že pomocí disallow direktivy udělám past kam se nemají roboti dívat a hlídám ji co tam leze a loguji si přístupy, aby něco viděl, ale je to takové diskutabilní)
Nějaká nápady, díky But.

Musi ti byt jasny, ze to reseni nema. Vzdycky me fascinuje, kdyz se nekdo divi, ze mu zverejnenou informaci nekdo zkopiroval.

Muzete si leda hazet vzajemne klacky pod nohy a cekat, koho to prestane bavit driv.

Název: Re:Harvestování WWW
Přispěvatel: JardaP . 29. 02. 2016, 09:36:38

Tak obrazky by sly opatrit vodotiskem a pokud je najdu u konkurence, tak je tu autorske pravo.

Jinak leda prejit do podzemi a informace sirit kanalem, tetuazi na potkanech.

Název: Re:Harvestování WWW
Přispěvatel: Filip Jirsák 29. 02. 2016, 09:49:57

Citace: hu 29. 02. 2016, 09:19:01

Musi ti byt jasny, ze to reseni nema.

Řešení to samozřejmě má. Není nutné kopírování technicky zabránit, stačí to natolik zkomplikovat, aby se to nevyplatilo. Zároveň hrozí, že při té obraně odříznete nebo naštvete legální uživatele.

Název: Re:Harvestování WWW
Přispěvatel: hu 29. 02. 2016, 10:17:18

Citace: JardaP . 29. 02. 2016, 09:36:38

je tu autorske pravo

Autorske pravo a ochrana "IP" obecne je zlo.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: robotron 29. 02. 2016, 11:17:10

Citace: butan 29. 02. 2016, 09:01:24

(Apache/PHP/Mysql), tisíce produktů (kategorie, uspořádání, parametry, popisky, obrázky), problém je, že nás vykrádá konkurence

Me by dost zajimalo, co tak desne originalniho k vykradani tam mate. Pevne doufam, ze to neni vas pripad, ale podobnou definici splnuji zmrdsky "e-shopy" takovejch tech hejsku, co celou zivnost zalozili jen na SEO a tom, ze si nasekaj od jednoho ICO padesat webkramu, sami nemaj ani sklad, podporu nulovou, pridanou hodnotu zapornou (pleveleni webu balastem). Takovejm bych pral ne vykradani, ale nejakou obdobu machani v ledovy Vltave.

Název: Re:Harvestování WWW
Přispěvatel: Kit 29. 02. 2016, 12:11:22

Citace: hu 29. 02. 2016, 10:17:18

Autorske pravo a ochrana "IP" obecne je zlo.

Nesouhlasím. Zlo z něj udělali až obchodníci, kteří jsou ostatně schopni udělat zlo z čehokoli.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: butan 29. 02. 2016, 12:37:03

Citace: robotron 29. 02. 2016, 11:17:10

Citace: butan 29. 02. 2016, 09:01:24
(Apache/PHP/Mysql), tisíce produktů (kategorie, uspořádání, parametry, popisky, obrázky), problém je, že nás vykrádá konkurence

Me by dost zajimalo, co tak desne originalniho k vykradani tam mate. Pevne doufam, ze to neni vas pripad, ale podobnou definici splnuji zmrdsky "e-shopy" takovejch tech hejsku, co celou zivnost zalozili jen na SEO a tom, ze si nasekaj od jednoho ICO padesat webkramu, sami nemaj ani sklad, podporu nulovou, pridanou hodnotu zapornou (pleveleni webu balastem). Takovejm bych pral ne vykradani, ale nejakou obdobu machani v ledovy Vltave.

Predstavte si, ze jste roky pracovat na firme, budoval ji, zlepsoval vztahy s dodavateli, vypiplal jste ten svuj katalog produktu z niceho, roztridil, nechal nafotit produktove fotky, napsal popisky, zaradil do katalogu, vse rucne, stalo to mrte hodin prace a pak prijde nejaky s prominutim zmrd a zacne to cucat.

Chapu, ze je to boj a nelze to asi vyhrat, ale chtel jsem se aspon zeptat, opravdu nejde o nejaky pseudoweb, jsme nejvetsi distributor v CR a SK. But.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: hu 29. 02. 2016, 12:38:43

Citace: butan 29. 02. 2016, 12:37:03

Citace: robotron 29. 02. 2016, 11:17:10
Citace: butan 29. 02. 2016, 09:01:24
(Apache/PHP/Mysql), tisíce produktů (kategorie, uspořádání, parametry, popisky, obrázky), problém je, že nás vykrádá konkurence

Me by dost zajimalo, co tak desne originalniho k vykradani tam mate. Pevne doufam, ze to neni vas pripad, ale podobnou definici splnuji zmrdsky "e-shopy" takovejch tech hejsku, co celou zivnost zalozili jen na SEO a tom, ze si nasekaj od jednoho ICO padesat webkramu, sami nemaj ani sklad, podporu nulovou, pridanou hodnotu zapornou (pleveleni webu balastem). Takovejm bych pral ne vykradani, ale nejakou obdobu machani v ledovy Vltave.

Predstavte si, ze jste roky pracovat na firme, budoval ji, zlepsoval vztahy s dodavateli, vypiplal jste ten svuj katalog produktu z niceho, roztridil, nechal nafotit produktove fotky, napsal popisky, zaradil do katalogu, vse rucne, stalo to mrte hodin prace a pak prijde nejaky s prominutim zmrd a zacne to cucat.

Chapu, ze je to boj a nelze to asi vyhrat, ale chtel jsem se aspon zeptat, opravdu nejde o nejaky pseudoweb, jsme nejvetsi distributor v CR a SK. But.

Nj, tak jste ten katalog meli davat proti podepsany NDA. Jedina funkcni ochrana IP je o nem nikomu nerikat :-)

Název: Re:Harvestování WWW
Přispěvatel: hu 29. 02. 2016, 12:39:08

Citace: Kit 29. 02. 2016, 12:11:22

Citace: hu 29. 02. 2016, 10:17:18
Autorske pravo a ochrana "IP" obecne je zlo.

Nesouhlasím. Zlo z něj udělali až obchodníci, kteří jsou ostatně schopni udělat zlo z čehokoli.

Muzes rozvest obe ta tvrzeni?

Název: Re:Harvestování WWW
Přispěvatel: Kit 29. 02. 2016, 12:51:33

Citace: hu 29. 02. 2016, 12:39:08

Citace: Kit 29. 02. 2016, 12:11:22
Citace: hu 29. 02. 2016, 10:17:18
Autorske pravo a ochrana "IP" obecne je zlo.

Nesouhlasím. Zlo z něj udělali až obchodníci, kteří jsou ostatně schopni udělat zlo z čehokoli.

Muzes rozvest obe ta tvrzeni?

Tady ne, netýká se to dotazu.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: JardaP . 29. 02. 2016, 12:54:36

Citace: butan 29. 02. 2016, 12:37:03

Predstavte si, ze jste roky pracovat na firme, budoval ji, zlepsoval vztahy s dodavateli, vypiplal jste ten svuj katalog produktu z niceho, roztridil, nechal nafotit produktove fotky, napsal popisky, zaradil do katalogu, vse rucne, stalo to mrte hodin prace a pak prijde nejaky s prominutim zmrd a zacne to cucat.

Chapu, ze je to boj a nelze to asi vyhrat, ale chtel jsem se aspon zeptat, opravdu nejde o nejaky pseudoweb, jsme nejvetsi distributor v CR a SK. But.

Jak rikam, watermarkujte obrazky a sudte se. To je asi jedine, protoze stahovani zabranit nelze.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: robotron 29. 02. 2016, 12:56:39

Citace: butan 29. 02. 2016, 12:37:03

Predstavte si, ze jste roky pracovat na firme, budoval ji, zlepsoval vztahy s dodavateli, vypiplal jste ten svuj katalog produktu z niceho, roztridil, nechal nafotit produktove fotky, napsal popisky, zaradil do katalogu, vse rucne, stalo to mrte hodin prace a pak prijde nejaky s prominutim zmrd a zacne to cucat.

Chapu, ze je to boj a nelze to asi vyhrat, ale chtel jsem se aspon zeptat, opravdu nejde o nejaky pseudoweb, jsme nejvetsi distributor v CR a SK. But.

To si predstavit umim. Vas problem je potom spis pravniho nez technickyho charakteru. Uz minimalne "nafotit produktove fotky" splnuje znaky autorskeho dila. Zarazeni do katalogu nejspis ne (jo, autorskej se pohybuje na pomezi nekolika hodne vagnich pojmu). Sverte to odbnornikum.

Originalitu fotek asi dolozite technicky docela snadno, snad mate aspon od nekolika ks zdrojovy soubory (raw nebo fotakovej JPEG pred upravou).

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: r233 29. 02. 2016, 13:03:22

watermark na obrázky a nějakou zmínku s názvem firmy-eshopu do textu popisu. Pak se to vykrádá blbě. Nebo ještě lépe, blok textu generovaný jako obrázek.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: robotron 29. 02. 2016, 13:16:04

Citace: r233 29. 02. 2016, 13:03:22

Nebo ještě lépe, blok textu generovaný jako obrázek.

Tak to je na superarbitraz: 1. OCR 2. fulltext 3. datovej objem.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: JardaP . 29. 02. 2016, 13:18:09

Citace: r233 29. 02. 2016, 13:03:22

Nebo ještě lépe, blok textu generovaný jako obrázek.

Jako uzivatel bych vas nakopal. Kdyz si budu potrebovat okopirovat nejake info, nez se rozhodnu, co si koupim, tak si budu delat screenshoty nabo co?

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: Ondrej Nemecek 29. 02. 2016, 14:07:37

Ochránit data bude nákladné a pokud mají ta data hodnotu, půjde je přesto získat (jsou firmy, které se tím živí).

Efektivnější bude změnit obchodní model - data prodávejte nebo poskytněte zdarma a nabalte kolem toho služby. Tím si zajistíte vstupenku do budoucnosti :-)

Tolik můj názor.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: k 29. 02. 2016, 15:34:57

co takhle vlozit do obrazku skrytou informaci pres steganografii a to pak pouzit jako dukaz u soudu?

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: to_je_jedno 29. 02. 2016, 15:35:58

IMHO je jedine rozumne reseni v pravni rovine jak uz bylo receno. Stoji to penize, je to zdlouhave, ale ma to nejaky cil. Bojovat na technickem poli nelze. Nedavno tady byl super topic jak nejaky jouda chtel takhle zabezpecit svuj produkt. Byl to obchodak a nepochopil to. Myslel si, ze ma pravdu a ze my jsme lemplove co mu neporadi a slapou mu po jeho konstrukcich s obfuskaci, tokenama apod.

Jinak watermark muze byt i neviditelny pro lidske oko.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: JardaP . 29. 02. 2016, 16:11:05

Citace: k 29. 02. 2016, 15:34:57

co takhle vlozit do obrazku skrytou informaci pres steganografii a to pak pouzit jako dukaz u soudu?

Jiste, watermark. Majitel konkurencniho shopu bude tezko vysvetlovat, jak se do jeho obrazku dostala treba informace o copyrightu tvurce. Ten watermark ale musi byt schopen odolat editaci nebo rekompresi. Ale na to technologie existuji, jen je najit.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: Jenda 29. 02. 2016, 16:16:24

robots.txt? To je ten stahovač tak blbý, že ho respektuje?

Citace: butan 29. 02. 2016, 12:37:03

Predstavte si, ze jste roky pracovat na firme, budoval ji, zlepsoval vztahy s dodavateli, vypiplal jste ten svuj katalog produktu z niceho, roztridil, nechal nafotit produktove fotky, napsal popisky, zaradil do katalogu, vse rucne, stalo to mrte hodin prace a pak prijde nejaky s prominutim zmrd a zacne to cucat.

A konkurence, co to vytahá, spolu se zkopírovanými obrázky získá ty ostatní věci? Ne, získá pouze obrázky, nebude mít vztahy s dodavateli a servis a další věci.

Já bych to watermarkoval, nic lepšího podle mě vymyslet nejde.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: Filip Jirsák 29. 02. 2016, 16:46:49

Citace: Jenda 29. 02. 2016, 16:16:24

robots.txt? To je ten stahovač tak blbý, že ho respektuje?

Právě naopak, tazatel chce detekovat, že stahovač robots.txt nerespektuje.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: JardaP . 29. 02. 2016, 17:08:16

Citace: Filip Jirsák 29. 02. 2016, 16:46:49

Citace: Jenda 29. 02. 2016, 16:16:24
robots.txt? To je ten stahovač tak blbý, že ho respektuje?
Právě naopak, tazatel chce detekovat, že stahovač robots.txt nerespektuje.

Coz je slepa cesta. Stahovac se na robots.txt vysere, to respektuji leda tak slusne vyhledavace a podobne, ale urcite ne zlodeji. Odolny watermark a nasledny soud je jedina cesta. Otazka je, jestli soudruzi soudci z ceskeho soudu budou schopni pochopit, o cem je rec a kolik jim eventuelne da zalovany v hnede obalce.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: P_V 29. 02. 2016, 17:12:25

Vycpat text nějakým vtipným vygenerovaným balastem a ostylovat ten balast tak, že není vidět. Ale robot zloděj se asi na styl dívat nebude.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: Filip Jirsák 29. 02. 2016, 17:31:57

Citace: JardaP . 29. 02. 2016, 17:08:16

Citace: Filip Jirsák 29. 02. 2016, 16:46:49
Citace: Jenda 29. 02. 2016, 16:16:24
robots.txt? To je ten stahovač tak blbý, že ho respektuje?
Právě naopak, tazatel chce detekovat, že stahovač robots.txt nerespektuje.
Coz je slepa cesta. Stahovac se na robots.txt vysere, to respektuji leda tak slusne vyhledavace a podobne, ale urcite ne zlodeji.

Copak jsme to napsal tatarsky?

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: Tomas Korcak 29. 02. 2016, 17:45:18

Protecting the world's most successful websites

http://www.distilnetworks.com/

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: Tomas Korcak 29. 02. 2016, 17:46:14

Citace: Tomas Korcak 29. 02. 2016, 17:45:18

Protecting the world's most successful websites

http://www.distilnetworks.com/

A jeste https://www.youtube.com/watch?time_continue=3&v=aUJ3pKu4cgs

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: Frontstart 29. 02. 2016, 17:54:42

Citace: P_V 29. 02. 2016, 17:12:25

Vycpat text nějakým vtipným vygenerovaným balastem a ostylovat ten balast tak, že není vidět. Ale robot zloděj se asi na styl dívat nebude.

To není zrovna dobrý nápad. Vyhledávač to pravděpodobně bude považovat za pokus o ovlivňování výsledků a odmění tě ztrátou pozic ve vyhledávání.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: Michal Švarc 29. 02. 2016, 18:37:56

Zabránit asi nelze, ale určitě to jde to zesložitit. Jak už tu psali jiní, obrázky by šlo dát s vodotiskem (nebo natvrdo s textem přes), co se textu týká, nevím jak je to řešené z hlediska html. Jen odhaduji a je možné že se mýlím, ale pokud tam je zhruba něco jako

Kód: [Vybrat]

<div><div name="nazev">Název zboží</div><div name="popis">Popis zboží</div></div> (pro každý výrobek), pak se má robot čeho chytit a je pro něj snažší s informacemi pracovat. Pokud by místo toho nebylo žádné name (nebo id), nebo bylo třeba náhodné (a předem neurčitelné), mohlo by být obtížnější získat informace ve stejném tvaru jako nyní.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: robotron 29. 02. 2016, 18:48:36

Vsichni radi vodoznaky viditelne ci neviditelne, budiz, do budoucna urcite. Pokud jste ale psal, ze vas konkretni existujici bridilove uz vykradli, tak proste vezmete original obrazku (formatem a kompresi co nejblize tomu, co leze z fotaku) a kdyz ukazete, ze mate od tehoz obrazku i origos napr. s 2.5x rozlisenim, bude pro znalce dost snadne urcit, ze mensi obrazek z vetsiho mohl byt odvozen, naproti tomu naopak ani s "inteligentnim" zvetsovanim (ruzny fraktaly a mistni strukturalni modely) ziskat ten vas origos nelze.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: ByCzech 29. 02. 2016, 21:16:10

Určitě existují nějaké techniky jak se bráni, ale trochu to někdy připomíná boj dona Quichotta s větrnými mlýny.

Jde v principu jen o dvě věci, které se musí vyřešit

1. Detekce takového vykradače

2. Akce, kterou chceme takovému "uživateli" provést

Ad 1.

Typicky je možná detekce podle množství dotazů, ale ne vždy účinná. Když vykradači na datech opravdu záleží, zajistí si dostatek IP adres, aby zátěž rozložil nebo aby se maskoval za vyhledávač ap.). Takže je lepší třeba nalíčit na takového crawlovacího bota např. návnadu v podobě speciální stránky, na které není nic užitečného. Stránku ZAKÁZAT v robots.txt, takže se slušný vyhledávač na návnadu nechytí a někde na stránkách dát odkaz na tuto stránku a kaskádami tento odkaz skrýt, třeba display: none; nebo bílý text na bílém podkladu a podobně. Běžný uživatel se na ni nedostane, ale vykradač na ni vleze, tím je detekován.
Fantazii pro další způsoby detekce se samozřejmě meze nekladou.

Ad 2.

- zablokovat po detekci IP

- zpomalit

- nahrnout vykradači falešná data

Tady se taktéž fantazii meze nekladou.

Nicméně jak jsem řekl prve, je to trochu boj s větrnými mlýny, protože když na to vykradač přijde, udělá protiopatření, aby se to nedělo. Je proto třeba s ním držet krok a hlavně, jak už tu nejednou padlo, je třeba bránit se zároveň právní cestou. Je to trochu běh na dlouhou trať, ale ptal jste se, odpovídám. Záleží na vás, jestli vám data stojí za takový boj nebo ne.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: to_je_jedno 29. 02. 2016, 22:49:38

Citace: Michal Švarc 29. 02. 2016, 18:37:56

pokud tam je zhruba něco jako
Kód: [Vybrat]
<div><div name="nazev">Název zboží</div><div name="popis">Popis zboží</div></div> (pro každý výrobek), pak se má robot čeho chytit a je pro něj snažší s informacemi pracovat.

Irelevantni. EDIT: protoze robot neni robot, ale clovek ktery robota naprogramoval.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: lobo 29. 02. 2016, 22:56:00

cele je to otazka penazi a vynalozenej namahy - z obidvoch stran...

vies kde tie data koncia? (je to 1-2 velke konkurencie co ti vytahali 2/3 obrazkov a popisov, alebo 1000 ludi si stiahne po 2-3 obrazkoch a vyvesi si ich na fakebook?)

naklady na 1 fotku s popisom sa daju celkom dobre odhadnut. v podobnom pripade poskodeny dal do vseobecnych obchodnych podmienok na stranke ze za pouzitie foto bude uctovat jednorazovy poplatok 150Sk + 30Sk za mesiac pouzivania. Trom firmam takto vystavil fakturu dokopy asi na 100.000 Sk a potom bolo okolo toho celkom veselo. vysledok bol uspokojivy :-)

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: Michal Švarc 02. 03. 2016, 01:04:21

Citace: to_je_jedno 29. 02. 2016, 22:49:38

Irelevantni. EDIT: protoze robot neni robot, ale clovek ktery robota naprogramoval.

Nechápu proč by to mělo být irelevantní. Ano, robot se chová podle toho jak ho člověk naprogramuje. Nicméně pokud by se robot v textu neměl čeho chytit, měl by to ten člověk pak daleko obtížnější, ne?

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: ByCzech 02. 03. 2016, 02:24:14

Citace: Michal Švarc 02. 03. 2016, 01:04:21

Citace: to_je_jedno 29. 02. 2016, 22:49:38
Irelevantni. EDIT: protoze robot neni robot, ale clovek ktery robota naprogramoval.
Nechápu proč by to mělo být irelevantní. Ano, robot se chová podle toho jak ho člověk naprogramuje. Nicméně pokud by se robot v textu neměl čeho chytit, měl by to ten člověk pak daleko obtížnější, ne?

Protože člověk není robot a jako takový má inteligenci a když někdo něco vymyslí, tak jiný na to přijde. Patří to k lidskému bytí.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: to_je_jedno 02. 03. 2016, 08:10:10

Citace: Michal Švarc 02. 03. 2016, 01:04:21

Nechápu proč by to mělo být irelevantní. Ano, robot se chová podle toho jak ho člověk naprogramuje. Nicméně pokud by se robot v textu neměl čeho chytit, měl by to ten člověk pak daleko obtížnější, ne?

Robot se tam niceho nechyta. Tohle vlastne neni robot. Takovy crawler na konkretni site nema zadnou inteligenci, je to jen stroj pro "nekonecne" opakovani. To jaka data a podle jakeho klice ma hledat mu rika programator. A je uplne jedno jestli mu reknu at najde div s id="nazev" nebo mu reknu najdi 8. div ktery nasleduje po h1 s tridou titulek-webu.
Pokud jako tvurce toho stahovace najdu nejake pravidla podle kterych data parsovat tak je proste budu parsovat. Takze hypoteticky by mohlo fungovat nejaky random generovani trid a id prvku, ale to by zase musel pro kazdy page load generovat CSS + JS a to by asi nebylo moc prakticke...

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: Pavouk106 02. 03. 2016, 08:48:54

Otázka je, jak je nástroj udělanej. Pokud jen vykrádá konkrétní části stránky (tj. obrázky, názvy a popisy produktu), tak robots.txt je k ničemu, stejně jako nějaká speciální stránka, kde by ho nachytal. Pokud přistupuje z jedný IP adresy Případně z více IP adres nějaký cloudový služby - tak bych to asi na jeho místě dělal, pokud bych teda nesehnal dost známých, u kterých bych to pustil doma), tak by se dal najít podle přístupových logů k serveru (Apache). Bude se buď opakovat (jedna IP) u haldy obrázků, nebo to bude IP, která je privátní pro ten cloud (= nedostane jí běžněj Franta uživatel), případně je to IP z rozsahu cloudový služby (platí to samý co předtím, nedostane jí BFU).

Možná by se dalo vzít log, vyparsovat adresy, prohnat je přes WHOIS a z výsledku vyparsovat podezřelý věci (vynechat velký hráče - poskytovatele domácího připojení). Touhle cestou bych šel já, abych odhalil původce nebo na něj získal vazbu (pro soud). Blokovat IP ale nebude mít žádnej výsledek, sežene si jinou (jiné).

Do budoucna watermark na obrázky a/nebo do podmínek uvést to ohodnocení, jak pal lobo (když pak konkurenci pošleš fakturu na půl milionu, začne zajímavej spor :-) ). Pokud máš originály nebo seženeš fotografa, kterej to pro vás fotil (aby to odsvědčil, případně dodal originály, jestli je má), tak není o čem.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: Pavouk106 02. 03. 2016, 08:50:38

Ještě by šlo vytvořit nějakej automatickej systém, kterej by jednou za čas (měsic?) rotoval několik (třeba 10) různých kódů webu (kterej by ale vypadal navenek stále stejně) a ono by to konkurenci přestalo brzo bavit (pořád přepisovat parsery). Ale je jako Sisyfos - ten šutr z toho kopce stejně nakonec vždycky sjede dolu...

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: boo 02. 03. 2016, 09:13:23

Reseni je samozrejme jednoduche. Generujte stranky do png a html bude mit pouze <body><img src="stranka.png"/></body>. Klikani udelate pres mapy. Nebude to sice moc responzivni ale kazdy browser to ukaze stejne a vykradaci jsou namydleni a budou muset spoustet nejake OCR ;D

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: to_je_jedno 02. 03. 2016, 09:23:37

Citace: Pavouk106 02. 03. 2016, 08:48:54

Bude se buď opakovat (jedna IP) u haldy obrázků

Tohle si myslim, ze nebude tak easy. IMHO kdybych byl na druhe strane tak stahnu stranku produktu, vyparsuju, stahnu obrazek atd. Tedy chovani velmi podobne realnemu uzivateli.

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: to_je_jedno 02. 03. 2016, 09:25:24

Citace: boo 02. 03. 2016, 09:13:23

Reseni je samozrejme jednoduche. Generujte stranky do png
...
vykradaci jsou namydleni a budou muset spoustet nejake OCR ;D

Takze:
- zakaznikum se to bude pomalu nacitat (a zrat brutalne FUP)
- vubec nic jsem nezabezpecil protoze pouzit OCR by v tomto pripade bylo snad jednodussi nez to parsovat z DOM stromu...
- jako bonus dostanu nulovou dohledatelnost mych produktu v google. A TO SE VYPLATI!

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: to_je_jedno 02. 03. 2016, 09:26:59

Citace: Pavouk106 02. 03. 2016, 08:50:38

Ještě by šlo vytvořit nějakej automatickej systém, kterej by jednou za čas (měsic?) rotoval několik (třeba 10) různých kódů webu (kterej by ale vypadal navenek stále stejně) a ono by to konkurenci přestalo brzo bavit (pořád přepisovat parsery). Ale je jako Sisyfos - ten šutr z toho kopce stejně nakonec vždycky sjede dolu...

Rotace x je o nicem - v crawleru budu mit 10 funkci s jednou napred jako detekci. Pokud to bude skutecne rotovat tak po me chtel jen prvotni casovou investici.
Aby to on porad prepisoval unikatne co mesic ho to asi prestane bavit driv nez me...

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: lojza 02. 03. 2016, 09:46:52

uz se to tu dloooouze rozebiralo neni treba dalsi thread..

placeny pristup login/passwd, jen x stranek/ dotazu z dane IP za jednotku casu pak nic nebo captcha, captcha (riziko indove..), honeypots,

katastr nemovitosti vcetne sbirky listin taky nestahnes

http://forum.root.cz/index.php?topic=11893.0

Název: Re:Jak zabránit harvestování WWW?
Přispěvatel: Ondrej Nemecek 02. 03. 2016, 11:59:11

Citace: lojza 02. 03. 2016, 09:46:52

uz se to tu dloooouze rozebiralo neni treba dalsi thread.. placeny pristup login/passwd, jen x stranek/ dotazu z dane IP za jednotku casu pak nic nebo captcha, captcha (riziko indove..), honeypots, katastr nemovitosti vcetne sbirky listin taky nestahnes http://forum.root.cz/index.php?topic=11893.0

Přesně tak:

buď omezíte skupinu příjemců a budete je smluvně vázat (čímž váš problém mizí)
nebo ta data jednoduše otevřete a změníte obchodní model (čímž problém také zmizí)

Mezi těmito variantami neexistuje žádné třetí stabilní řešení, nanejvýš se budete donekonečna předhánět s těžiči vašich dat.

Citace

Ekonom Paul Romer, jehož práce publikované v devadesátých letech utvářely naše porozumění informačního kapitalismu, definoval informace jako "instrukce jak věci vyrábět". Protože jsou tyto instrukce kopírovatelné s minimálním množstvím pracovních nákladů a protože se při výrobním procesu nespotřebovávají, Romer dospěl k závěru, že nakonec budou nesmírně levné, anebo budou k dispozici zadarmo. - Zdroj: http://blisty.cz/art/81323.html#sthash.kiXh9ALx.dpuf

Podle této teze tedy pořizovací cena dat neurčuje jejich cenu, protože libovolná pořizovací cena je postupně kompenzována neomezenou replikovatelností. To dobře odpovídá názoru některých lidí, že patenty by měly platit tak krátkou dobu, aby pouze zajistili krátkodobou konkurenční výhodu na začátku (třeba 2 roky).