Fórum Root.cz
Hlavní témata => Server => Téma založeno: butan 29. 02. 2016, 09:01:24
-
Zdravím, před časem se tady v jiném vlákně řešilo jak zobrazit data na www a přitom blokovat jejich kopírování.
Mám asi podobný problém, rozsáhlejší web (Apache/PHP/Mysql), tisíce produktů (kategorie, uspořádání, parametry, popisky, obrázky), problém je, že nás vykrádá konkurence, existují techniky jak detekovat takového robota a následně blokovat?
(aktuálně si hraju s robots.txt, tak že pomocí disallow direktivy udělám past kam se nemají roboti dívat a hlídám ji co tam leze a loguji si přístupy, aby něco viděl, ale je to takové diskutabilní)
Nějaká nápady, díky But.
-
Zdravím, před časem se tady v jiném vlákně řešilo jak zobrazit data na www a přitom blokovat jejich kopírování.
Mám asi podobný problém, rozsáhlejší web (Apache/PHP/Mysql), tisíce produktů (kategorie, uspořádání, parametry, popisky, obrázky), problém je, že nás vykrádá konkurence, existují techniky jak detekovat takového robota a následně blokovat?
(aktuálně si hraju s robots.txt, tak že pomocí disallow direktivy udělám past kam se nemají roboti dívat a hlídám ji co tam leze a loguji si přístupy, aby něco viděl, ale je to takové diskutabilní)
Nějaká nápady, díky But.
Musi ti byt jasny, ze to reseni nema. Vzdycky me fascinuje, kdyz se nekdo divi, ze mu zverejnenou informaci nekdo zkopiroval.
Muzete si leda hazet vzajemne klacky pod nohy a cekat, koho to prestane bavit driv.
-
Tak obrazky by sly opatrit vodotiskem a pokud je najdu u konkurence, tak je tu autorske pravo.
Jinak leda prejit do podzemi a informace sirit kanalem, tetuazi na potkanech.
-
Musi ti byt jasny, ze to reseni nema.
Řešení to samozřejmě má. Není nutné kopírování technicky zabránit, stačí to natolik zkomplikovat, aby se to nevyplatilo. Zároveň hrozí, že při té obraně odříznete nebo naštvete legální uživatele.
-
je tu autorske pravo
Autorske pravo a ochrana "IP" obecne je zlo.
-
(Apache/PHP/Mysql), tisíce produktů (kategorie, uspořádání, parametry, popisky, obrázky), problém je, že nás vykrádá konkurence
Me by dost zajimalo, co tak desne originalniho k vykradani tam mate. Pevne doufam, ze to neni vas pripad, ale podobnou definici splnuji zmrdsky "e-shopy" takovejch tech hejsku, co celou zivnost zalozili jen na SEO a tom, ze si nasekaj od jednoho ICO padesat webkramu, sami nemaj ani sklad, podporu nulovou, pridanou hodnotu zapornou (pleveleni webu balastem). Takovejm bych pral ne vykradani, ale nejakou obdobu machani v ledovy Vltave.
-
Autorske pravo a ochrana "IP" obecne je zlo.
Nesouhlasím. Zlo z něj udělali až obchodníci, kteří jsou ostatně schopni udělat zlo z čehokoli.
-
(Apache/PHP/Mysql), tisíce produktů (kategorie, uspořádání, parametry, popisky, obrázky), problém je, že nás vykrádá konkurence
Me by dost zajimalo, co tak desne originalniho k vykradani tam mate. Pevne doufam, ze to neni vas pripad, ale podobnou definici splnuji zmrdsky "e-shopy" takovejch tech hejsku, co celou zivnost zalozili jen na SEO a tom, ze si nasekaj od jednoho ICO padesat webkramu, sami nemaj ani sklad, podporu nulovou, pridanou hodnotu zapornou (pleveleni webu balastem). Takovejm bych pral ne vykradani, ale nejakou obdobu machani v ledovy Vltave.
Predstavte si, ze jste roky pracovat na firme, budoval ji, zlepsoval vztahy s dodavateli, vypiplal jste ten svuj katalog produktu z niceho, roztridil, nechal nafotit produktove fotky, napsal popisky, zaradil do katalogu, vse rucne, stalo to mrte hodin prace a pak prijde nejaky s prominutim zmrd a zacne to cucat.
Chapu, ze je to boj a nelze to asi vyhrat, ale chtel jsem se aspon zeptat, opravdu nejde o nejaky pseudoweb, jsme nejvetsi distributor v CR a SK. But.
-
(Apache/PHP/Mysql), tisíce produktů (kategorie, uspořádání, parametry, popisky, obrázky), problém je, že nás vykrádá konkurence
Me by dost zajimalo, co tak desne originalniho k vykradani tam mate. Pevne doufam, ze to neni vas pripad, ale podobnou definici splnuji zmrdsky "e-shopy" takovejch tech hejsku, co celou zivnost zalozili jen na SEO a tom, ze si nasekaj od jednoho ICO padesat webkramu, sami nemaj ani sklad, podporu nulovou, pridanou hodnotu zapornou (pleveleni webu balastem). Takovejm bych pral ne vykradani, ale nejakou obdobu machani v ledovy Vltave.
Predstavte si, ze jste roky pracovat na firme, budoval ji, zlepsoval vztahy s dodavateli, vypiplal jste ten svuj katalog produktu z niceho, roztridil, nechal nafotit produktove fotky, napsal popisky, zaradil do katalogu, vse rucne, stalo to mrte hodin prace a pak prijde nejaky s prominutim zmrd a zacne to cucat.
Chapu, ze je to boj a nelze to asi vyhrat, ale chtel jsem se aspon zeptat, opravdu nejde o nejaky pseudoweb, jsme nejvetsi distributor v CR a SK. But.
Nj, tak jste ten katalog meli davat proti podepsany NDA. Jedina funkcni ochrana IP je o nem nikomu nerikat :-)
-
Autorske pravo a ochrana "IP" obecne je zlo.
Nesouhlasím. Zlo z něj udělali až obchodníci, kteří jsou ostatně schopni udělat zlo z čehokoli.
Muzes rozvest obe ta tvrzeni?
-
Autorske pravo a ochrana "IP" obecne je zlo.
Nesouhlasím. Zlo z něj udělali až obchodníci, kteří jsou ostatně schopni udělat zlo z čehokoli.
Muzes rozvest obe ta tvrzeni?
Tady ne, netýká se to dotazu.
-
Predstavte si, ze jste roky pracovat na firme, budoval ji, zlepsoval vztahy s dodavateli, vypiplal jste ten svuj katalog produktu z niceho, roztridil, nechal nafotit produktove fotky, napsal popisky, zaradil do katalogu, vse rucne, stalo to mrte hodin prace a pak prijde nejaky s prominutim zmrd a zacne to cucat.
Chapu, ze je to boj a nelze to asi vyhrat, ale chtel jsem se aspon zeptat, opravdu nejde o nejaky pseudoweb, jsme nejvetsi distributor v CR a SK. But.
Jak rikam, watermarkujte obrazky a sudte se. To je asi jedine, protoze stahovani zabranit nelze.
-
Predstavte si, ze jste roky pracovat na firme, budoval ji, zlepsoval vztahy s dodavateli, vypiplal jste ten svuj katalog produktu z niceho, roztridil, nechal nafotit produktove fotky, napsal popisky, zaradil do katalogu, vse rucne, stalo to mrte hodin prace a pak prijde nejaky s prominutim zmrd a zacne to cucat.
Chapu, ze je to boj a nelze to asi vyhrat, ale chtel jsem se aspon zeptat, opravdu nejde o nejaky pseudoweb, jsme nejvetsi distributor v CR a SK. But.
To si predstavit umim. Vas problem je potom spis pravniho nez technickyho charakteru. Uz minimalne "nafotit produktove fotky" splnuje znaky autorskeho dila. Zarazeni do katalogu nejspis ne (jo, autorskej se pohybuje na pomezi nekolika hodne vagnich pojmu). Sverte to odbnornikum.
Originalitu fotek asi dolozite technicky docela snadno, snad mate aspon od nekolika ks zdrojovy soubory (raw nebo fotakovej JPEG pred upravou).
-
watermark na obrázky a nějakou zmínku s názvem firmy-eshopu do textu popisu. Pak se to vykrádá blbě. Nebo ještě lépe, blok textu generovaný jako obrázek.
-
Nebo ještě lépe, blok textu generovaný jako obrázek.
Tak to je na superarbitraz: 1. OCR 2. fulltext 3. datovej objem.
-
Nebo ještě lépe, blok textu generovaný jako obrázek.
Jako uzivatel bych vas nakopal. Kdyz si budu potrebovat okopirovat nejake info, nez se rozhodnu, co si koupim, tak si budu delat screenshoty nabo co?
-
Ochránit data bude nákladné a pokud mají ta data hodnotu, půjde je přesto získat (jsou firmy, které se tím živí).
Efektivnější bude změnit obchodní model - data prodávejte nebo poskytněte zdarma a nabalte kolem toho služby. Tím si zajistíte vstupenku do budoucnosti :-)
Tolik můj názor.
-
co takhle vlozit do obrazku skrytou informaci pres steganografii a to pak pouzit jako dukaz u soudu?
-
IMHO je jedine rozumne reseni v pravni rovine jak uz bylo receno. Stoji to penize, je to zdlouhave, ale ma to nejaky cil. Bojovat na technickem poli nelze. Nedavno tady byl super topic jak nejaky jouda chtel takhle zabezpecit svuj produkt. Byl to obchodak a nepochopil to. Myslel si, ze ma pravdu a ze my jsme lemplove co mu neporadi a slapou mu po jeho konstrukcich s obfuskaci, tokenama apod.
Jinak watermark muze byt i neviditelny pro lidske oko.
-
co takhle vlozit do obrazku skrytou informaci pres steganografii a to pak pouzit jako dukaz u soudu?
Jiste, watermark. Majitel konkurencniho shopu bude tezko vysvetlovat, jak se do jeho obrazku dostala treba informace o copyrightu tvurce. Ten watermark ale musi byt schopen odolat editaci nebo rekompresi. Ale na to technologie existuji, jen je najit.
-
robots.txt? To je ten stahovač tak blbý, že ho respektuje?
Predstavte si, ze jste roky pracovat na firme, budoval ji, zlepsoval vztahy s dodavateli, vypiplal jste ten svuj katalog produktu z niceho, roztridil, nechal nafotit produktove fotky, napsal popisky, zaradil do katalogu, vse rucne, stalo to mrte hodin prace a pak prijde nejaky s prominutim zmrd a zacne to cucat.
A konkurence, co to vytahá, spolu se zkopírovanými obrázky získá ty ostatní věci? Ne, získá pouze obrázky, nebude mít vztahy s dodavateli a servis a další věci.
Já bych to watermarkoval, nic lepšího podle mě vymyslet nejde.
-
robots.txt? To je ten stahovač tak blbý, že ho respektuje?
Právě naopak, tazatel chce detekovat, že stahovač robots.txt nerespektuje.
-
robots.txt? To je ten stahovač tak blbý, že ho respektuje?
Právě naopak, tazatel chce detekovat, že stahovač robots.txt nerespektuje.
Coz je slepa cesta. Stahovac se na robots.txt vysere, to respektuji leda tak slusne vyhledavace a podobne, ale urcite ne zlodeji. Odolny watermark a nasledny soud je jedina cesta. Otazka je, jestli soudruzi soudci z ceskeho soudu budou schopni pochopit, o cem je rec a kolik jim eventuelne da zalovany v hnede obalce.
-
Vycpat text nějakým vtipným vygenerovaným balastem a ostylovat ten balast tak, že není vidět. Ale robot zloděj se asi na styl dívat nebude.
-
robots.txt? To je ten stahovač tak blbý, že ho respektuje?
Právě naopak, tazatel chce detekovat, že stahovač robots.txt nerespektuje.
Coz je slepa cesta. Stahovac se na robots.txt vysere, to respektuji leda tak slusne vyhledavace a podobne, ale urcite ne zlodeji.
Copak jsme to napsal tatarsky?
-
Protecting the world's most successful websites
http://www.distilnetworks.com/
-
Protecting the world's most successful websites
http://www.distilnetworks.com/
A jeste https://www.youtube.com/watch?time_continue=3&v=aUJ3pKu4cgs
-
Vycpat text nějakým vtipným vygenerovaným balastem a ostylovat ten balast tak, že není vidět. Ale robot zloděj se asi na styl dívat nebude.
To není zrovna dobrý nápad. Vyhledávač to pravděpodobně bude považovat za pokus o ovlivňování výsledků a odmění tě ztrátou pozic ve vyhledávání.
-
Zabránit asi nelze, ale určitě to jde to zesložitit. Jak už tu psali jiní, obrázky by šlo dát s vodotiskem (nebo natvrdo s textem přes), co se textu týká, nevím jak je to řešené z hlediska html. Jen odhaduji a je možné že se mýlím, ale pokud tam je zhruba něco jako
<div><div name="nazev">Název zboží</div><div name="popis">Popis zboží</div></div> (pro každý výrobek), pak se má robot čeho chytit a je pro něj snažší s informacemi pracovat. Pokud by místo toho nebylo žádné name (nebo id), nebo bylo třeba náhodné (a předem neurčitelné), mohlo by být obtížnější získat informace ve stejném tvaru jako nyní.
-
Vsichni radi vodoznaky viditelne ci neviditelne, budiz, do budoucna urcite. Pokud jste ale psal, ze vas konkretni existujici bridilove uz vykradli, tak proste vezmete original obrazku (formatem a kompresi co nejblize tomu, co leze z fotaku) a kdyz ukazete, ze mate od tehoz obrazku i origos napr. s 2.5x rozlisenim, bude pro znalce dost snadne urcit, ze mensi obrazek z vetsiho mohl byt odvozen, naproti tomu naopak ani s "inteligentnim" zvetsovanim (ruzny fraktaly a mistni strukturalni modely) ziskat ten vas origos nelze.
-
Určitě existují nějaké techniky jak se bráni, ale trochu to někdy připomíná boj dona Quichotta s větrnými mlýny.
Jde v principu jen o dvě věci, které se musí vyřešit
1. Detekce takového vykradače
2. Akce, kterou chceme takovému "uživateli" provést
Ad 1.
Typicky je možná detekce podle množství dotazů, ale ne vždy účinná. Když vykradači na datech opravdu záleží, zajistí si dostatek IP adres, aby zátěž rozložil nebo aby se maskoval za vyhledávač ap.). Takže je lepší třeba nalíčit na takového crawlovacího bota např. návnadu v podobě speciální stránky, na které není nic užitečného. Stránku ZAKÁZAT v robots.txt, takže se slušný vyhledávač na návnadu nechytí a někde na stránkách dát odkaz na tuto stránku a kaskádami tento odkaz skrýt, třeba display: none; nebo bílý text na bílém podkladu a podobně. Běžný uživatel se na ni nedostane, ale vykradač na ni vleze, tím je detekován.
Fantazii pro další způsoby detekce se samozřejmě meze nekladou.
Ad 2.
- zablokovat po detekci IP
- zpomalit
- nahrnout vykradači falešná data
Tady se taktéž fantazii meze nekladou.
Nicméně jak jsem řekl prve, je to trochu boj s větrnými mlýny, protože když na to vykradač přijde, udělá protiopatření, aby se to nedělo. Je proto třeba s ním držet krok a hlavně, jak už tu nejednou padlo, je třeba bránit se zároveň právní cestou. Je to trochu běh na dlouhou trať, ale ptal jste se, odpovídám. Záleží na vás, jestli vám data stojí za takový boj nebo ne.
-
pokud tam je zhruba něco jako <div><div name="nazev">Název zboží</div><div name="popis">Popis zboží</div></div> (pro každý výrobek), pak se má robot čeho chytit a je pro něj snažší s informacemi pracovat.
Irelevantni. EDIT: protoze robot neni robot, ale clovek ktery robota naprogramoval.
-
cele je to otazka penazi a vynalozenej namahy - z obidvoch stran...
vies kde tie data koncia? (je to 1-2 velke konkurencie co ti vytahali 2/3 obrazkov a popisov, alebo 1000 ludi si stiahne po 2-3 obrazkoch a vyvesi si ich na fakebook?)
naklady na 1 fotku s popisom sa daju celkom dobre odhadnut. v podobnom pripade poskodeny dal do vseobecnych obchodnych podmienok na stranke ze za pouzitie foto bude uctovat jednorazovy poplatok 150Sk + 30Sk za mesiac pouzivania. Trom firmam takto vystavil fakturu dokopy asi na 100.000 Sk a potom bolo okolo toho celkom veselo. vysledok bol uspokojivy :-)
-
Irelevantni. EDIT: protoze robot neni robot, ale clovek ktery robota naprogramoval.
Nechápu proč by to mělo být irelevantní. Ano, robot se chová podle toho jak ho člověk naprogramuje. Nicméně pokud by se robot v textu neměl čeho chytit, měl by to ten člověk pak daleko obtížnější, ne?
-
Irelevantni. EDIT: protoze robot neni robot, ale clovek ktery robota naprogramoval.
Nechápu proč by to mělo být irelevantní. Ano, robot se chová podle toho jak ho člověk naprogramuje. Nicméně pokud by se robot v textu neměl čeho chytit, měl by to ten člověk pak daleko obtížnější, ne?
Protože člověk není robot a jako takový má inteligenci a když někdo něco vymyslí, tak jiný na to přijde. Patří to k lidskému bytí.
-
Nechápu proč by to mělo být irelevantní. Ano, robot se chová podle toho jak ho člověk naprogramuje. Nicméně pokud by se robot v textu neměl čeho chytit, měl by to ten člověk pak daleko obtížnější, ne?
Robot se tam niceho nechyta. Tohle vlastne neni robot. Takovy crawler na konkretni site nema zadnou inteligenci, je to jen stroj pro "nekonecne" opakovani. To jaka data a podle jakeho klice ma hledat mu rika programator. A je uplne jedno jestli mu reknu at najde div s id="nazev" nebo mu reknu najdi 8. div ktery nasleduje po h1 s tridou titulek-webu.
Pokud jako tvurce toho stahovace najdu nejake pravidla podle kterych data parsovat tak je proste budu parsovat. Takze hypoteticky by mohlo fungovat nejaky random generovani trid a id prvku, ale to by zase musel pro kazdy page load generovat CSS + JS a to by asi nebylo moc prakticke...
-
Otázka je, jak je nástroj udělanej. Pokud jen vykrádá konkrétní části stránky (tj. obrázky, názvy a popisy produktu), tak robots.txt je k ničemu, stejně jako nějaká speciální stránka, kde by ho nachytal. Pokud přistupuje z jedný IP adresy Případně z více IP adres nějaký cloudový služby - tak bych to asi na jeho místě dělal, pokud bych teda nesehnal dost známých, u kterých bych to pustil doma), tak by se dal najít podle přístupových logů k serveru (Apache). Bude se buď opakovat (jedna IP) u haldy obrázků, nebo to bude IP, která je privátní pro ten cloud (= nedostane jí běžněj Franta uživatel), případně je to IP z rozsahu cloudový služby (platí to samý co předtím, nedostane jí BFU).
Možná by se dalo vzít log, vyparsovat adresy, prohnat je přes WHOIS a z výsledku vyparsovat podezřelý věci (vynechat velký hráče - poskytovatele domácího připojení). Touhle cestou bych šel já, abych odhalil původce nebo na něj získal vazbu (pro soud). Blokovat IP ale nebude mít žádnej výsledek, sežene si jinou (jiné).
Do budoucna watermark na obrázky a/nebo do podmínek uvést to ohodnocení, jak pal lobo (když pak konkurenci pošleš fakturu na půl milionu, začne zajímavej spor :-) ). Pokud máš originály nebo seženeš fotografa, kterej to pro vás fotil (aby to odsvědčil, případně dodal originály, jestli je má), tak není o čem.
-
Ještě by šlo vytvořit nějakej automatickej systém, kterej by jednou za čas (měsic?) rotoval několik (třeba 10) různých kódů webu (kterej by ale vypadal navenek stále stejně) a ono by to konkurenci přestalo brzo bavit (pořád přepisovat parsery). Ale je jako Sisyfos - ten šutr z toho kopce stejně nakonec vždycky sjede dolu...
-
Reseni je samozrejme jednoduche. Generujte stranky do png a html bude mit pouze <body><img src="stranka.png"/></body>. Klikani udelate pres mapy. Nebude to sice moc responzivni ale kazdy browser to ukaze stejne a vykradaci jsou namydleni a budou muset spoustet nejake OCR ;D
-
Bude se buď opakovat (jedna IP) u haldy obrázků
Tohle si myslim, ze nebude tak easy. IMHO kdybych byl na druhe strane tak stahnu stranku produktu, vyparsuju, stahnu obrazek atd. Tedy chovani velmi podobne realnemu uzivateli.
-
Reseni je samozrejme jednoduche. Generujte stranky do png
...
vykradaci jsou namydleni a budou muset spoustet nejake OCR ;D
Takze:
- zakaznikum se to bude pomalu nacitat (a zrat brutalne FUP)
- vubec nic jsem nezabezpecil protoze pouzit OCR by v tomto pripade bylo snad jednodussi nez to parsovat z DOM stromu...
- jako bonus dostanu nulovou dohledatelnost mych produktu v google. A TO SE VYPLATI!
-
Ještě by šlo vytvořit nějakej automatickej systém, kterej by jednou za čas (měsic?) rotoval několik (třeba 10) různých kódů webu (kterej by ale vypadal navenek stále stejně) a ono by to konkurenci přestalo brzo bavit (pořád přepisovat parsery). Ale je jako Sisyfos - ten šutr z toho kopce stejně nakonec vždycky sjede dolu...
Rotace x je o nicem - v crawleru budu mit 10 funkci s jednou napred jako detekci. Pokud to bude skutecne rotovat tak po me chtel jen prvotni casovou investici.
Aby to on porad prepisoval unikatne co mesic ho to asi prestane bavit driv nez me...
-
uz se to tu dloooouze rozebiralo neni treba dalsi thread..
placeny pristup login/passwd, jen x stranek/ dotazu z dane IP za jednotku casu pak nic nebo captcha, captcha (riziko indove..), honeypots,
katastr nemovitosti vcetne sbirky listin taky nestahnes
http://forum.root.cz/index.php?topic=11893.0
-
uz se to tu dloooouze rozebiralo neni treba dalsi thread.. placeny pristup login/passwd, jen x stranek/ dotazu z dane IP za jednotku casu pak nic nebo captcha, captcha (riziko indove..), honeypots, katastr nemovitosti vcetne sbirky listin taky nestahnes http://forum.root.cz/index.php?topic=11893.0
Přesně tak:
- buď omezíte skupinu příjemců a budete je smluvně vázat (čímž váš problém mizí)
- nebo ta data jednoduše otevřete a změníte obchodní model (čímž problém také zmizí)
Mezi těmito variantami neexistuje žádné třetí stabilní řešení, nanejvýš se budete donekonečna předhánět s těžiči vašich dat.
Ekonom Paul Romer, jehož práce publikované v devadesátých letech utvářely naše porozumění informačního kapitalismu, definoval informace jako "instrukce jak věci vyrábět". Protože jsou tyto instrukce kopírovatelné s minimálním množstvím pracovních nákladů a protože se při výrobním procesu nespotřebovávají, Romer dospěl k závěru, že nakonec budou nesmírně levné, anebo budou k dispozici zadarmo. - Zdroj: http://blisty.cz/art/81323.html#sthash.kiXh9ALx.dpuf
Podle této teze tedy pořizovací cena dat neurčuje jejich cenu, protože libovolná pořizovací cena je postupně kompenzována neomezenou replikovatelností. To dobře odpovídá názoru některých lidí, že patenty by měly platit tak krátkou dobu, aby pouze zajistili krátkodobou konkurenční výhodu na začátku (třeba 2 roky).