Zpracování "velkých dat"

Tomektr

Zpracování "velkých dat"
« kdy: 23. 09. 2013, 07:11:46 »
Zdravim.

V poslednej sledujem ze sa zacina vo velkom pouziva slovo Velke data a nalyticky. Mohol by mi niekto vysvetlit co su to tie velke data. Ako viem obrovske DB s xy GB dat ale ako je to myslene v kontexte praca s nimi ? Ako mysli sa optimalizacia, vyhladavanie alebo ako si to vysvetlit ? Teda o co je alebo resp. rasie zaujem ?


mchf

Re:Zpracování "velkých dat"
« Odpověď #1 kdy: 23. 09. 2013, 09:54:10 »
V kontextu udalosti z nedavne minulosti ...

NSA ma terabyty dat o vsech lidech na zemi, jejich platbach platebni kartou, veskerou jejich emailovou komunikaci, platby platebnimi kartami, seznamy stranek, ktere kdy navstivili a kdo vi co jeste za poslednich X let.

No a ted si nejaky analytik vymysli, ze chce vedet jestli Pepa Novak z Horni Dolni pred 13 lety nahodou v nejakem mailu nenapsal, ze si na ebay vhodne koupil soucastky, ktere pak vysledne prodal teroristum, kteri pak zautocili n New Yorku na dvojcata. No a rad by dostal odpoved hned nebo aspon do konce pracovni doby nebo aspon do konce sveho zivota.

Takze cele to je o optimalizaci dotazu do databaze, optimalizaci ulozeni dat a jejich organizace atd.

mbx

Re:Zpracování "velkých dat"
« Odpověď #2 kdy: 23. 09. 2013, 09:56:53 »

Re:Zpracování "velkých dat"
« Odpověď #3 kdy: 23. 09. 2013, 10:47:01 »
Docela dobre je otazka "co to je Big Data" vystihnuta tady:
http://www.tyinternety.cz/2013/05/13/clanek/mas-bigdata-uka/

tonda_

Re:Zpracování "velkých dat"
« Odpověď #4 kdy: 23. 09. 2013, 10:58:20 »
mame 2PB dat, prirustek asi tak 10-15TB za den.

Zpracovavame kazdy den asi tak 30-40TB
 myslim ze mame big data...



m

Re:Zpracování "velkých dat"
« Odpověď #5 kdy: 23. 09. 2013, 11:06:40 »
Big Data sa vacsinou chape ako velke mnozstvo nestrukturovanych dat, ktore treba nejakym sposobom spracovavat. Ak uz mate tieto data v nejakej strukture (napriklad SQL databaza), buzzword big data sa uz nepouziva. Skorej sa hovori uz o dwh (data warehouse).

Re:Zpracování "velkých dat"
« Odpověď #6 kdy: 23. 09. 2013, 11:14:09 »
Asi nejlepší odpověď na otázku, co to je BigData je: "Když se to nevejde do Excelu."

BigData není nic víc, než jen další buzzword, stejně jako třeba Cloud od lidí, kteří nemají ani páru o čem se to vlastně mluví.

YF

Re:Zpracování "velkých dat"
« Odpověď #7 kdy: 23. 09. 2013, 11:22:13 »
A tady Tomas ze Stokorcoveho lesa to vi a proto o tom nemluvi - a tak to ma byt! :)


Ivan

Re:Zpracování "velkých dat"
« Odpověď #8 kdy: 23. 09. 2013, 12:33:05 »
Docela dobre je otazka "co to je Big Data" vystihnuta tady:
http://www.tyinternety.cz/2013/05/13/clanek/mas-bigdata-uka/

Dik. Ten odkaz je fakt dobrej. V predchozim zamestani jsem delal ve firme, ktera velka data doopravdy mela. Jednalo se o nadnarodni korporaci s vice jak 600000 zamestanci. Velka data (desitky as stovky TB) se analyzovala postaru pomoci SQL a OLAP.

<flame>
V podstate jde o to najit zavislost "neceho na necem". Cela "ekonomie" jako veda zalozena na dvou-rozmernych grafech - alespon podle toho co jsem videl v ucebnicich ekonomie. Vicerozmerne informace se tezko tisknou na papir a i lidskej mozek ma problemy si to predstavit. Takze ve vysledku jde o to najit nejakou metriku "X" a zobrazit jeji zavislost na metrice "Y".

BigData dela pomoci MapReduce na levnem HW to same co dela TeraData a Oracle za velky prachy. Vsechno se to desne rychle vyviji a patchuje. Viz priklad tahle stranka:
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/EnvironmentConfig_AMIHadoopPatches.html
</flame>

j

Re:Zpracování "velkých dat"
« Odpověď #9 kdy: 23. 09. 2013, 14:16:42 »
2Ivan: Pokud ekonomii povazujes za vedu, tak se neshodneme, protoze to odporuje principu vedy = prace s exaktnimi daty. Ekonomie pracuje vyhradne s teoriemi a pranimi, navic se absolutne nikdy neda rict, ze pokud mas totozny vstupy, bude stejny i vystup.

Ad big data = v souvislosti s tim, co mam tu cest videt kolem sebe, jde jen o PR zvast. Specielne, kdyz nekdo tvrdi, ze na zaklade haldy TB "bordelu" je schopen rict cokoli jinyho, nez ze ma TB bordelu. To mi jako duveryhodnejsi prijde, kdyz mi nekdo slibuje, ze to precte s kristalovy koule.

ondro

Re:Zpracování "velkých dat"
« Odpověď #10 kdy: 23. 09. 2013, 14:51:27 »
Je o buzzword. IBM, Oracle,.... potrebuju tocit peniaze, tak si nasli dalsi sposob pod nazom Big Data.
Ako tu uz bolo spominane tak v 99,9999% pripadoch to niesu Big Data ale Bordel Data. Firma ma bordel data a druha firma, ktora im tie Bordel Data vyrobila, im che teraz predat dlasi produkt, ktory s tym bordelom bude pracovat. Vysledok bude zase len Bordel Data a firmu to bude stat tazke prachy. Samozrejme vsetci budu stastny(hoci to ich problem nevyriesilo), dokial zase ta dodavateska firma alebo niekto iny nevymysli ako predat tej firme s Bordel Datami dalsiu aplikaciu.
Pritom riesenie je uplne jednoduche a trivialne - popremyslat trochu a vykaslat sa na uchovavanie nezmyselnych dat. Drviva cast dat su bezcenne data.



txt

Re:Zpracování "velkých dat"
« Odpověď #11 kdy: 23. 09. 2013, 15:25:57 »
V nejakým časáku kde se to "buzzwordama" jen hemžilo definovaly "big data" jako data o takovém objemu, že nejde zpracovat pomocí konvenčních metod. Což chápu tak, že by měl bejt "dostatečně" velikej OLAP. Podle reklamních sdělení pak najité závislosti umožní vrchním patrům managementu činit lepší rozhodnutí (tvorba rozhodnutí je důvod proč tam jsou). Předžvejkaná data jim poskytne business analytik. Zdali je toto zkoumání bordelu rentabilní vám nikdo neřekne, to většinou podlejhá utajení.

Má někdo zkušenosti s Apache hadoop?