Jak funguje Hadoop?

jrbvtm

Jak funguje Hadoop?
« kdy: 14. 07. 2014, 17:40:12 »
Ahoj,
posledních několik měsíců silně studuji Hadoop a s ním technologie související (hodně googlim a scháním různou literaturu) ale přesto mi není pár detailů jasných. Nenašel by se někdo, kdo by byl studentovi ochoten u piva poradit? Ne, nechystám se do Seznamu a know-how mám na jeden "vědecký" úkol na vysoké škole. Kdyby se někdo našel, nechám tu kontakt. Děkuji :)

(jestli je to hodně offtopic tak se moc omlouvám, a klidně to smažte :( )


Re:Jak funguje Hadoop?
« Odpověď #1 kdy: 14. 07. 2014, 19:58:16 »
Praha nebo někde na vsi?

Kit

Re:Jak funguje Hadoop?
« Odpověď #2 kdy: 14. 07. 2014, 20:12:36 »
Dala by se diskuze o Hadoopu ventilovat i tady? Také by mě zajímaly nějaké relevantní odkazy.

www

Re:Jak funguje Hadoop?
« Odpověď #3 kdy: 14. 07. 2014, 20:28:51 »
Praha nebo někde na vsi?

když jedeš z Prahy do Vídně tak nejdřív jedeš furt rovně, pak je tam docela nepřehlédnutelná zatáčka a pak zase jedeš rovně. tak někde v té zatáčce... :)

www

Re:Jak funguje Hadoop?
« Odpověď #4 kdy: 14. 07. 2014, 20:37:35 »
Dala by se diskuze o Hadoopu ventilovat i tady? Také by mě zajímaly nějaké relevantní odkazy.

mno, celý je to psycho. samotnýmu nastavování a správě clusteru se můžou věnovat lidi - podobně jako administrace webovýho serveru. a pak je tu programování, kterýmu se může člověk výhradně věnovat aniž by věděl něco o clusteru. a já dělám oboje.

co je aplikace týče tak zpracovávám letecký a satelitní fotky. údajně když na hadoop pustíte málo dat ja je to hrubě neefektivní. když jich je ale hodně tak to exceluje. a já těch dat mám fakt hodně, na to vemte jed :)

a co potřebuju? stačí mi právě ta pivní diskuze... nějaký dobrý rady do života ohledně administrace i trochu toho prográmka. například samotná instalace fejkovýho single node a plnýho multinode mi zabrala i 3 tejdny... hodilo by se mi info jak to třeba dobře debugovat, ladit, monitorovat. můžete mi odpovědět: vole, google a hadoop debugging ale zas tak "jednoduchý" to není... nebo se mi to nezdá...

jednou jsem byl v hospoďě s kámošem a vzal svýho spoubydlícího kterej dělá v seznamu. prej si tam lidi kolem hadoopu rvou vlasy z hlavy (no, přeháním, ale fakt to není taková prča) takže nevím no... :)


Kit

Re:Jak funguje Hadoop?
« Odpověď #5 kdy: 14. 07. 2014, 20:59:56 »
mno, celý je to psycho. samotnýmu nastavování a správě clusteru se můžou věnovat lidi - podobně jako administrace webovýho serveru. a pak je tu programování, kterýmu se může člověk výhradně věnovat aniž by věděl něco o clusteru. a já dělám oboje.

Takže se ta práce dá rozdělit. To je dobrá informace.

co je aplikace týče tak zpracovávám letecký a satelitní fotky. údajně když na hadoop pustíte málo dat ja je to hrubě neefektivní. když jich je ale hodně tak to exceluje. a já těch dat mám fakt hodně, na to vemte jed :)

To je podle mne typické pro map/filter/reduce. Čím větší úložiště, tím výkonnější. Pro malé projekty bezvýznamné.

a co potřebuju? stačí mi právě ta pivní diskuze... nějaký dobrý rady do života ohledně administrace i trochu toho prográmka. například samotná instalace fejkovýho single node a plnýho multinode mi zabrala i 3 tejdny... hodilo by se mi info jak to třeba dobře debugovat, ladit, monitorovat. můžete mi odpovědět: vole, google a hadoop debugging ale zas tak "jednoduchý" to není... nebo se mi to nezdá...

Také si myslím, že to nebude úplná trivka. Pro velké projekty však moc alternativ nebude. Našel jsem jen AFS a GlusterFS, ale ty mají určitě jiné vlastnosti.

jednou jsem byl v hospoďě s kámošem a vzal svýho spoubydlícího kterej dělá v seznamu. prej si tam lidi kolem hadoopu rvou vlasy z hlavy (no, přeháním, ale fakt to není taková prča) takže nevím no... :)

Viz výše. Zřejmě to není úplně vhodné pro admina a programátora v jedné osobě.

www

Re:Jak funguje Hadoop?
« Odpověď #6 kdy: 14. 07. 2014, 21:50:14 »
mam tuhle knizku http://www.amazon.com/Apache-Hadoop-YARN-Processing-Addison-Wesley/dp/0321934504 k dnesnimu datu neexistuje novejsi kniha zabyvajici se hadoopem (aspon podle meho...). je to spis knizka pro adminy. popisuje se tam jak naistalovat hadoop 2.0 coz je pred-predposledni stable release ve vetvi 2.x. a ja rozjizdim prave 2.x. mel jsem nejake problemy a tak jsem postupoval podle knizky s opravama, instalaci etc... ehm, tak jak jsem si roz*ebal cluster, tak tak se mi to este nestalo. wtf? (ale to je jen muj pohled, urcite je problem mezi zidli a klavesnici...)

k programku: tam to mam komplikovanejsi protoze zpracovavam geotiff a to "moc" lidi neresi. minimalne to neresi frameworky jako je hbase, pig, atd... mate nekdo zkusenosti se zpracovavanim souboru pripadne obrazku? existuji na to nastroje http://hipi.cs.virginia.edu/ ale ja to spis potrebuju delat rucne protoze potrebuju ruzne carovat nad pixely... satelitni snimky se skladaji asi z 8 vrstev.. takze si to asi budu delat ruco a dobre rady do zivota by se hodily :) doufam ze se doziju chvile, kdy nad tim pustim nejaky "k-nearest neighbors" pripadne podobne data mining / statistika / AI.. etc pristupy a zkoumat, esli tenhle pixel je pole, mesto, vodni plocha atd... :)

www

Re:Jak funguje Hadoop?
« Odpověď #7 kdy: 14. 07. 2014, 22:00:14 »

www

Re:Jak funguje Hadoop?
« Odpověď #8 kdy: 14. 07. 2014, 22:06:43 »
Praha nebo někde na vsi?

ty by jsi mi byl ochoten neco k hadoopu poradit? v praze mam kamarady u kterych muzu hlavu slozit a ted se tam nekdy o prazdninach chystam... :)

dfgzx

Re:Jak funguje Hadoop?
« Odpověď #9 kdy: 15. 07. 2014, 05:19:45 »
mimo hadoop: a neni analyza pixelu satelitnich snimku zda je pixel voda, les.... noseni drivi do lesa?

kdyz mas podklady napr. openstreetmap a muzes se primo podivat co za objekt lezi na souradnicich lat/lon a pak uz jen overit na satelitnim snimku?

www

Re:Jak funguje Hadoop?
« Odpověď #10 kdy: 15. 07. 2014, 06:53:31 »
kdyz mas podklady

podklady vypadaji tak, ze mam fotku v docela peknym rozliseni, kde je nahore brno a dole hranice s rakouskem. takovych fotek je 8 (ruzny UV spektra a ja nevim jaky finty) takovou fotku proste v pc "neotevru". jdnou jsem to zkousel a musel jsem vytahnout napajeci kabel :D nebo je muzu rozrezat na mensi casti, ale to jsem se porad nikam nedostal... :(

muzes se primo podivat

chapu to tak ze se mam podivat rucne? mno, to by asi neslo zejo :)

1) to co jsem nastinil je uplny zaklad... tam tech veci ktery se chcou je tolik ze ani nevim jak se vyslovuji :D :D

2) jde o tu "hadoopovou rychlost" - tyhle veci a mnohem vic uz samozrejme resi mozky o kterych se nikomu ani nesnilo. jen je udajne problem ze to trva moc dlouho. v radu tydnu az jednotek mesicu... a predstavte si ze na vysoke skole mate 5 uceben kde v kazde je 20 pc. predstavte si, ze tam hadoop pustite :) to by byl ficak :D dneska se to resi nejak "trivialne" ze se vezme proste rychlej postgresql server (postgis) nebo se zkousi ty servery spojovat a bouchat tam nejake vicevlaknove aplikace.. ale udajne je to "pomale"

Jumec

Re:Jak funguje Hadoop?
« Odpověď #11 kdy: 15. 07. 2014, 07:13:07 »
Ficak? Tak urcite. Kazdemu se na zahrade nechladi Anselm, ale pro inspiraci byses tam mohl zajet podivat, od te zatacky to neni tak daleko.

dsfasdfasdf

Re:Jak funguje Hadoop?
« Odpověď #12 kdy: 15. 07. 2014, 08:15:02 »
kdyz mas podklady

podklady vypadaji tak, ze mam fotku v docela peknym rozliseni, kde je nahore brno a dole hranice s rakouskem. takovych fotek je 8 (ruzny UV spektra a ja nevim jaky finty) takovou fotku proste v pc "neotevru". jdnou jsem to zkousel a musel jsem vytahnout napajeci kabel :D nebo je muzu rozrezat na mensi casti, ale to jsem se porad nikam nedostal... :(

muzes se primo podivat

chapu to tak ze se mam podivat rucne? mno, to by asi neslo zejo :)

1) to co jsem nastinil je uplny zaklad... tam tech veci ktery se chcou je tolik ze ani nevim jak se vyslovuji :D :D

2) jde o tu "hadoopovou rychlost" - tyhle veci a mnohem vic uz samozrejme resi mozky o kterych se nikomu ani nesnilo. jen je udajne problem ze to trva moc dlouho. v radu tydnu az jednotek mesicu... a predstavte si ze na vysoke skole mate 5 uceben kde v kazde je 20 pc. predstavte si, ze tam hadoop pustite :) to by byl ficak :D dneska se to resi nejak "trivialne" ze se vezme proste rychlej postgresql server (postgis) nebo se zkousi ty servery spojovat a bouchat tam nejake vicevlaknove aplikace.. ale udajne je to "pomale"

ach jo :-(

tak znova, kdyz mas vektorove mapove podklady (openstreetmap) tak muzes najit co na jake souradnici je za objekt (les, pole, baraky, rybnik)
a skonzultovat to se satelitnima fotkama. takze misto zjistovani co je ten ktery pixel to muzes obratit, hledat ve vektorove mape a az na tom overit zda
ten pixel je opravdu voda. takze zadne koukani ocickama :-)

jak je velky ten tvuj satelitni snimek s 8 vrstvama? pokud mas nejakou sunku tak je mozne, ze mas problem otevrit normalni obrazek.
jinak ovsem to je spis tvoje chyba, nez ze by to na pc neslo.
pokud chces snimek analyzovat pixel po pixelu tak mas jedno jestli mas "hadoop" nebo nejaky jine paralelni zpracovani, furt to bude podobne slozite/narocne.


Re:Jak funguje Hadoop?
« Odpověď #13 kdy: 15. 07. 2014, 08:17:00 »
a predstavte si ze na vysoke skole mate 5 uceben kde v kazde je 20 pc.
100 PC zní možná cool, ale velké výpočty se běžně dělají na clusterech s počtem jader v řádech tisíců - viz např. http://www.metacentrum.cz/cs/resources/hardware/ - a ta infrastruktura je samozřejmě na počítání vyladěná a adekvátně softwarově vybavená.

IIRC jako student můžeš služeb Metacentra využívat, to je možná jednodušší cesta než se snažit někoho přesvědčit, aby do počítačové učebny instaloval Hadoop ;)

www

Re:Jak funguje Hadoop?
« Odpověď #14 kdy: 15. 07. 2014, 08:43:20 »
tak znova, kdyz mas vektorove mapove podklady (openstreetmap) tak muzes najit co na jake souradnici je za objekt (les, pole, baraky, rybnik)
a skonzultovat to se satelitnima fotkama. takze misto zjistovani co je ten ktery pixel to muzes obratit, hledat ve vektorove mape a az na tom overit zda
ten pixel je opravdu voda. takze zadne koukani ocickama :-)

ja fakt o tehle vecech nevim zhola nic. jen to tu pisu pro ilustraci pro lidi, kteri jsou na tom podobne jako ja. ve skole na tyhle veci mam lidi co maji PhD, venujou se tomu v radech 5-10 let a skrome tvrdi ze toho moc nevi... az tyhle veci budu potrebovat tak lusknu a spravne informace se na me sesypou :)

jak je velky ten tvuj satelitni snimek s 8 vrstvama? pokud mas nejakou sunku tak je mozne, ze mas problem otevrit normalni obrazek.
jinak ovsem to je spis tvoje chyba, nez ze by to na pc neslo.
pokud chces snimek analyzovat pixel po pixelu tak mas jedno jestli mas "hadoop" nebo nejaky jine paralelni zpracovani, furt to bude podobne slozite/narocne.

snimek je hafo velkej ale nevidel jsem ho :D protoze jak rikas, mam sunku :D jinak mam nejaky testovaci vobrazek cojavim 300x300 pixelu

a to jak se bude alayzovat, to taky nevim. na to mam ve skole taky lidi kterym je 180 a celej zivot nedelaji nic jinyho nez resi image processing a ruzny matematicky metody nad tim...