Fórum Root.cz
Hlavní témata => Server => Téma založeno: jrbvtm 14. 07. 2014, 17:40:12
-
Ahoj,
posledních několik měsíců silně studuji Hadoop a s ním technologie související (hodně googlim a scháním různou literaturu) ale přesto mi není pár detailů jasných. Nenašel by se někdo, kdo by byl studentovi ochoten u piva poradit? Ne, nechystám se do Seznamu a know-how mám na jeden "vědecký" úkol na vysoké škole. Kdyby se někdo našel, nechám tu kontakt. Děkuji :)
(jestli je to hodně offtopic tak se moc omlouvám, a klidně to smažte :( )
-
Praha nebo někde na vsi?
-
Dala by se diskuze o Hadoopu ventilovat i tady? Také by mě zajímaly nějaké relevantní odkazy.
-
Praha nebo někde na vsi?
když jedeš z Prahy do Vídně tak nejdřív jedeš furt rovně, pak je tam docela nepřehlédnutelná zatáčka a pak zase jedeš rovně. tak někde v té zatáčce... :)
-
Dala by se diskuze o Hadoopu ventilovat i tady? Také by mě zajímaly nějaké relevantní odkazy.
mno, celý je to psycho. samotnýmu nastavování a správě clusteru se můžou věnovat lidi - podobně jako administrace webovýho serveru. a pak je tu programování, kterýmu se může člověk výhradně věnovat aniž by věděl něco o clusteru. a já dělám oboje.
co je aplikace týče tak zpracovávám letecký a satelitní fotky. údajně když na hadoop pustíte málo dat ja je to hrubě neefektivní. když jich je ale hodně tak to exceluje. a já těch dat mám fakt hodně, na to vemte jed :)
a co potřebuju? stačí mi právě ta pivní diskuze... nějaký dobrý rady do života ohledně administrace i trochu toho prográmka. například samotná instalace fejkovýho single node a plnýho multinode mi zabrala i 3 tejdny... hodilo by se mi info jak to třeba dobře debugovat, ladit, monitorovat. můžete mi odpovědět: vole, google a hadoop debugging ale zas tak "jednoduchý" to není... nebo se mi to nezdá...
jednou jsem byl v hospoďě s kámošem a vzal svýho spoubydlícího kterej dělá v seznamu. prej si tam lidi kolem hadoopu rvou vlasy z hlavy (no, přeháním, ale fakt to není taková prča) takže nevím no... :)
-
mno, celý je to psycho. samotnýmu nastavování a správě clusteru se můžou věnovat lidi - podobně jako administrace webovýho serveru. a pak je tu programování, kterýmu se může člověk výhradně věnovat aniž by věděl něco o clusteru. a já dělám oboje.
Takže se ta práce dá rozdělit. To je dobrá informace.
co je aplikace týče tak zpracovávám letecký a satelitní fotky. údajně když na hadoop pustíte málo dat ja je to hrubě neefektivní. když jich je ale hodně tak to exceluje. a já těch dat mám fakt hodně, na to vemte jed :)
To je podle mne typické pro map/filter/reduce. Čím větší úložiště, tím výkonnější. Pro malé projekty bezvýznamné.
a co potřebuju? stačí mi právě ta pivní diskuze... nějaký dobrý rady do života ohledně administrace i trochu toho prográmka. například samotná instalace fejkovýho single node a plnýho multinode mi zabrala i 3 tejdny... hodilo by se mi info jak to třeba dobře debugovat, ladit, monitorovat. můžete mi odpovědět: vole, google a hadoop debugging ale zas tak "jednoduchý" to není... nebo se mi to nezdá...
Také si myslím, že to nebude úplná trivka. Pro velké projekty však moc alternativ nebude. Našel jsem jen AFS a GlusterFS, ale ty mají určitě jiné vlastnosti.
jednou jsem byl v hospoďě s kámošem a vzal svýho spoubydlícího kterej dělá v seznamu. prej si tam lidi kolem hadoopu rvou vlasy z hlavy (no, přeháním, ale fakt to není taková prča) takže nevím no... :)
Viz výše. Zřejmě to není úplně vhodné pro admina a programátora v jedné osobě.
-
mam tuhle knizku http://www.amazon.com/Apache-Hadoop-YARN-Processing-Addison-Wesley/dp/0321934504 k dnesnimu datu neexistuje novejsi kniha zabyvajici se hadoopem (aspon podle meho...). je to spis knizka pro adminy. popisuje se tam jak naistalovat hadoop 2.0 coz je pred-predposledni stable release ve vetvi 2.x. a ja rozjizdim prave 2.x. mel jsem nejake problemy a tak jsem postupoval podle knizky s opravama, instalaci etc... ehm, tak jak jsem si roz*ebal cluster, tak tak se mi to este nestalo. wtf? (ale to je jen muj pohled, urcite je problem mezi zidli a klavesnici...)
k programku: tam to mam komplikovanejsi protoze zpracovavam geotiff a to "moc" lidi neresi. minimalne to neresi frameworky jako je hbase, pig, atd... mate nekdo zkusenosti se zpracovavanim souboru pripadne obrazku? existuji na to nastroje http://hipi.cs.virginia.edu/ ale ja to spis potrebuju delat rucne protoze potrebuju ruzne carovat nad pixely... satelitni snimky se skladaji asi z 8 vrstev.. takze si to asi budu delat ruco a dobre rady do zivota by se hodily :) doufam ze se doziju chvile, kdy nad tim pustim nejaky "k-nearest neighbors" pripadne podobne data mining / statistika / AI.. etc pristupy a zkoumat, esli tenhle pixel je pole, mesto, vodni plocha atd... :)
-
myslim ze se prace na hadoopu da striktne oddelit ;)
http://seznam.sprace.cz/?offer_id=190824
http://seznam.sprace.cz/?offer_id=190772
-
Praha nebo někde na vsi?
ty by jsi mi byl ochoten neco k hadoopu poradit? v praze mam kamarady u kterych muzu hlavu slozit a ted se tam nekdy o prazdninach chystam... :)
-
mimo hadoop: a neni analyza pixelu satelitnich snimku zda je pixel voda, les.... noseni drivi do lesa?
kdyz mas podklady napr. openstreetmap a muzes se primo podivat co za objekt lezi na souradnicich lat/lon a pak uz jen overit na satelitnim snimku?
-
kdyz mas podklady
podklady vypadaji tak, ze mam fotku v docela peknym rozliseni, kde je nahore brno a dole hranice s rakouskem. takovych fotek je 8 (ruzny UV spektra a ja nevim jaky finty) takovou fotku proste v pc "neotevru". jdnou jsem to zkousel a musel jsem vytahnout napajeci kabel :D nebo je muzu rozrezat na mensi casti, ale to jsem se porad nikam nedostal... :(
muzes se primo podivat
chapu to tak ze se mam podivat rucne? mno, to by asi neslo zejo :)
1) to co jsem nastinil je uplny zaklad... tam tech veci ktery se chcou je tolik ze ani nevim jak se vyslovuji :D :D
2) jde o tu "hadoopovou rychlost" - tyhle veci a mnohem vic uz samozrejme resi mozky o kterych se nikomu ani nesnilo. jen je udajne problem ze to trva moc dlouho. v radu tydnu az jednotek mesicu... a predstavte si ze na vysoke skole mate 5 uceben kde v kazde je 20 pc. predstavte si, ze tam hadoop pustite :) to by byl ficak :D dneska se to resi nejak "trivialne" ze se vezme proste rychlej postgresql server (postgis) nebo se zkousi ty servery spojovat a bouchat tam nejake vicevlaknove aplikace.. ale udajne je to "pomale"
-
Ficak? Tak urcite. Kazdemu se na zahrade nechladi Anselm, ale pro inspiraci byses tam mohl zajet podivat, od te zatacky to neni tak daleko.
-
kdyz mas podklady
podklady vypadaji tak, ze mam fotku v docela peknym rozliseni, kde je nahore brno a dole hranice s rakouskem. takovych fotek je 8 (ruzny UV spektra a ja nevim jaky finty) takovou fotku proste v pc "neotevru". jdnou jsem to zkousel a musel jsem vytahnout napajeci kabel :D nebo je muzu rozrezat na mensi casti, ale to jsem se porad nikam nedostal... :(
muzes se primo podivat
chapu to tak ze se mam podivat rucne? mno, to by asi neslo zejo :)
1) to co jsem nastinil je uplny zaklad... tam tech veci ktery se chcou je tolik ze ani nevim jak se vyslovuji :D :D
2) jde o tu "hadoopovou rychlost" - tyhle veci a mnohem vic uz samozrejme resi mozky o kterych se nikomu ani nesnilo. jen je udajne problem ze to trva moc dlouho. v radu tydnu az jednotek mesicu... a predstavte si ze na vysoke skole mate 5 uceben kde v kazde je 20 pc. predstavte si, ze tam hadoop pustite :) to by byl ficak :D dneska se to resi nejak "trivialne" ze se vezme proste rychlej postgresql server (postgis) nebo se zkousi ty servery spojovat a bouchat tam nejake vicevlaknove aplikace.. ale udajne je to "pomale"
ach jo :-(
tak znova, kdyz mas vektorove mapove podklady (openstreetmap) tak muzes najit co na jake souradnici je za objekt (les, pole, baraky, rybnik)
a skonzultovat to se satelitnima fotkama. takze misto zjistovani co je ten ktery pixel to muzes obratit, hledat ve vektorove mape a az na tom overit zda
ten pixel je opravdu voda. takze zadne koukani ocickama :-)
jak je velky ten tvuj satelitni snimek s 8 vrstvama? pokud mas nejakou sunku tak je mozne, ze mas problem otevrit normalni obrazek.
jinak ovsem to je spis tvoje chyba, nez ze by to na pc neslo.
pokud chces snimek analyzovat pixel po pixelu tak mas jedno jestli mas "hadoop" nebo nejaky jine paralelni zpracovani, furt to bude podobne slozite/narocne.
-
a predstavte si ze na vysoke skole mate 5 uceben kde v kazde je 20 pc.
100 PC zní možná cool, ale velké výpočty se běžně dělají na clusterech s počtem jader v řádech tisíců - viz např. http://www.metacentrum.cz/cs/resources/hardware/ - a ta infrastruktura je samozřejmě na počítání vyladěná a adekvátně softwarově vybavená.
IIRC jako student můžeš služeb Metacentra využívat, to je možná jednodušší cesta než se snažit někoho přesvědčit, aby do počítačové učebny instaloval Hadoop ;)
-
tak znova, kdyz mas vektorove mapove podklady (openstreetmap) tak muzes najit co na jake souradnici je za objekt (les, pole, baraky, rybnik)
a skonzultovat to se satelitnima fotkama. takze misto zjistovani co je ten ktery pixel to muzes obratit, hledat ve vektorove mape a az na tom overit zda
ten pixel je opravdu voda. takze zadne koukani ocickama :-)
ja fakt o tehle vecech nevim zhola nic. jen to tu pisu pro ilustraci pro lidi, kteri jsou na tom podobne jako ja. ve skole na tyhle veci mam lidi co maji PhD, venujou se tomu v radech 5-10 let a skrome tvrdi ze toho moc nevi... az tyhle veci budu potrebovat tak lusknu a spravne informace se na me sesypou :)
jak je velky ten tvuj satelitni snimek s 8 vrstvama? pokud mas nejakou sunku tak je mozne, ze mas problem otevrit normalni obrazek.
jinak ovsem to je spis tvoje chyba, nez ze by to na pc neslo.
pokud chces snimek analyzovat pixel po pixelu tak mas jedno jestli mas "hadoop" nebo nejaky jine paralelni zpracovani, furt to bude podobne slozite/narocne.
snimek je hafo velkej ale nevidel jsem ho :D protoze jak rikas, mam sunku :D jinak mam nejaky testovaci vobrazek cojavim 300x300 pixelu
a to jak se bude alayzovat, to taky nevim. na to mam ve skole taky lidi kterym je 180 a celej zivot nedelaji nic jinyho nez resi image processing a ruzny matematicky metody nad tim...
-
ty by jsi mi byl ochoten neco k hadoopu poradit? v praze mam kamarady u kterych muzu hlavu slozit a ted se tam nekdy o prazdninach chystam... :)
Pokud nebudu zrovna v Edinburghu, tak ti klidně věnuji hodinku nad ranním kafem. Ale předem podotýkám, že naše doména je dost jiná...
Pokud nechceš řešit ops a zpracování bude spíš jednorázové, tak se vykašli na vlastní infrastrukturu a naklikej si Elastic Map Reduce.
-
a predstavte si ze na vysoke skole mate 5 uceben kde v kazde je 20 pc.
100 PC zní možná cool, ale velké výpočty se běžně dělají na clusterech s počtem jader v řádech tisíců - viz např. http://www.metacentrum.cz/cs/resources/hardware/ - a ta infrastruktura je samozřejmě na počítání vyladěná a adekvátně softwarově vybavená.
IIRC jako student můžeš služeb Metacentra využívat, to je možná jednodušší cesta než se snažit někoho přesvědčit, aby do počítačové učebny instaloval Hadoop ;)
tak kdyby byli ve skole osviceni lidi a bylo by know how tak pocitacu je tam na fakulte co ja vim 500-700 a na cele skole klido 3x tolik? fakt kotel ale s porovnanim co ty posilas asi ne takova sila...
co se instalaci tyce tak to je udajne to nejmin narocne. bavil jsem se s sef-adminem a rikal ze to maji oskriptovany, maji jeden image a ten rozkopiruji po ucebne. linuxy ve skole taky jsou takze to je snad to nejjednodusi. uz jen vygooglit metodu jak instalovat samotny hadoop hromadne.
ja mam zatim testovaci prostredi s 5ti nodama a kdyz to spravuju tak mam tabulku kde si fajfkuju ze tenhle konfigurak jsem umlatil a na ktery masine :D :D (ale to momentalce neci cilem ulohy zejo :) )
-
... tak pocitacu je tam na fakulte co ja vim 500-700 a...
to cislo jsem asi prestrelil :D :D ale spis tam vzikaji zajimave ulohy ze tech nodu je hafo, ted nekde zacina vyuka takze se jich 40 odstreli, pak se zase nahodi, monitorovani, load balancing atd atd :)
-
uz jen vygooglit metodu jak instalovat samotny hadoop hromadne.
Jéééémine, další "google admin" :(
-
uz jen vygooglit metodu jak instalovat samotny hadoop hromadne.
Jéééémine, další "google admin" :(
povazuju se spis za porgramatora nez admina. ale muzes se podelit tak clovek nezlaly niceho dobrym adminem stane se :)
a nic lepsiho me nenapada. este muzu otravovat diskuzni fora s otazkama mam to zeditovat v .bashrc ale zadny tu nevidim. co mam delat ;)
-
povazuju se spis za porgramatora nez admina.
No prave, takovych se ted roji vic nez je zdravo... https://plus.google.com/109540561880466469418/posts/Ae6hSWXjM9T
ale muzes se podelit tak clovek nezlaly niceho dobrym adminem stane se :)
Stejne jako jak se stane programatorem clovek, kterej o tom nema paru - roky studia a praxe.
a nic lepsiho me nenapada.
klicova slova: configuration management, server provisioning, server orchestration.
Jsou na to tuny nastroju: Salt, Puppet, Chef, Ansible, cfengine, Docker, Juju, ... Ale v rukach laika jsou tyhle nastroje mor, protoze snadno ziska dojem, jak to hezky osefoval a realita je jinde (to neni nic osobniho, je to podobny jako kdyz si strojni inzenyr mysli, ze prece zvladne naprogramovat GUI jenom proto, ze je inzenyr...)
Zrovna Hadoop je trochu vyssi divci, takze bych ti doporucoval na to zapomenout a poohlidnout se po PaaS resenich, jak radil predrecnik.
-
nestacim odepisovat, taky musim neco delat :D
Mirek Prýmek: diky za tipy :)
amazone ne:
1) "nejsou" na to penize
2) to by byla nuda si to naklita a mam to... od ceho bych pak byl? :D
3) jak rikam, HW na to je, otazka jak to bude s knowhow... a kdyby se to povedlo tak to bude mega zajimave, to cluster na skole maji i zajem firmy...
4) jak je to s prenosem? mam dejme tomu 100 TB fotek, jak to do amazonu naladuju? :D
-
2) to by byla nuda si to naklita a mam to... od ceho bych pak byl? :D
tak jestli mas cas delat zbytecny veci zbytecne neodborne... Tak vysledek podle toho bude vypadat :)
3) jak rikam, HW na to je
Myslim, ze mas trochu naivni predstavy...
4) jak je to s prenosem? mam dejme tomu 100 TB fotek, jak to do amazonu naladuju? :D
Blbe :)
-
Hadoop je konstruovaný na servery v sousedních raccích. 50 mašin v různých podsítích s různým vytížením... To není vhodný případ. Když nic jiného, tak pro většinu případů vykrvácíš na I/O.
-
Hadoop je konstruovaný na servery v sousedních raccích. 50 mašin v různých podsítích s různým vytížením... To není vhodný případ. Když nic jiného, tak pro většinu případů vykrvácíš na I/O.
presne neco takoveho si myslim. jinak velice dekuju za nabidku. budu to toho maximalne bouchat a kdyztak se ozvu :)
-
ten clanek a komentare na google plus jsem cetl. vim co zname byt adminem. parkrat jsem seldel velde vylozene adminu a koukal jim do monitoru kdyz neco resili a cumel jsem az mi padala brada. rozhodne si takovych lidi vazim a ctim je. a to rikam proto ze si to myslim, ne protoze ti chci lest do zadeke a nenasrat te. bohuzel to co pises je lemi vzdalene realite a ja ti budu vdecny, pokud mi neco relevantniho odepises :) dekuju :)
2) to by byla nuda si to naklita a mam to... od ceho bych pak byl? :D
tak jestli mas cas delat zbytecny veci zbytecne neodborne... Tak vysledek podle toho bude vypadat :)
Aha, takze ja ve skole prijdu za vedoucim docentem a reknu mu. Hele, tak potrebuju jednoho hadoopovyho admina, jednoho linuxovyho admina. Ti by meli idealne sedet spolu v kanclu a dat cluster dohromady. Pak 1-2 programatori a nejakej tester by neurazil...
3) jak rikam, HW na to je
Myslim, ze mas trochu naivni predstavy...
To stejne. Hele dedku, idealni sestava je: 4tb hdd, 8 jader 2.5 ghz, 512 gb ramek. minimalne 1gb eth propustnost a rovnou kupte nejaky novy switche... Na test 50 takovych stroju, v produkci 200 bude snad stacit.
Ne, takova situace nikdy nebude ale to prece neznamena, ze nemuze vziknout pokus to dat dohromady? Znova apeluji na lidske osviceni. Pokud se to bude lidem na skole zamlouvat tak treba se v budoucnu tym rozroste. Na hadoopu se mi zamlouva to, ze clovek neresi vice vlaknove programovani, neresi deadlock... Nevyhodou je ze se algoritmy, ktery pocitaji s for cyklem nad vsemi daty musi prepsat do map and reduce myslenky. Dalsi nevyhodou je ze je to mlada vec a jsou tu veci jako treba sloupcove nebo nosql databaze kteryma se daji velky data do jiste miry tez prohanet.
-
Aha, takze ja ve skole prijdu za vedoucim docentem a reknu mu. Hele, tak potrebuju jednoho hadoopovyho admina, jednoho linuxovyho admina. Ti by meli idealne sedet spolu v kanclu a dat cluster dohromady. Pak 1-2 programatori a nejakej tester by neurazil...
Hele, ono to neni nepodobny tomu, jako by ses snazil postavit boeing a mel k dispozici dva sroubovaky a 2m ctverecni balsy. Kdyz na to nemas prostredky, tak si proste stanov takovej cil, na kterej prostredky mas.
Tim te samozrejme nechci odradit od experimentovani, to je super, ze chces zkusit si garazove postavit cluster, to je mi strasne sympaticky, akorat podle toho, co pises, odhaduju, ze jsi trochu prestrelil svoje moznosti - a to vzdycky vede jenom k frustraci...
Ta myslenka vyuzit normalni ucebnove pocitace sice neni principielne uplne spatna, ale bude nepruchodna - nikdo ti neumozni hrat si s konfiguraci stroju, ktere maji uplne jiny ucel. Admini tech stroju te poslou nekam, protoze oni ruci mj. za bezpecnost jejich provozu a nemuzou jenom tak nekoho amatersky si tam cosi instalovat jakymasi skriptama, ktery nekde vygooglil... Takhle to proste nejde, smir se s tim.
Jo, kdyz si sezenes na skole pet kolegu, poprosite nekde nekoho, aby vam dal nejaky stary hw a umoznil pouzit nejakou mistnost, kde si z toho srotu postavite testovaci klastrik, tak to uz je jina - a ze vsech sil bych vam drzel palce, protoze to by byl suprovej a maximalne prinosnej skolni projekt.
Kazdej projekt jestli ma byt uspesnej vyzaduje proste predevsim znat svoje moznosti, byt realista a staveni vzdusnych zamku drzet na zdrave mire :)
-
Aha, mistr Prýmek nepotřebuje zdroje ke zdokonalování, má tu kliku že ví všechno od přírody. ;D Jen závidím.
uz jen vygooglit metodu jak instalovat samotny hadoop hromadne.
Jéééémine, další "google admin" :(
-
Aha, mistr Prýmek nepotřebuje zdroje ke zdokonalování, má tu kliku že ví všechno od přírody. ;D Jen závidím.
Tak to's pochopil uplne spatne. Google samozrejme pouzivam taky - a dost intenzivne :)
-
Ta myslenka vyuzit normalni ucebnove pocitace sice neni principielne uplne spatna, ale bude nepruchodna - nikdo ti neumozni hrat si s konfiguraci stroju, ktere maji uplne jiny ucel. Admini tech stroju te poslou nekam, protoze oni ruci mj. za bezpecnost jejich provozu a nemuzou jenom tak nekoho amatersky si tam cosi instalovat jakymasi skriptama, ktery nekde vygooglil... Takhle to proste nejde, smir se s tim.
Hodí se sem jedno kočičí přísloví, které říká: "Co to sakra meleš, ty vořechu?"
Hadoop jsem provozoval na siti 50+ desktopovych pocitacu a:
1) hrat si s konfiguraci stroju nebylo potreba
2) adminum to bylo jedno, protoze na zprovozneni hadoop staci jen uzivatelske opravneni
3) o instalaci a konfiguraci na jednotlive uzly se staral asi 20 radkovy rucne delany skript, ktery si stahl a nastavil veci podle master-uzlu
Jedine, co delalo problem, byly (sveho casu) 100Mbs linky v nekterych castech site a "relativne" pomale desktopove disky.
Jo, kdyz si sezenes na skole pet kolegu, poprosite nekde nekoho, aby vam dal nejaky stary hw a umoznil pouzit nejakou mistnost, kde si z toho srotu postavite testovaci klastrik, tak to uz je jina - a ze vsech sil bych vam drzel palce, protoze to by byl suprovej a maximalne prinosnej skolni projekt.
Proc k tomu shanet pet kolegu a stary hardware? Veci pro Hadoop jdou bezproblemu odladit na jednom desktopu a pak vyskalovat na cluster jenom zmenou nastaveni. Na prvni prototyp map/reduce funkci staci Python, ale pokud chce clovek vytahnout z toho neco vic, bude muset nakonec sahnout minimalne po Jave. Ale opet to neni nic, co nejde vyzkouset a odladit na desktopu a pak skalovat podle potreb.
-
uz jen vygooglit metodu jak instalovat samotny hadoop hromadne.
Jéééémine, další "google admin" :(
a kvuli takovym tu je... https://news.ycombinator.com/item?id=7869904
-
2) adminum to bylo jedno, protoze na zprovozneni hadoop staci jen uzivatelske opravneni
Tak zkusit to může. Třeba mu na to šrotování petabytů (nebo kolik to psal) fotek bude stačit 50 desktopů v defaultní konfiguraci, které bude moct spustit jenom přes noc a fotky ukládat do svého $HOME nasdíleného přes NFS na fakultní fileserver, kde mu správci ochotně zvýší kvótu na pár petabytů :) Ale jinak by mi fakt přišlo rozumější zjistit si, za jakých podmínek ho pustí do Metacentra... (pokud jde fakt jenom o výpočty) anebo si postavit vlastní cluster from scratch, na čemž se naučí i ladit síť, úložiště, lokaci úloh atd. (pokud jde o seznamování se s tím, jak funguje cluster).
a kvuli takovym tu je... https://news.ycombinator.com/item?id=7869904
Přesně tenhle link mám právě v tom dkazovaným postu z Pluska :)
-
mea culpa. ja si rikal, kde jsem to vyhrabal bo paralelne docker tlaci na vice frontach a ne jen z tvyho pluska.
-
ahoj, dekuju za odpoved
1) hrat si s konfiguraci stroju nebylo potreba
ted presne nevim jak to je, svuj maly testovaci cluster jsem si rozbil a nemam naladu to ted opravovat. jedu na fejkovem single node clusteru. nevim jak se to s konfiguraci ssh aby na sebe stroje videly, konfigurace souboru mam pocit HADOOP_HOME/etc/hadoop/slaves a este neco?
jinak ta veta na me dela dojem ze konfigurace nebyla zadna pominu-li to ze musis mit vytvoreneho uzivatele, nainstalovany balicek s javou a nakopirovany hadoop jako takovy a nastavene promenne v .bashrc
2) adminum to bylo jedno, protoze na zprovozneni hadoop staci jen uzivatelske opravneni
jo, tam mam pocit staci vytvorit obycejneho uzivatele pod kterym to jede. pak to chce nejaky tool kterym node nahodim nebo vypnu (pokud se nepletu)
3) o instalaci a konfiguraci na jednotlive uzly se staral asi 20 radkovy rucne delany skript, ktery si stahl a nastavil veci podle master-uzlu
podelil by jsi se o ten skript? :)
Jedine, co delalo problem, byly (sveho casu) 100Mbs linky v nekterych castech site a "relativne" pomale desktopove disky.
s tim se pocita a "nevadi" to. nebude to zadne produkcni prostredi na kdovi jake veci...
Proc k tomu shanet pet kolegu a stary hardware? Veci pro Hadoop jdou bezproblemu odladit na jednom desktopu a pak vyskalovat na cluster jenom zmenou nastaveni. Na prvni prototyp map/reduce funkci staci Python, ale pokud chce clovek vytahnout z toho neco vic, bude muset nakonec sahnout minimalne po Jave. Ale opet to neni nic, co nejde vyzkouset a odladit na desktopu a pak skalovat podle potreb.
ano, duvod proc do toho fusuju je, ze par let programuju v jave a hadoop se tvari byt javovy, bez ohledu na to, ze pro nej muzu psat klidne v pythonu... tech 5 kolegu byl priklad pro pana Prymka, ktery naznacoval ze tu administraci zprasim. urcite ma asi pravdu. jedine co se mi k dnesnimu dni dari je pouze nainstalovat hadoop 2.2.0 a 2.4.0 coz jsou posledni stabilni releasy. zadnou extra konfiguraci asi zatim neplanuji, samotna instalace se mi uplne snadna nezda (mluvim o sobe).
-
Tak zkusit to může. Třeba mu na to šrotování petabytů (nebo kolik to psal) fotek bude stačit 50 desktopů v defaultní konfiguraci, které bude moct spustit jenom přes noc a fotky ukládat do svého $HOME nasdíleného přes NFS na fakultní fileserver, kde mu správci ochotně zvýší kvótu na pár petabytů :) Ale jinak by mi fakt přišlo rozumější zjistit si, za jakých podmínek ho pustí do Metacentra... (pokud jde fakt jenom o výpočty) anebo si postavit vlastní cluster from scratch, na čemž se naučí i ladit síť, úložiště, lokaci úloh atd. (pokud jde o seznamování se s tím, jak funguje cluster).
hmmm... dekuji za dobrou pripominku. udelam todo adminum kde ty data budeme uchovavat :D :D
metacentrum: me se zda ze je to o politice a znamostech jak s kym chodis do menzy :D :D ne kolik o tom vis nebo na jakem delas projektu. by ses divil jaky problem je na skole nechat prez noc pustene pocitace (pominuli tech. problemy jako je prehrivani ucebny (udajne)) tak je to zase politika a to jak se s kym na fakulte kamaradis :D :D ja to mam v pazi. ja jsem tu abych se neco naucil :) az me to za 2 roky preroste prez hlavu a zacne pekelne stvat tak me tu nikdo neuvidi :)
-
jen trosku k tem osvicenym lidem na skolach, neni to takova sranda protlacit spojeni vypocetniho vykonu, casem narazis na politiku a to ze se predstaveni kateder, fakult navzajem nemaj radi a navzajem si hazi klacky pod nohy, nekdy je lepsi takove veci delat spise od spoda, jit bez povoleni primo za spravci a i tak to muze byt problem. Ja teda nerozchel hadoop ikdyz take jsem nad nim uvazoval, ale spis jen jako datove uloziste. Ale rochazel jsem jen vypocetni grid, vysledek na pocitacich nasi katedry to slo, ti co byli svolni mely ale prilis stare pc co by spise zdrzovaly pokud by na nich vse bezelo, a ti co maji dobre pocitace nedaji pristup.
Preji vice uspechu, ale pamatuj penize jsou az na prvnim miste, takze se pak casem priprav na to ze ti bude rikano ze to ty pocitace nici, kdo zaplati elektriku atd ....
-
metacentrum: me se zda ze je to o politice a znamostech jak s kym chodis do menzy :D :D
AFAIK studenti maji moznost prostredky metacentra vyuzivat ciste z titulu toho, ze jsou studenti. Za jakych presne podminek, to nevim. Nejspis to bude nejaka nizka priorita uloh apod.
by ses divil jaky problem je na skole nechat prez noc pustene pocitace
No to jsme u toho, co jsem rikal... Mit svoje zelezo, o kterym oficialne rozhodujes, je vzdycky snadnejsi nez nekoho presvedcoval, aby delal neco, co delat nemusi... Ve firme by to bylo totalne nepruchozi a ani na skole bych neocekaval, ze by to slo hladce. No, zalezi na lidech, treba te mile prekvapi.
-
jen trosku k tem osvicenym lidem na skolach, neni to takova sranda protlacit spojeni vypocetniho vykonu, casem narazis na politiku a to ze se predstaveni kateder, fakult navzajem nemaj radi a navzajem si hazi klacky pod nohy, nekdy je lepsi takove veci delat spise od spoda, jit bez povoleni primo za spravci a i tak to muze byt problem. Ja teda nerozchel hadoop ikdyz take jsem nad nim uvazoval, ale spis jen jako datove uloziste. Ale rochazel jsem jen vypocetni grid, vysledek na pocitacich nasi katedry to slo, ti co byli svolni mely ale prilis stare pc co by spise zdrzovaly pokud by na nich vse bezelo, a ti co maji dobre pocitace nedaji pristup.
Preji vice uspechu, ale pamatuj penize jsou az na prvnim miste, takze se pak casem priprav na to ze ti bude rikano ze to ty pocitace nici, kdo zaplati elektriku atd ....
ahoj,
byl jsem, povazuji se a rad bych byl technicky clovek. dva cerne monitory a blikajici kurzor, sluchadka na usich a drceni klavesnice. snazim se bojovat svymi znalostmi a know how, ne ti ze budu s nekym pit kaficko, lest mu do zadele :)
pokud v tom osviceni lide neuvidi moznost jak delat business, kamaradit se s firmama a prumyslem a delat si PR tak me je to sumak :D jestli mi budou davat na jevo kdo vi co a hazet mi klacky pod nohy tak tu nebudu ani vterinu :D mam takovy primitivni pohled na vec ze skola je vlastne statni instituce a esli se nakoupi zelezo ze statnich penez tak zamestnancum to muze byt fuk... hlavni je aby studenti meli na cem pracovat a kdyby se naslo dalsi vyhuziti tak jen dobre. na druhou stranu skola je super v tom ze prijdete a reknete: sice umim velky prd ale mam chut neco delat a na necem maknout / neco "vyzkoumat". a skola vam na to da prostor :) co by to bylo za skolu zejo :D
-
metacentrum: me se zda ze je to o politice a znamostech jak s kym chodis do menzy :D :D
AFAIK studenti maji moznost prostredky metacentra vyuzivat ciste z titulu toho, ze jsou studenti. Za jakych presne podminek, to nevim. Nejspis to bude nejaka nizka priorita uloh apod.
aha, tak to zkusim prozkoumat ;) dik za info
by ses divil jaky problem je na skole nechat prez noc pustene pocitace
No to jsme u toho, co jsem rikal... Mit svoje zelezo, o kterym oficialne rozhodujes, je vzdycky snadnejsi nez nekoho presvedcoval, aby delal neco, co delat nemusi... Ve firme by to bylo totalne nepruchozi a ani na skole bych neocekaval, ze by to slo hladce. No, zalezi na lidech, treba te mile prekvapi.
jasny. hele, ja nevim, to jsou pro me veci mezi nebem a zemi... kdyz bych ve firme ukazal ze to ponese love tak proc ne? ale zase tim se kruhem dostavam jak lidi presvedcovat... a na to ja prcam :D ja raci presvedcuju zdrojovej kod aby poslouchal a tucnak delal to co naboucham za $ :)
-
kdyz bych ve firme ukazal ze to ponese love tak proc ne?
To by je to muselo nest hned, coz jaksi nebude tenhle pripad :) Pro nejake hrani si s necim ma malokdo pochopeni, kdyz kWh stoji 4 koruny :)
-
Záleží na tom v jaké firmě. Mnohdy může stačit nadchnout jednoho člověka, co na to dá peníze a to se může podařit i tím, že mu to prodáš, jako velkej hi-tech. Samozřejmě se to nemusí povést, ale taky to může dopadnout tak, že budeš mít všechno, co potřebuješ k dispozici, třeba i nakoupený nový hw, který se dá případně použít jinak, jinde, prodat, outsourcovat a pod. Navíc dřív, než se vůbec sejde ústřední výbor akademické kliky k sepsání žádosti o sociální davky.