Open Source hadoop je vývojová verze, 650k řádek bordelu. Má spoustu branchů a hází se tam patche jak to jde, release se vydávají zřídka, většinou se to jen tagne aby věděli odkud si to pak branchnout.
Kvalita se neřeší, všichni přispěvovatelé mají pak svoje soukromé branche co stabilizují a prodávají. Některé hadoop verze, třeba od IBM je jen rebranded OS. Hadoop je ale dneska dost IN, tak se používá hlavně i tam kde by vpohodě stačily jednoduší a méně zabugované systémy jako třeba Spring-batch.
Hlavně HDFS, což je v podstatě designem jednoduchý systém, je síla. Přijít o všechna data je jednoduché především díky téměř neexistující obsluze chyb.
HADOOP je hezký příklad jak dopadne vývoj projektu když není k dispozici kvalitní vedení. Stará pravda je že když necháte kodéry bez dozoru za 3 roky spolehlivě dostanou projekt do stavu, kdy je lepší to vyhodit a začít znovu. Snahy o oprasení hadoopu byly, občas nějaký naivní přispěvovatel něco poslal, ale nekomitlo se nic, protože tenhle druh problémů se neřeší.
Mnohem zajímavější je ale HBASE, u toho mě fascinuje, který dobrodruh to může nasadit do produkce s tolika bugama - ehm. seznam.cz.