據(jù)IDC報(bào)告顯示,Hadoop MapReduce的2011年市場份額為7700萬美元,而到2016年市場份額將會有60.2%的增長達(dá)到8.13億美元
現(xiàn)今企業(yè)數(shù)據(jù)倉庫和關(guān)系型數(shù)據(jù)庫擅長處理結(jié)構(gòu)化數(shù)據(jù),并且可以存儲大量的數(shù)據(jù)。但成本上有些昂貴。這種對數(shù)據(jù)的要求限制了可處理的數(shù)據(jù)種類,同時(shí)這種慣性所帶的缺點(diǎn)還影響到數(shù)據(jù)倉庫在面對海量異構(gòu)數(shù)據(jù)時(shí)對于敏捷的探索。這通常意味著有價(jià)值的數(shù)據(jù)源在組織內(nèi)從未被挖掘。而Hadoop恰好可以解決以上問題。
Hadoop是一個(gè)基于Java的分布式密集數(shù)據(jù)處理和數(shù)據(jù)分析的軟件框架。Hadoop在很大程度上是受Google在2004年白皮書中闡述的MapReduce的技術(shù)啟發(fā)。MapReduce工作原理是將任務(wù)分解為成百上千塊的小任務(wù),然后發(fā)送到計(jì)算機(jī)集群中。每臺計(jì)算機(jī)再傳送會自己那部分信息,MapReduce則迅速整合這些反饋并形成答案。
基于Java語言構(gòu)建的Hadoop框架實(shí)際上一種分布式處理大數(shù)據(jù)平臺,其包括軟件和眾多子項(xiàng)目。在近十年中Hadoop已成為大數(shù)據(jù)革命的中心。MapReduce作為Hadoop的核心是一種處理大型及超大型數(shù)據(jù)集(TB級別的數(shù)據(jù)。包括網(wǎng)絡(luò)點(diǎn)擊產(chǎn)生的流數(shù)據(jù)、日志文件、社交網(wǎng)絡(luò)等所帶來的數(shù)據(jù))并生成相關(guān)的執(zhí)行的編程模型。其主要思想是從函數(shù)式編程語言借鑒而來的,同時(shí)也包含了從矢量編程語言借鑒的特性。
Hadoop的擴(kuò)展性非常優(yōu)秀,Hadoop可處理分布在數(shù)以千計(jì)的低成本X86服務(wù)器計(jì)算節(jié)點(diǎn)中的大型數(shù)據(jù)。同時(shí)由于眾所周知的摩爾定律,內(nèi)存和磁盤的容量也在不斷增長。Hadoop對硬件的支持也在加強(qiáng),現(xiàn)在每個(gè)節(jié)點(diǎn)可部署16核的處理器,12TB甚至24TB磁盤。
Hadoop的生態(tài)系統(tǒng)構(gòu)建于Linux生態(tài)系統(tǒng)并發(fā)展。社交媒體和基于Web的應(yīng)用驅(qū)動了Hadoop的發(fā)展,而Hadoop的興起也來帶了一些問題。其中之一就是Hadoop從業(yè)人員非常缺失。
如今,MIT已經(jīng)開始要求計(jì)算機(jī)系的學(xué)生使用Hadoop MapReduce構(gòu)建程序。而加州伯克利分校更是使用Hadoop致力于數(shù)據(jù)科學(xué)領(lǐng)域的研究。相關(guān)的Hadoop培訓(xùn)的需求在成倍增長,企業(yè)開始將收集的信息細(xì)化(客戶信息、交易信息),企業(yè)都在爭先恐后的尋找縮減成本的方法。
Hadoop開發(fā)培訓(xùn)需要被培訓(xùn)人具備Java編程經(jīng)驗(yàn),而對于Hadoop管理培訓(xùn)而言則需要被培訓(xùn)人具備Linux或Unix的管理經(jīng)驗(yàn)。IT人員爭先恐后參加Hadoop認(rèn)證培訓(xùn)無非是想獲取更高的薪資。