據(jù)IDC報告顯示,Hadoop MapReduce的2011年市場份額為7700萬美元,而到2016年市場份額將會有60.2%的增長達到8.13億美元
現(xiàn)今企業(yè)數(shù)據(jù)倉庫和關(guān)系型數(shù)據(jù)庫擅長處理結(jié)構(gòu)化數(shù)據(jù),并且可以存儲大量的數(shù)據(jù)。但成本上有些昂貴。這種對數(shù)據(jù)的要求限制了可處理的數(shù)據(jù)種類,同時這種慣性所帶的缺點還影響到數(shù)據(jù)倉庫在面對海量異構(gòu)數(shù)據(jù)時對于敏捷的探索。這通常意味著有價值的數(shù)據(jù)源在組織內(nèi)從未被挖掘。而Hadoop恰好可以解決以上問題。
Hadoop是一個基于Java的分布式密集數(shù)據(jù)處理和數(shù)據(jù)分析的軟件框架。Hadoop在很大程度上是受Google在2004年白皮書中闡述的MapReduce的技術(shù)啟發(fā)。MapReduce工作原理是將任務分解為成百上千塊的小任務,然后發(fā)送到計算機集群中。每臺計算機再傳送會自己那部分信息,MapReduce則迅速整合這些反饋并形成答案。
基于Java語言構(gòu)建的Hadoop框架實際上一種分布式處理大數(shù)據(jù)平臺,其包括軟件和眾多子項目。在近十年中Hadoop已成為大數(shù)據(jù)革命的中心。MapReduce作為Hadoop的核心是一種處理大型及超大型數(shù)據(jù)集(TB級別的數(shù)據(jù)。包括網(wǎng)絡點擊產(chǎn)生的流數(shù)據(jù)、日志文件、社交網(wǎng)絡等所帶來的數(shù)據(jù))并生成相關(guān)的執(zhí)行的編程模型。其主要思想是從函數(shù)式編程語言借鑒而來的,同時也包含了從矢量編程語言借鑒的特性。
Hadoop的擴展性非常優(yōu)秀,Hadoop可處理分布在數(shù)以千計的低成本X86服務器計算節(jié)點中的大型數(shù)據(jù)。同時由于眾所周知的摩爾定律,內(nèi)存和磁盤的容量也在不斷增長。Hadoop對硬件的支持也在加強,現(xiàn)在每個節(jié)點可部署16核的處理器,12TB甚至24TB磁盤。
Hadoop的生態(tài)系統(tǒng)構(gòu)建于Linux生態(tài)系統(tǒng)并發(fā)展。社交媒體和基于Web的應用驅(qū)動了Hadoop的發(fā)展,而Hadoop的興起也來帶了一些問題。其中之一就是Hadoop從業(yè)人員非常缺失。
如今,MIT已經(jīng)開始要求計算機系的學生使用Hadoop MapReduce構(gòu)建程序。而加州伯克利分校更是使用Hadoop致力于數(shù)據(jù)科學領(lǐng)域的研究。相關(guān)的Hadoop培訓的需求在成倍增長,企業(yè)開始將收集的信息細化(客戶信息、交易信息),企業(yè)都在爭先恐后的尋找縮減成本的方法。
Hadoop開發(fā)培訓需要被培訓人具備Java編程經(jīng)驗,而對于Hadoop管理培訓而言則需要被培訓人具備Linux或Unix的管理經(jīng)驗。IT人員爭先恐后參加Hadoop認證培訓無非是想獲取更高的薪資。