在快速增長的Hadoop數(shù)據(jù)分析軟件市場(chǎng),供應(yīng)與需求并沒有實(shí)現(xiàn)同步。與雇用IT人才創(chuàng)建和維護(hù)分布式計(jì)算系統(tǒng)相比,公司部署Hadoop的速度更為迅速。為了填補(bǔ)出現(xiàn)的缺口,許多公司開始轉(zhuǎn)向與能夠提供Hadoop咨詢、軟件部署和培訓(xùn)服務(wù)的公司合作。
隨著越來越多的企業(yè)開始大規(guī)模部署Hadoop,能夠創(chuàng)建和維護(hù)這些部署的IT專業(yè)人員在數(shù)量并沒有跟上Hadoop的步伐。在五月份,市場(chǎng)研究公司IDC的分析師研究發(fā)現(xiàn)Hadoop軟件市場(chǎng)的復(fù)合年增長率超過了60%。他們預(yù)測(cè),在2016年,市場(chǎng)份額將由2011年的7700萬美元增長至8.128億美元。
Apache基金會(huì)的Hadoop分布式計(jì)算技術(shù)最初在搜索引擎領(lǐng)域嶄露頭角。在雅虎的幫助下,該軟件取得了騰飛。雅虎甚至在2008年建置了一個(gè)當(dāng)時(shí)全球最大規(guī)模的Hadoop叢集,利用4千多臺(tái)服務(wù)器,使用超過3萬個(gè)處理器核心,來索引超過16PB的網(wǎng)頁數(shù)據(jù)。這一開源軟件的推動(dòng)力已經(jīng)不僅僅再限于早期的采用者。Cloudera在2009年推出了自己的Hadoop產(chǎn)品,不久Hortonworks和MapR技術(shù)公司也隨后推出了自己的Hadoop產(chǎn)品。
隨著Hadoop進(jìn)入更為廣闊的領(lǐng)域——從出版行業(yè)到農(nóng)業(yè),IT部門開始尋找Hadoop服務(wù)提供商和專業(yè)的咨詢公司來填補(bǔ)Hadoop的技能空缺。首席信息官和IT經(jīng)理開始在公司以外尋求幫助以啟動(dòng)相關(guān)項(xiàng)目,編寫代碼,駕馭Hadoop生態(tài)系統(tǒng)。隨著IT公司希望在公司內(nèi)部培養(yǎng)Hadoop人才,IT公司還開始與渠道合作伙伴合作進(jìn)行培訓(xùn)。
人才補(bǔ)充與培訓(xùn)是公司雇用Hadoop專家的唯一選擇
Shutterfly公司首席信息官Geoffrey Weber認(rèn)為Hadoop專家處于短缺狀態(tài)。他稱:“供不應(yīng)求是被輕描淡寫了。我認(rèn)為,現(xiàn)實(shí)情況是,對(duì)于我們這種規(guī)模的公司來說,不可能期望在市場(chǎng)上招聘到大量的Hadoop專家。”
Shutterfly為一家提供基于互聯(lián)網(wǎng)的圖片分享服務(wù)公司。雖然公司規(guī)模很小,但該公司2011年?duì)I收超過了4.73億美元,其競爭對(duì)手為臉譜、LinkedIn等社交媒體巨頭,這使得該公司的Hadoop人才補(bǔ)給受到了限制。
Weber 稱:“如果你是一名Hadoop專家,尤其是來自雅虎或其他早期涉足Hadoop的團(tuán)隊(duì)中的一員,那么你的經(jīng)驗(yàn)和技能幾乎是獨(dú)一無二的。你能夠選擇任何一家你想去工作的公司,你能夠得到你所期望的薪水。對(duì)于我們來說,從外面找到擁有這樣技能的人才來說非常困難。”
對(duì)于大規(guī)模部署來說,Hadoop人才處于短缺狀態(tài)
Hadoop的目標(biāo)利用常規(guī)數(shù)據(jù)庫技術(shù)管理和分析龐大而難以處理的數(shù)據(jù)集。其原理是將大數(shù)據(jù)處理任務(wù)分散在多個(gè)計(jì)算節(jié)點(diǎn)上。
Hadoop軟件被普遍認(rèn)為是一種與NoSQL數(shù)據(jù)庫平行的大數(shù)據(jù)技術(shù)。Hadoop的核心組件由MapReduce和Hadoop分布式文件系統(tǒng)(HDFS),前者的主要功能是在Hadoop集群中分配處理任務(wù)。其它大量的開源項(xiàng)目,包括部分商業(yè)軟件構(gòu)成了Hadoop生態(tài)系統(tǒng)。
公司加入到這一生態(tài)系統(tǒng)的過程往往是以一個(gè)非正式體驗(yàn)為開端的。Weber舉例稱,例如一家公司可能有一名員工對(duì)Hadoop感興趣,這名員工會(huì)下載軟件并創(chuàng)建了一個(gè)小集群。