通過檢查頂級的Hadoop發(fā)行版的關(guān)鍵特征,你可以決定哪些訂閱適合你的組織。
雖然軟件組件構(gòu)成的Hadoop生態(tài)系統(tǒng)堆棧是開源技術(shù),但是采用付費(fèi)訂閱使用其供應(yīng)商的商業(yè)Hadoop平臺會為企業(yè)帶來許多好處。例如,訂閱可以提供技術(shù)支持和培訓(xùn),以及訪問那些不提供給開源社區(qū)的企業(yè)功能。而供應(yīng)商的Hadoop的企業(yè)版提供了Hadoop生態(tài)系統(tǒng)協(xié)議堆棧的核心部件,主要區(qū)別是這些廠商提供超越公開訪問的功能。
最近市場的變化已經(jīng)使Hadoop廠商行列減少。就在本月,例如,PivotalSoftware公司終止了自己的Hadoop產(chǎn)品分布,并表示將開始代理銷售Hortonworks公司的產(chǎn)品。但仍有一些不同的供應(yīng)商來考慮,包括獨(dú)立的Hadoop專家,云計算提供商,以及兩家最大的IT供應(yīng)商。
為了幫助你確定哪些Hadoop產(chǎn)品適合你的組織,本文根據(jù)幾個關(guān)鍵特性區(qū)分Hadoop發(fā)行版,這其中包括部署模式,企業(yè)級功能,安全性和數(shù)據(jù)保護(hù)功能和支持服務(wù)。
注意,雖然Hadoop大數(shù)據(jù)管理的生態(tài)系統(tǒng)被設(shè)計成為支持可擴(kuò)展的數(shù)據(jù)存儲和高性能分布式計算,其實(shí)際的性能可能有幾個原因,其包括軟件實(shí)現(xiàn)。但許多性能問題依賴于計劃應(yīng)用程序本身。為了解決這個問題,我們將進(jìn)一步研究Hadoop的產(chǎn)品分布將如何有針對性地滿足用戶組織的業(yè)務(wù)需求。
1.Hadoop的部署模型
大多數(shù)Hadoop廠商支持混合部署的方法,但是只有來自微軟和亞馬遜網(wǎng)絡(luò)服務(wù)公司(AWS)的Hadoop產(chǎn)品在云環(huán)境完全部署。微軟公司運(yùn)行在Azure云基礎(chǔ)設(shè)施的Hadoop產(chǎn)品名為HDInsight,是一個基于Hortonworks數(shù)據(jù)平臺(HDP)托管服務(wù),這與Pivotal公司代理銷售Hadoop版本相同。AWS公司使用亞馬遜彈性云計算平臺,支持AmazonElasticMapReduce(EMR)的S3數(shù)據(jù)存儲,其Hadoop發(fā)布版捆綁了其他各種工具和技術(shù)。此外,亞馬遜EMR還提供使用MAPR的Hadoop發(fā)行版,這并不是亞馬遜公司自己的產(chǎn)品。
云部署模型提供了一個快速而省力的方式來配置Hadoop集群,微軟和AWS都使用戶能夠調(diào)整需求他們的環(huán)境來處理動態(tài)計算和存儲能力的需求。這種彈性可以滿足理想的組織對計算和存儲的需求,可能會隨時間變化。
而其他主要的Hadoop廠商,例如Cloudera,Hortonworks,IBM和MAPR都提供了基于云的部署,他們并不局限于這一模式。它們允許用戶下載,可以在本地或私有云部署在各種服務(wù)器,包括Linux和Windows系統(tǒng)的版本。此外,Cloudera公司和MAPR公司還提供了可以運(yùn)行在虛擬環(huán)境中的沙箱版本,例如VMware。
底線:考慮你的組織是否更傾向于管理其內(nèi)部的大數(shù)據(jù)環(huán)境或使用托管服務(wù)。在內(nèi)部管理監(jiān)督意味著軟件環(huán)境的維護(hù)和系統(tǒng)的連續(xù)監(jiān)測,即環(huán)境是否對處所的物理平臺或使用基于云的服務(wù)安置。如果你有經(jīng)驗豐富的工作人員,并知道適當(dāng)?shù)南到y(tǒng)大小特征,或者如果安全問題權(quán)證管理一個可信的防火墻背后的系統(tǒng),其內(nèi)部部署選項可能是可取的。
另一種方法是使用一個供應(yīng)商提供的服務(wù)平臺,這將有助于配置,啟動,管理和監(jiān)控你的操作。如果你不知道你需要什么規(guī)模的系統(tǒng),或期望系統(tǒng)規(guī)模將增長基礎(chǔ)上的需求不斷增加,這可能是可取的。而使用云計算和托管服務(wù)工作的好處是,它會為存儲和處理資源提供必要的彈性。
2.頂端的Hadoop發(fā)行版的企業(yè)級功能
三個獨(dú)立的Hadoop供應(yīng)商的開發(fā)方法有一些明顯的差異。Cloudera公司往往增強(qiáng)了Hadoop的核心與內(nèi)部開發(fā)的插件技術(shù),例如,基于Hadoop的ImpalaSQL查詢引擎;Cloudera的Manager管理工具;以及Kudu,這是在Hadoop分布式文件系統(tǒng)(HDFS)運(yùn)行的另一個用于實(shí)時分析數(shù)據(jù)存儲應(yīng)用。通常,企業(yè)在進(jìn)行初步開發(fā)工作后會開放源代碼等技術(shù)。另一方面,Hortonworks公司促進(jìn)其在ApacheHadoop社區(qū)軟件的100%創(chuàng)新,并沒有專有擴(kuò)展。
再加上其附加技術(shù),如從開源項目一開始推出的Ambari配置和管理軟件。另外,Hortonworks公司已經(jīng)與IBM等公司聯(lián)合起來,形成開放式數(shù)據(jù)平臺計劃(ODPi),致力于建立一個共同的核心技術(shù)規(guī)范的Hadoop平臺的組織。ODPi成員聲稱,這將提高互操作性,并減少供應(yīng)商的鎖定。
MAPR公司開發(fā)了自己的文件系統(tǒng)MAPR-FS,而沒有使用HDFS,另外也開發(fā)了自己的NoSQL數(shù)據(jù)庫MAPR-DB和其它基礎(chǔ)技術(shù),為了支持大型集群部署企業(yè)級的性能等基礎(chǔ)技術(shù)的需求,MapR也越來越注重實(shí)時流處理應(yīng)用。該公司在2015年底將其產(chǎn)品為MAPR融合數(shù)據(jù)平臺,其結(jié)合了MAPRHadoop文件系統(tǒng)和數(shù)據(jù)庫和ApacheSpark處理引擎,以及實(shí)施批處理和實(shí)時任務(wù)的稱之為MAPR流的新事件流的技術(shù)。