Hortonworks在博客中提出了一個全新的Hadoop對象存儲環(huán)境——Ozone,能將HDFS從文件系統(tǒng)擴展成更加復(fù)雜的企業(yè)級存儲層。
Hadoop社區(qū)的一些成員今日提議為Hadoop增加一個新的對象存儲環(huán)境,這樣一來Hadoop就能以與亞馬遜S3、微軟Azure以及OpenStack Swift等云存儲服務(wù)一樣的方式去存儲數(shù)據(jù)。
Hadoop發(fā)行商Hortonworks本周二在官網(wǎng)發(fā)博文指出,隨著越來越多的企業(yè)采用Apache Hadoop,Hadoop已經(jīng)成了各種企業(yè)數(shù)據(jù)的“數(shù)據(jù)湖”(Data Lake),其中很多適合大數(shù)據(jù)分析應(yīng)用的數(shù)據(jù)類型非常適合采用HDFS,但是在某些行業(yè)應(yīng)用案例中HDFS又難以勝任,這就需要擴展Hadoop的存儲維度。例如,對象存儲或Key-Value存儲具備Hadoop HDFS的可靠性、一致性和可用性,但對語法、API和可擴展性的要求不同,Hadoop的存儲系統(tǒng)需要向多面手進化,以適應(yīng)新的存儲應(yīng)用需求。
不同行業(yè)大數(shù)據(jù)分析涉及的數(shù)據(jù)類型 數(shù)據(jù)來源:Hortonworks
Hortonworks在博客中提出了一個全新的Hadoop對象存儲環(huán)境——Ozone,能將HDFS從文件系統(tǒng)擴展成更加復(fù)雜的企業(yè)級存儲層。(編者按:雖然Hadoop已經(jīng)支持第三方對象數(shù)據(jù)存儲,例如亞馬遜S3云和數(shù)據(jù)中心里的OpenStack Swift,但是Hadoop原生的對象存儲功能對于希望將Hadoop作為未來應(yīng)用存儲層的開發(fā)者來說依然非常有價值。)
過去,HDFS架構(gòu)將元數(shù)據(jù)管理與數(shù)據(jù)存儲層分離成兩個相互獨立的層。文件數(shù)據(jù)存儲在包含有上千個存儲服務(wù)器(節(jié)點)的存儲層,而元數(shù)據(jù)存儲在文件元數(shù)據(jù)層——一個數(shù)量相對少些的服務(wù)器群(名稱節(jié)點)。HDFS這種分離方式使得應(yīng)用直接從存儲磁盤讀寫數(shù)據(jù)時能夠獲得很高的吞吐量擴展空間。
Ozone使得HDFS塊存儲層能夠進一步支持非文件性質(zhì)的系統(tǒng)數(shù)據(jù),而HDFS的文件塊架構(gòu)也將能夠支持存儲鍵值和對象。與HDFS的名稱空間元數(shù)據(jù)類似,Ozone的元數(shù)據(jù)系統(tǒng)也基于塊存儲層,但是Ozone的元數(shù)據(jù)將被動態(tài)分配,支持大量的bucket space。(上圖)
Hortonworks認(rèn)為HDFS將自然進化成一個完整的企業(yè)大數(shù)據(jù)存儲系統(tǒng),而Ozone也將以Apache項目(HDFS-7240)的方式開源。
Hortonworks給Ozone規(guī)劃了以下幾個目標(biāo):
可擴展支持?jǐn)?shù)以萬億的數(shù)據(jù)對象。
廣泛支持各種對象大小,從幾KB到幾十兆。
保證不低于HDFS的可靠性、一致性和可用性。
基于HDFS的數(shù)據(jù)塊層。
提供基于REST的API來訪問和操作數(shù)據(jù)。
為獲取更高的可用性,能支持?jǐn)?shù)據(jù)中心間的數(shù)據(jù)復(fù)制。