“HBase 也支持批處理,它與HDFS以及Hadoop堆棧的其他組件共享存儲。我認為這也是HBase如此受歡迎的原因之一。HBase被整合到系統(tǒng)的其他部分中,而不是成為一個獨立的系統(tǒng)。它可以與堆棧的其他組件進行共享,可以對可用性、安全性和災難恢復等特性進行共享。”Cutting解釋說。
技術未來展望
如果Hadoop不僅僅是批處理計算平臺,而是成為一個更為通用的數(shù)據(jù)處理平臺,它將會變成什么樣,它到底將走向何方?Cutting表示,我們當然希望擁有開源的大數(shù)據(jù)平臺,并且能夠在通用硬件上運行。同時,我們還希望它具有線性擴展能力,也就是說,如果你需要存儲10倍數(shù)據(jù),只需要購買10倍的硬件就可以了。無論你的數(shù)據(jù)集變得有多大,都可以采用這樣的方式進行擴展。
性能方面同樣是如此。對于批處理性能,如果你需要更大的批處理吞吐量或更小的延遲,你只需要增加硬件數(shù)量即可。而對于交互式查詢,也是同樣。增加硬件就能為你帶來性能和數(shù)據(jù)處理量級方面的線性擴展。Cutting還表示:“人們通常會認為,采用大數(shù)據(jù)平臺后,需要放棄某些東西。我不這樣認為的。從長期來看,我們不需要放棄任何的功能。”
對于Hadoop未來的技術發(fā)展方向,Cutting表示谷歌已經給出了相關路線圖。“谷歌發(fā)布GFS和MapReduce的論文后,我們很快地將其復制到Hadoop項目中。這些年以來,谷歌在很多方面激勵著Hadoop開源堆棧。谷歌的Sawzall系統(tǒng)催生了Pig和Hive,而BigTable則直接啟發(fā)了HBase。我很激動地看到,今年谷歌發(fā)表了名為Spanner的論文,其中介紹了在分布式數(shù)據(jù)庫系統(tǒng)實現(xiàn)傳輸?shù)臋C制??赡芎芏嗳硕紩J為這不會很快成為現(xiàn)實,但卻為我們指明了前進的方向。”Cutting說。
Cutting指出,作為一項復雜技術,Spanner并不會很快成為Hadoop的一部分,但它確實明確了技術發(fā)展的方向。他同時還提到了Impala(Cloudera最新發(fā)布的數(shù)據(jù)庫引擎),它可以使用SQL查詢存儲在HBase中的數(shù)據(jù)集。 Impala將為用戶帶來交互式在線查詢的新體驗,它同樣追隨了谷歌的一些研究成果,已經發(fā)布了一段時間。Cutting認為,Impala將發(fā)展成為一個通用的技術平臺。
“我們已經知曉前進方向,并且知道如何去實現(xiàn)目標。所以,我鼓勵大家現(xiàn)在就開始使用Hadoop,因為在未來你將收獲更多。”Cutting說。