一、 關于HADOOP與Spark、GPU,及商業(yè)化未來
1、面對Spark這類新興技術的發(fā)展,以及MapReduce市場萎縮的情況,你們?nèi)绾慰创@種市場變化?
邁克:Hadoop由很多部分構(gòu)成,第一層是HDFS,完全做分布式存儲,此外MapReduce用來做分布式處理;有分布式地面向列的開源數(shù)據(jù)庫技術HBase;Impala可以在支持Hadoop的HDFS系統(tǒng)上,直接做SQL的查詢;也有Cloudera做的Kudu這樣的新型存儲技術。
Spark只是其中的新技術之一,并不是好像全世界都只用Spark。當然,我們?nèi)绻ケ容^Spark和MapReduce,從現(xiàn)在的情況來看,Spark的確會勝出,但基于Hadoop還會不斷涌現(xiàn)出更多新技術。
道克:沒錯,Spark的確非常好。在實時批處理上表現(xiàn)優(yōu)異,但它不是全能的,比如它不具備SQL訪問查詢、Solr和Lucence搜索倒排索引、HDFS、Kudu的數(shù)據(jù)存儲能力等。Spark僅僅是Spark,它不代表Hadoop所有的技術,Hadoop將會孕育更多新技術出來。
2、王建民:計算機和大數(shù)據(jù)技術都在日新月異的變化,特別在硬件方面,我們看到很多下一代硬件不斷的涌現(xiàn),這些新產(chǎn)品的涌現(xiàn)對于大數(shù)據(jù)技術的未來會有什么樣的影響?
邁克:像網(wǎng)絡、CPU在未來會出現(xiàn)非常多的變化,正確的方法是軟件去適配硬件,而不是無視硬件的變化。硬件的升級并不會妨礙未來大數(shù)據(jù)技術的發(fā)展,反而大數(shù)據(jù)系統(tǒng)會更好的去利用這些新硬件去改變世界,兩者不存在替代關系。
過去十年,我們已經(jīng)看到了很多這類變化。Cloudera有著非常深厚的英特爾背景,我們的很多員工來自于英特爾,英特爾也是我們的投資人之一。我相信我們和英特爾的密切關系,未來會更多的幫助下一代軟硬件技術的融合與適配。
道克:很多人在問我,怎么把GPU和Hadoop結(jié)合,這其實是一個錯誤的命題。Hadoop實際上是基于IO Intensive的系統(tǒng),它整個系統(tǒng)的瓶頸是在系統(tǒng)的IO上,包括磁盤IO、網(wǎng)絡IO,所以它需要解決的根本并不是CPU的問題。未來當IO不再困擾我們的時候,也許那時再來談怎么用CPU加速的技術解決更多問題更有意義。
像谷歌Tenzing的機器學習系統(tǒng)就可以很好的利用GPU,而不是現(xiàn)在吧的大數(shù)據(jù)系統(tǒng)來加速。但我相信在這個領域?qū)頃懈嗟臋C會,我們將看到很多數(shù)據(jù)結(jié)構(gòu)、系統(tǒng)結(jié)構(gòu),會適應新硬件的變化趨勢而發(fā)生轉(zhuǎn)變。
3、Hadoop3.0的關鍵特性
邁克:Hadoop3.0的確會有一些側(cè)重,排在首位的就是多租戶技術,將來我們會在Hadoop 3.0的平臺上看到更多不同的像MapReduce、Spark這樣的技術,可以同時在一個平臺上被不同的用戶運行,就像Yarn正在做的一樣。所以Hadoop 3.0的特點就是支持更多的系統(tǒng)可以更好的運行,更好的去實現(xiàn)多租戶這個概念。
另外,Hadoop3.0更多的是適配新硬件技術的改變,比如英特爾新推出的優(yōu)化存儲、CPU的新技術,特別是SSD技術。硬件價格的走低,讓我們更有可能去利用這些技術。Cloudera新啟動的一個Apache開源項目叫Apache Kudu,這是一個新型的存儲系統(tǒng),Kudu就正在利用這樣一些這樣的新硬件技術。
道克:現(xiàn)在還有另一個我們在做的項目,內(nèi)容是基于HDFS和新型硬件結(jié)合做系統(tǒng)復制。這種復制技術,不只能加快系統(tǒng)的速度,還會提升系統(tǒng)的容量。這個項目的開發(fā)者就在英特爾中國公司,中國已經(jīng)出現(xiàn)了很多很好的創(chuàng)新技術。
4、問題分段:CDH商業(yè)產(chǎn)品的未來怎么樣?
邁克:Cloudera一直在保持這個系統(tǒng)的開源,雖然上面有很多收費的工具,但是這樣做的目的并不是阻止用戶。因為現(xiàn)在有很多商業(yè)軟件巨頭會利用我們的開源系統(tǒng),把它作為商業(yè)軟件,去獲得更多的市場機會,去贏取更多的利潤。所以我們一方面會保持底層數(shù)據(jù)存儲、處理引擎系統(tǒng)的開源,讓用戶可以把這個技術用得更好、讓系統(tǒng)變得更易用;同時,堅持收費的舉措也讓我們能夠有能力在大數(shù)據(jù)系統(tǒng)市場上和大型商業(yè)軟件公司競爭。
開源將有利于更多人參與系統(tǒng)的開發(fā),讓更多的大學可以參與學習,讓更多的用戶可以接受新知識。所以大家看到了Impala和Spark。我很高興看到作為一家公司Cloudera在大數(shù)據(jù)市場上越來越多的成長機會。
道克:開源平臺上,Apache僅僅是把所有技術囊括在一起,但Apache上面可能有二十多種不同的打包方式,怎么去安裝?怎么去配置?怎么去打包?這些其實對很多用戶來講都非常具有挑戰(zhàn)性。所以我們推出CDH Commercial版,已經(jīng)幫大家把對應的系統(tǒng)打包好了,通過CDH我們會幫助大家更好的管理數(shù)據(jù),管理大數(shù)據(jù)系統(tǒng)。