2014年12月12-14日,由中國計算機(jī)學(xué)會(CCF)主辦,CCF大數(shù)據(jù)專家委員會承辦,中科院計算所與CSDN共同協(xié)辦,以推進(jìn)大數(shù)據(jù)科研、應(yīng)用與產(chǎn)業(yè)發(fā)展為主旨的 2014中國大數(shù)據(jù)技術(shù)大會?(Big Data Technology Conference 2014,BDTC 2014)暨第二屆CCF大數(shù)據(jù)學(xué)術(shù)會議在北京新云南皇冠假日酒店盛大開幕。
星環(huán)科技CTO孫元浩的演講主題是“2015年大數(shù)據(jù)基礎(chǔ)技術(shù)的演進(jìn)趨勢”。期間,他一共總結(jié)了四大趨勢:SQL on Hadoop技術(shù)對SQL支持的完整度和性能大幅提升,混合架構(gòu)將逐漸消失;從In-Memory Computing 轉(zhuǎn)向 On-SSD Computing,固態(tài)盤將替代內(nèi)存作為緩存;數(shù)據(jù)產(chǎn)生的速度以及處理的速度要求都在快速提高,實時大數(shù)據(jù)技術(shù)得到關(guān)注;虛擬化技術(shù)的快速演化與Hadoop技術(shù)的日益平臺化,云計算與大數(shù)據(jù)終得融合。期間,他分享了Spark的一個數(shù)據(jù):全球已有近50家企業(yè)圍繞Spark提供產(chǎn)品和服務(wù),11家提供商業(yè)Spark版本。
星環(huán)科技CTO孫元浩
以下為演講實錄:
孫元浩:
謝謝大家,謝謝查教授,我今天演講的題目是2015年大數(shù)據(jù)技術(shù)的演進(jìn)趨勢,過去我們一直從事大數(shù)據(jù)實踐,有一些心得跟大家分享一下。我們做了明年的預(yù)測,邀請大家一起驗證。
第一個趨勢是隨著SQL on Hadoop技術(shù)的快速發(fā)展,SQL完整程度的大幅提高和性能提升,我們認(rèn)為混合架構(gòu)逐漸開始消失。
這里我解釋一下為什么出現(xiàn)混合架構(gòu),在過去幾年當(dāng)中Hadoop這個技術(shù)最早開始互聯(lián)網(wǎng)公司使用,十年之前開始發(fā)展,幾年前互聯(lián)網(wǎng)公司在企業(yè)里面用得越來越多,它處理非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)非常有利,但是處理結(jié)構(gòu)化數(shù)據(jù)的時候功能不完整,用戶覺得應(yīng)該還需要使用數(shù)據(jù)庫,或者M(jìn)PP數(shù)據(jù)庫,放在Hadoop旁邊協(xié)助處理結(jié)構(gòu)化的數(shù)據(jù)。第二個原因Hadoop是為幾百TB,幾個PB數(shù)據(jù)設(shè)計的,但是數(shù)據(jù)量小的時候,小于100T或者到10個T以下的時候,大家發(fā)現(xiàn)Hadoop的性能不如傳統(tǒng)的MPP數(shù)據(jù)庫,這時大家覺得有必要使用混合架構(gòu),把全部數(shù)據(jù)放在Hadoop上,部分?jǐn)?shù)據(jù)放到MPP數(shù)據(jù)庫進(jìn)行計算,或者把實時數(shù)據(jù)放到MPP數(shù)據(jù)庫,把歷史數(shù)據(jù)放到Hadoop里面,當(dāng)數(shù)據(jù)量積累很大的時候也讓Hadoop計算,這是混合架構(gòu)典型的部署方式。
我們看到過去的三年當(dāng)中Hadoop發(fā)展非常迅猛,很多公司快速做SQL開發(fā),性能也有很大提升。我們總結(jié)了一下市場上大概有四種SQL on Hadoop的技術(shù),我是說Hadoop系統(tǒng)里面原生開發(fā)SQL引擎的公司和技術(shù)。第一個是Impala,它的引擎采用類似于MPP的引擎。第二家是Tez,它吸收了Spark的一些設(shè)計思想。這個產(chǎn)品是2012年大概五六月份開始成型。第三個我們公司的產(chǎn)品我們叫做Transwarp Inceptor,這是基于Spark開發(fā)的SQL引擎,我們?nèi)ツ?0月份是第一個版本,目前支持SQL2003,支持函數(shù)、游標(biāo)等功能,我們SQL完整程度目前是所有Hadoop里面支持最完整的。同時,還有 SparkSQL和Drill。四類引擎每一個都在獨立發(fā)展自己的技術(shù),而Spark會成為一個主流。我們已經(jīng)可以支持TPC-DS所有的測試項,TPC-DS是用來衡量數(shù)據(jù)倉庫的執(zhí)行性能的,里面有大量的非等值JOIN語句,這使SQL引擎支持比較有難度的。
我們做的第一個判斷是混合架構(gòu)會逐漸的消失,過去MPP數(shù)據(jù)庫有三個優(yōu)勢,第一個SQL支持完整,現(xiàn)在我們的SQL支持程度已經(jīng)接近MPP數(shù)據(jù)庫;第二個它比Hadoop性能高,但我們看到現(xiàn)在Hadoop性能可以超過MPP若干倍。第三個優(yōu)勢就是說它上面的BI工具,外延工具非常全,傳統(tǒng)的BI廠商都已經(jīng)轉(zhuǎn)向Hadoop,Hadoop系統(tǒng)的BI工具也越來越豐富,還有一些新興的創(chuàng)業(yè)公司在Hadoop上開發(fā)全新的BI工具,這些工具原生支持Hadoop,從這個角度來講Hadoop的生態(tài)系統(tǒng)將很快超越傳統(tǒng)MPP數(shù)據(jù)庫。
我們覺得在未來一年兩年之內(nèi),Hadoop將逐漸取代MPP數(shù)據(jù)庫,大家不需要用混合架構(gòu),不需要在不同數(shù)據(jù)庫之間實現(xiàn)遷移了。有人說我MPP也在遷移,慢慢向Hadoop靠攏,這也是事實,整個MPP的數(shù)據(jù)庫在慢慢消失,完全走到Hadoop上面來。我們希望最后結(jié)果就是數(shù)據(jù)全部放在Hadoop上,不管數(shù)據(jù)在幾個GB級別還是10個PB級別,都可以在Hadoop上處理,真正做到無限的線性擴(kuò)展。
我們發(fā)現(xiàn)一個事實現(xiàn)在Spark成為最受歡迎的計算引擎,Impala已經(jīng)開發(fā)了三年時間,SQL支持仍然不夠完整,而通過Spark可以快速并行化SQL,SQL支持的完整程度可以快速提高。同時,通過Spark引擎我們證明新引擎性能可以超過MPP數(shù)據(jù)庫。從今年開始Hadoop的社區(qū)發(fā)展非??焖?,今年六月份的時候Spark Summit大會上,原來Hadoop生態(tài)系統(tǒng)中的各個廠商或項目都宣布開始全面支持Spark。我做了簡單的統(tǒng)計,全球已經(jīng)有近50家企業(yè)圍繞Spark提供產(chǎn)品和服務(wù),其中有11家提供商業(yè)的Spark版本,這是這里面所有的11家公司,我們也是認(rèn)證的Spark發(fā)行版廠商。