除成本外,Hadoop能夠用來處理非結(jié)構(gòu)化數(shù)據(jù)。對銀行而言,像視頻數(shù)據(jù)、票據(jù)數(shù)據(jù),雖然目前對銀行的價值不是太高,但是需要一個存儲機制來存放,Hadoop的技術(shù)算法越來越成熟,數(shù)據(jù)發(fā)掘的工具也越來越豐富,這就使得企業(yè)在運用Hadoop技術(shù)之后能發(fā)現(xiàn)額外的一些增值的東西。
孫總預計,傳統(tǒng)的企業(yè)IT架構(gòu)慢慢向Hadoop遷移,未來大概兩三年,企業(yè)的傳統(tǒng)IT架構(gòu)慢慢就會被hadoop來取代。Hadoop會成為企業(yè)的數(shù)據(jù)倉庫的中心,未來hadoop會是各個行業(yè)的企業(yè)數(shù)據(jù)倉庫。
皮皮:談到大數(shù)據(jù),有3V,Volume(大量)、Velocity(高速)、Variety(多樣),尤其是在物聯(lián)網(wǎng)時代,像氣象、交通等實時數(shù)據(jù)量大,并發(fā)度高,那么物聯(lián)網(wǎng)大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)有什么區(qū)別?對企業(yè)的技術(shù)底層架構(gòu)有哪些挑戰(zhàn)?
孫總表示,互聯(lián)網(wǎng)其實是一個連接人的一個網(wǎng)絡,采集的數(shù)據(jù)大部分都是人的行為的數(shù)據(jù),比如說人的交易的數(shù)據(jù)、人的上網(wǎng)記錄,而物聯(lián)網(wǎng)采集的數(shù)據(jù)更多是機器的數(shù)據(jù)。如果比較這兩個數(shù)據(jù)源的話,我們發(fā)現(xiàn)它的數(shù)據(jù)量是會差一個量級的,全世界人口可能是60億人口,可是有上百億的設備,這些設備如果都采集數(shù)據(jù)的話呢,它的量會比互聯(lián)網(wǎng)的數(shù)據(jù)大一數(shù)量及,所以這個會對未來的數(shù)據(jù)架構(gòu)產(chǎn)生一個新的大的挑戰(zhàn)。
第二個特點是,物聯(lián)網(wǎng)的數(shù)據(jù)并發(fā)度非常高,而且數(shù)據(jù)一旦產(chǎn)生需要立刻被處理。孫總舉了一個真實的客戶案例,客戶目前有一千萬個傳感器,每秒鐘一千萬個量級的數(shù)據(jù)發(fā)送量,可能就已經(jīng)超過很多互聯(lián)網(wǎng)公司的數(shù)據(jù)量,對底層架構(gòu)的并發(fā)要求非常高。
第三個差異化在于互聯(lián)網(wǎng)的數(shù)據(jù)可能是人的行為數(shù)據(jù),主要用來分析,可以做一些營銷,但是物聯(lián)網(wǎng)數(shù)據(jù)來說更多的是發(fā)現(xiàn)一些自然規(guī)律,當然這里面也使用到了大量的技術(shù)運算,也會用到大量的復雜的物理和數(shù)學的方法。
皮皮:大數(shù)據(jù)的浪潮風靡全球,與Hadoop類似,Spark也火了。在國外 、Intel、Amazon、Cloudera 等公司率先應用并推廣 Spark 技術(shù),在國內(nèi)阿里巴巴、百度、淘寶、騰訊、網(wǎng)易、星環(huán)等公司敢為人先,Spark 在IT業(yè)界的應用可謂星火燎原之勢,未來Spark能否取代Hadoop?
孫總表示,非常希望(Spark)能夠取代HADOOP,從這個整個生態(tài)系統(tǒng)的發(fā)展趨勢來看,(Spark)會慢慢取代(MapReduce),當然在星環(huán)科技的產(chǎn)品當中已經(jīng)拿(Spark)取代(MapReduce),此外孫總在視頻采訪中還重點為我們講解了Hadoop的分布式計算框架的架構(gòu),干貨剖多,請大家點擊視頻觀看詳情。
皮皮:我注意到2015年新年剛開始,你們公司成功完成了新一輪的數(shù)千萬的融資了。那我之前也了解到浪潮與你們強強聯(lián)手,成功搭建了基于Hadoop的大數(shù)據(jù)信息化平臺,能不能從合作伙伴的角度來和我們簡單的談一談Hadoop的生態(tài)圈?
孫總坦言,希望能夠促進Hadoop真?zhèn)€生態(tài)系統(tǒng)的發(fā)展,目前有三類合作伙伴,一類是行業(yè)應用方案解決方案的提供商,比如在交通行業(yè)的合作伙伴,在與我們進行深度的合作,能夠高效的處理數(shù)據(jù)或者是銀行的數(shù)據(jù)或者是交通的側(cè)重信息。另外一類合作伙伴是我們認證的一些服務商,對他進行培訓,他們幫我們進行安裝部署運維,這些服務工作,第三個是他們的產(chǎn)品與我們是有互補性的有可能是硬件廠商,像浪潮。
皮皮:那最后一個問題了,IDC公司預測,數(shù)據(jù)每天將增長40%-50%這意味著到2020年總體的數(shù)據(jù)量將會達到40PB?那非結(jié)構(gòu)話的數(shù)據(jù)主要來源我們?nèi)粘5泥]件還有論壇。博客社交網(wǎng)絡,包括我們的POSE系統(tǒng)還有機器生成的一些數(shù)據(jù)了,那么面對這些非結(jié)構(gòu)化的數(shù)據(jù),你們提供了一些什么樣的Hadoop解決方案,未來Hadoop還會有哪一些新的版本會發(fā)布?
孫元浩認為,未來很多計算框架也會與Hadoop進行融合,等到hadoop3.0的時候,可能會安全性與性能上得到很大的提升,在資源管理效率上得到比較大的增強。
孫總透露,星環(huán)科技預計在2015年發(fā)布2款新產(chǎn)品,第一款產(chǎn)品針對物聯(lián)網(wǎng)部署的大量傳感器產(chǎn)生的數(shù)據(jù),專注于處理時序數(shù)據(jù),首先會進入新能源行業(yè)。它能夠?qū)鞲衅鳟a(chǎn)生的大量數(shù)據(jù)進行高效處理,在內(nèi)存里存儲數(shù)據(jù)或者是將SSD上的數(shù)據(jù)轉(zhuǎn)成內(nèi)存存儲,對所有的時序數(shù)據(jù)進行數(shù)據(jù)挖掘分析。
第二款產(chǎn)品預計會在2015年下半年推出,這是一款利用Container和Docker來運行Hadoop的現(xiàn)有版本,幫助企業(yè)簡化Hadoop的部署流程,有了這個方案以后,企業(yè)在部署Hadoop機群的時候,再啟動100個機群的時候可能只需要2、3秒就可以啟動,自動進行擴容,即便機器發(fā)生故障也能夠自動遷移。這樣一來,可以大大降低企業(yè)管理Hadoop的成本、包括維護的成本,同時也能夠做非常有效的資源隔離,因為運用Container技術(shù)能夠做到CPU內(nèi)存網(wǎng)絡磁盤的隔離,隔離性會比之前更好。如此一來,Hadoop作為企業(yè)的數(shù)據(jù)的計算,能夠滿足多個部門在統(tǒng)一個數(shù)據(jù)平臺上進行數(shù)據(jù)分析,就可以通過這種技術(shù)有效的實現(xiàn)。