其次,是集群。我們知道大數(shù)據(jù)處理平臺最終仍然是一個集群,在集群的計算里面、計算、存儲和網(wǎng)絡(luò)三個環(huán)節(jié)緊緊扣在一起,考慮任何一個優(yōu)化每一個環(huán)節(jié)都不可或缺。如何讓結(jié)點之間傳輸效率或者數(shù)據(jù)交換效率更高?我們提出了大數(shù)據(jù)互聯(lián)交換芯片,如何讓更不同的結(jié)點之間數(shù)據(jù)交換的的效率更高?我們在之前跟用戶溝通過,當(dāng)然簡單的做一個文本要求可能不那么高。但是現(xiàn)在大數(shù)據(jù)已經(jīng)慢慢向傳統(tǒng)的高性能計算領(lǐng)域進(jìn)行拓展,處理數(shù)據(jù)的量超過我們現(xiàn)在看到的很多應(yīng)用。而對不同結(jié)點數(shù)據(jù)交換要求很高,數(shù)據(jù)需要在里面不停的倒騰,不僅基于網(wǎng)絡(luò)模式也是提升的關(guān)鍵。
大數(shù)據(jù)的概念
第二個講的概念,現(xiàn)在講大數(shù)據(jù)處理好像是單一的事情。我們針對于大數(shù)據(jù)的特點畫了一個圖,抽取出來幾個特性。一個數(shù)據(jù)如何分析它的應(yīng)用的特點?去看它的數(shù)據(jù)總量,這是大數(shù)據(jù)首先的要求。但是,數(shù)據(jù)量只代表了數(shù)據(jù)可能大,可能小,但是并不以為這數(shù)據(jù)量大就一定很困難。比如說全中國人民每人都分一塊任務(wù)干的話,每個任務(wù)就很小了。但是要看你做的事情是結(jié)構(gòu)化還是非結(jié)構(gòu)化,大家相互的關(guān)聯(lián)耦合度有多高。另一個是更新模式,你是需要銀行業(yè)務(wù)或者交易業(yè)務(wù)不斷的做事務(wù)處理,在原來數(shù)據(jù)上更新還是保持原來的數(shù)據(jù)不變不斷的疊加。再一個就是響應(yīng)處理,比如我每天處理一次還是說提交一個請求要求多少豪秒之間就要進(jìn)行返回。
數(shù)據(jù)的總量、更新和處理
從這幾個角度來講不同的數(shù)據(jù)有不同的特點。我們大概把這個進(jìn)行了分離,畫了三個圈,不一定非常嚴(yán)格。從我們做產(chǎn)品做平臺的角度來講,如何去推出不同的東西來應(yīng)對不同的應(yīng)用需求。最里面的一個圈是大家見到的非常奪得,就是最傳統(tǒng)的數(shù)據(jù)庫的應(yīng)用,銀行里的應(yīng)用、民航的應(yīng)用,類似第三方支付的應(yīng)用。它現(xiàn)在仍然是數(shù)據(jù)庫最主要的部分,現(xiàn)有的很多分布式技術(shù)在這兒做的非常少。最外面這一圈完全是數(shù)據(jù)雖然規(guī)模很大,但是是松散的,可以充分的分布化處理。原來傳統(tǒng)高性能的數(shù)據(jù)就可以劃到這里面來。還有中間的一層就是文本的搜索數(shù)據(jù)挖掘的很多數(shù)據(jù)都可以在中間這一層。