換句話說(shuō),要構(gòu)建未來(lái)的東西不再是一個(gè)庫(kù),可能是一個(gè)湖。湖里必須要有方式,魚在哪里、水草在哪里,要不然的話這就是一個(gè)數(shù)據(jù)沼澤,雖然數(shù)據(jù)都在里面,但是撈很痛苦,撈一把有蝦、有魚、有泥巴、有水草,還要再進(jìn)行過(guò)濾分析。所以,Data Lake是我們必須要面對(duì)的。
分析,是層層遞進(jìn)的。從分析到報(bào)表,到指引,做預(yù)測(cè)、做決策,再到指導(dǎo)你的行動(dòng)。認(rèn)知的過(guò)程,建構(gòu)在Data Lake的基礎(chǔ)上,再做一些基本的分析,可能會(huì)做一些預(yù)測(cè)的分析,這個(gè)過(guò)程中間還有自學(xué)習(xí)的機(jī)制,從數(shù)據(jù)的生成大數(shù)據(jù)的被分析,到數(shù)據(jù)用來(lái)做預(yù)測(cè)、做推斷,到數(shù)據(jù)用來(lái)做決定,再到數(shù)據(jù)自我學(xué)習(xí),這是完整的循環(huán)。
這樣描述的過(guò)程,會(huì)使人覺(jué)得這聽(tīng)起來(lái)像是“人”的過(guò)程。從馮諾依曼體系產(chǎn)生到現(xiàn)在,大家追求的就是怎么讓機(jī)器做得像人,但比人做得更快,AlphaGo就是比人做得更快,它的心理不受時(shí)間限制,人還會(huì)受到限制。
從系統(tǒng)角度來(lái)講,就具體的某些單向指標(biāo)來(lái)說(shuō),以暴力方式構(gòu)建的系統(tǒng)已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)人了,但整體上還比不過(guò)人,尤其是感知、學(xué)習(xí)、預(yù)測(cè)、適應(yīng)、模式識(shí)別等等。在語(yǔ)意之間能夠來(lái)回翻轉(zhuǎn),這個(gè)層面還遠(yuǎn)遠(yuǎn)趕不上。目前的方向是朝著認(rèn)知,朝向構(gòu)建人腦的模式。人可能走100步它要走10億步。
再往下更復(fù)雜的,在構(gòu)建一種關(guān)系的時(shí)候。股票、公司和投資方,和它的下家行業(yè),以及它的競(jìng)爭(zhēng)對(duì)手等,這么復(fù)雜的一個(gè)關(guān)系,如果不構(gòu)建出來(lái),這樣的金融大數(shù)據(jù)的服務(wù)肯定只能提供一個(gè)查詢,不超過(guò)萬(wàn)得。接下來(lái),認(rèn)知公司進(jìn)來(lái)以后你就會(huì)OUT了。要把這個(gè)關(guān)系建立起來(lái),因?yàn)檫@些關(guān)系是很動(dòng)態(tài)的,常常在我們回溯的時(shí)候是找不到,因?yàn)榘凑招泻土忻枋鰯?shù)據(jù)的方式無(wú)法做到。Graph Database可能是一個(gè)很好的模式,Graph Database可以描述清楚大量復(fù)雜的關(guān)系。
舉個(gè)例子,某些數(shù)據(jù)中的一條,大家看這么幾個(gè)數(shù)據(jù),每天的掃描影像個(gè)數(shù)120個(gè)Million,是中國(guó)的某一個(gè)客戶,這個(gè)數(shù)量相當(dāng)于Facebook一天的數(shù)據(jù)量,它的照片量,我們認(rèn)為只有像Facebook這樣的或者百度這樣的才有大數(shù)據(jù),其實(shí)企業(yè)里面很多都有。不用管它怎么產(chǎn)生的。把它放到峰值上去,會(huì)發(fā)現(xiàn)它每秒鐘是10萬(wàn)個(gè)影像,10萬(wàn)個(gè)影像不僅僅是10萬(wàn)個(gè)交易。每個(gè)影像它有若干的描述性的數(shù)據(jù),每個(gè)影像還有相關(guān)的東西結(jié)合在一起。這10萬(wàn)個(gè)影像對(duì)后臺(tái)來(lái)說(shuō)有數(shù)據(jù)庫(kù)存起來(lái),交易是10倍的。換句話說(shuō)每秒鐘是100萬(wàn),這個(gè)數(shù)據(jù)是非常大的。Facebook現(xiàn)在的峰值更大一些,當(dāng)時(shí)也就是10萬(wàn)到50萬(wàn)的樣子,現(xiàn)在可能能做到100萬(wàn)。
換句話說(shuō),我們看到在金融領(lǐng)域的大數(shù)據(jù),如果放到峰值的角度來(lái)考慮,一定是非常龐大的數(shù)據(jù)。為什么要考慮峰值?傳統(tǒng)分析的時(shí)候就會(huì)聽(tīng)到說(shuō)一天多少數(shù)據(jù)。治水跟治數(shù)據(jù)是有很相通的地方,最近武漢的大水,武漢大水過(guò)來(lái)武漢市三年前有一個(gè)投資計(jì)劃投了130億,說(shuō)能夠處理15個(gè)東湖水的量,如果當(dāng)初我來(lái)審核這個(gè)項(xiàng)目的時(shí)候,我會(huì)問(wèn)這15個(gè)東湖水的數(shù)量是一天過(guò)來(lái)?還是一個(gè)月過(guò)來(lái)?還是在十分鐘過(guò)來(lái)?這是不一樣的,在數(shù)據(jù)層面,現(xiàn)在金融服務(wù)器上來(lái)了,全國(guó)的散戶都來(lái)找你了,1億散戶投資人要來(lái)找你,你能夠處理嗎?你怎么處理?這相當(dāng)于說(shuō)15個(gè)東湖的水在十秒鐘之內(nèi)經(jīng)過(guò)武漢,你能夠處理嗎?這是非常簡(jiǎn)單的我們需要面對(duì)的數(shù)據(jù)的問(wèn)題。你有這樣的數(shù)據(jù)在那兒的時(shí)候,每秒鐘10萬(wàn),相當(dāng)于100萬(wàn)的數(shù)據(jù)每秒鐘要處理的時(shí)候,底下的平臺(tái)通過(guò)什么方式建造?買IBM主機(jī)沒(méi)問(wèn)題,任意擴(kuò)展。但是這個(gè)成本付不起。如果用最便宜的機(jī)器,最便宜的機(jī)器一臺(tái)肯定處理不了,就得是非常龐雜的集群,這個(gè)集群是分布式的,每臺(tái)機(jī)器都有可能失敗,雅虎每天的硬盤都有數(shù)千個(gè)壞掉,硬盤要壞掉數(shù)據(jù)只有一份肯定死了,怎么處理底下的東西,歸根到最后,最終的總量,這個(gè)數(shù)據(jù)要存15年,最終總量就是100多個(gè)PB。以前講PB是非常大的數(shù)了,Hadoop講說(shuō)我們能夠做PB的數(shù)據(jù)那是大數(shù)據(jù)了,可是你看看像這樣一個(gè)機(jī)構(gòu),它可以達(dá)到幾百個(gè)PB,如果存15年它的總量能夠到達(dá)1.3個(gè)Trillion,這是萬(wàn)億級(jí)的數(shù)據(jù)。最近幾年我們跟客戶溝通,把他的數(shù)據(jù)用峰值的方式進(jìn)行分析以后,我們發(fā)現(xiàn),包括它的總量,所以你構(gòu)建一個(gè)系統(tǒng),有很多具體的細(xì)節(jié)需要去不斷地考慮,也有一些現(xiàn)成的技術(shù)處理這個(gè)事情,但是首先得對(duì)所面對(duì)的這個(gè)數(shù)據(jù)要有深入、充分的了解,你一定得知道峰值是什么情況,兩頭的峰值,數(shù)據(jù)進(jìn)來(lái)的峰值以及數(shù)據(jù)出去的峰值,數(shù)據(jù)進(jìn)來(lái)的峰值就是說(shuō)你的數(shù)據(jù)源從哪里過(guò)來(lái),它每秒鐘大概在什么時(shí)候達(dá)到峰值,有可能最大的峰值是什么?數(shù)據(jù)出去是說(shuō)你的使用者在你這兒查詢,在你這兒做分析,它大概的使用情況是什么?所以這兩頭你都要搞的清楚,數(shù)據(jù)總量準(zhǔn)備存多久,存15年以上,你的硬盤壽命只有3年,之后你的硬盤是不停的換,還是量不斷增加,硬盤不停的換,還是會(huì)把一些冷數(shù)據(jù)放到特殊的地方去,類似這些問(wèn)題你都在這個(gè)過(guò)程中間要進(jìn)行考慮。