數(shù)據(jù)量的增長變成一個突發(fā)事件是最近兩年的事情。基于互聯(lián)網(wǎng)的應用產(chǎn)生的社會性變革,使得一系列數(shù)據(jù)開始從客戶端產(chǎn)生,而不是從企業(yè)里產(chǎn)生。數(shù)據(jù)量的增長速度有了新的級數(shù)上的增加。在這個基礎上,70%-85%的數(shù)據(jù)是“多種數(shù)據(jù)格式的復合體”。未來數(shù)據(jù)的管理模型跟今天會有很大的差別。另外,87%的數(shù)據(jù)庫性能問題都與數(shù)據(jù)量的增長相關。這是基于Oracle的一次數(shù)據(jù)調(diào)研。Gartner發(fā)現(xiàn)數(shù)據(jù)量直接影響的是現(xiàn)有處理模式的性能。所以,現(xiàn)在數(shù)據(jù)量的高速增長,如果按照原來的管理模式,把數(shù)據(jù)都放在一起保存,未來會遇到更多的挑戰(zhàn)。因為現(xiàn)有數(shù)據(jù)庫結(jié)構(gòu)和數(shù)據(jù)管理的模型,已經(jīng)不能滿足基于大數(shù)據(jù)的數(shù)據(jù)規(guī)模。
如果一些企業(yè)提前采用大數(shù)據(jù)技術(shù),能在競爭中取得一些先機。Gartner對未來五年的預測,其中有一條引起了轟動。到2015年,85%的世界五百強企業(yè)如果不采取大數(shù)據(jù)的策略將失去競爭力。所以大數(shù)據(jù)的競爭是非常關鍵的時機,也是非常殘酷的事情。現(xiàn)在大家的確需要有足夠先進有力的應對措施。
一、“大數(shù)據(jù)”是什么?大數(shù)據(jù)帶來的問題是什么?
“大數(shù)據(jù)”指的不僅僅是數(shù)據(jù)量,而是會帶來一系列新的挑戰(zhàn)。Bigdata的概念首先是由Gartner一位叫道戈拉里的分析師提出的。他提出Bigdata面臨三個V的挑戰(zhàn):數(shù)據(jù)量(Volume)、數(shù)據(jù)多樣性(Variety)、高速(Velocity)。
在這個前提下,Gartner去年發(fā)布了Bigdata的12個模型。最關注的是最下面的區(qū)間,即有關Bigdata最開始產(chǎn)生的幾個量化指標:數(shù)據(jù)量、數(shù)據(jù)種類和處理速度。一般企業(yè)所面對的數(shù)據(jù)管理管理的是數(shù)據(jù)庫、結(jié)構(gòu)化數(shù)據(jù),以及所能預先安裝好的管理軟件所帶來的數(shù)據(jù)。大數(shù)據(jù)管理的往往是我們無法管理的數(shù)據(jù),比如來自企業(yè)外部,微博、社交網(wǎng)站和多媒體等各種載體。
數(shù)據(jù)多樣性將是大數(shù)據(jù)的一個重點。它意味著未來數(shù)據(jù)的產(chǎn)生本身就是一個很大的區(qū)別。高速,與CIO關注的系統(tǒng)性能不是等同的關系。這里的高速指的是從數(shù)據(jù)產(chǎn)生到最終針對數(shù)據(jù)產(chǎn)生決策的速度,里面包括了存儲的過程、計算的過程、整個模型和以什么方式提交出最后的結(jié)果。所以,不僅是計算能力和存儲性能的問題,更多是在數(shù)據(jù)管理方面如何保護它的處理速度。在大數(shù)據(jù)問題中,速度往往是性命攸關的。比如對于災難的預測,當災難發(fā)生時,要很快對災難發(fā)生的程度、影響的區(qū)域范圍、對長遠的影響等都需要量化出來。這是大數(shù)據(jù)很典型的應用,如果短時間內(nèi)沒有計算出來,那么數(shù)據(jù)就沒用了。
大量、多樣性和高速必然帶來復雜性的問題。到現(xiàn)在為止很難找到一個很好的解決方案,能夠應對所有的數(shù)據(jù)格式問題。雖然現(xiàn)在有很多不同行業(yè)開始采用標準化手段來回避這個問題,但仍然是很嚴峻的問題。
現(xiàn)在在醫(yī)療界有一個數(shù)據(jù)標準Dicom,即醫(yī)療數(shù)據(jù)的影像傳輸協(xié)定。當初只是針對制藥,不過現(xiàn)在醫(yī)療行業(yè)包括醫(yī)院都在采用這個數(shù)據(jù)格式,這是很好的趨勢。通過一個中立機構(gòu),制定數(shù)據(jù)格式的標準,由它來解決一部分數(shù)據(jù)復雜性的問題。但如果放到更大范圍,面向所有企業(yè)的話,數(shù)據(jù)格式還不存在。雖然現(xiàn)在有SML這種相對來說適用范圍更廣的格式,但在具體的定義以及應用方面還有很多挑戰(zhàn)。
極限的信息管理:12個象限
“大數(shù)據(jù)”將對信息管理的各個方面的需求推向極限。訪問權(quán)限管理和控制,包括數(shù)據(jù)敏感性分級(Classification)、共享協(xié)議(Contracts)、熱點數(shù)據(jù)(Pervasiveness)、技術(shù)實現(xiàn)(Technologies)。這個層級是用戶很少提到的,有了如此大的數(shù)據(jù)量,未來會是很嚴重的問題。數(shù)據(jù)敏感性分級,把所有數(shù)據(jù)放在一起是數(shù)據(jù)管理的災難,數(shù)據(jù)管理的前提是所有數(shù)據(jù)產(chǎn)生的價值是不同的,不同時期產(chǎn)生的價值也是不一樣的,必須要定義哪些是有價值的,哪些沒有價值,還要定義價值的時間區(qū)限。共享協(xié)議,數(shù)據(jù)提交的方式是怎樣的,如何提交,提交的格式是怎樣的,這些都需要通過合同以法律形式確定下來。熱點數(shù)據(jù),大數(shù)據(jù)時代熱點數(shù)據(jù)在不斷變化。熱點的程度和時間未來對訪問權(quán)限和控制很重要。技術(shù)實現(xiàn),能夠管理大數(shù)據(jù)的技術(shù)手段有哪些。
質(zhì)量管理包括保真度(Fidelity)、數(shù)據(jù)的相關性(Linking)、數(shù)據(jù)的有效性(Validation)、數(shù)據(jù)的有效期限(Perishability)。在訪問權(quán)限之上是質(zhì)量管理,這是原來數(shù)據(jù)倉庫中的重要概念。數(shù)據(jù)拿進來之后保真度怎樣,每個數(shù)據(jù)都有上下文的關系,這些上下文關系會不會影響在下一個場景中使用。數(shù)據(jù)的相關性,不同來源的數(shù)據(jù)組合的模型產(chǎn)生的結(jié)果不能將其中一部分拿出來斷章取義。數(shù)據(jù)的有效性,從時間和應用場景的角度對這些數(shù)據(jù)進行管理,這是更高的層面。這四個象限都非常重要,現(xiàn)在大家關注更多的數(shù)據(jù)量的問題。
大數(shù)據(jù)產(chǎn)生對數(shù)據(jù)中心架構(gòu)設計的新需求
現(xiàn)有基于關系型架構(gòu)設計出來的數(shù)據(jù)中心很難滿足未來的要求。大數(shù)據(jù)如果能充分利用將有非常好的商機。比如商業(yè)預測,08年的經(jīng)濟危機人們都歸咎于監(jiān)管不夠和對數(shù)據(jù)模型的設計出現(xiàn)了嚴重問題。如果設計出一個更加完善的數(shù)據(jù)模型,是否能預測出產(chǎn)生的危機,并對后果更加量化,幫助人們進行更好的決策呢?大數(shù)據(jù)不僅對企業(yè),對一個國家,甚至全球的穩(wěn)定都是十分重要的。
還有很多新類型的應用,比如期貨、股票。如果能比競爭對手早一點點預測到市場趨勢,都會有非常重要的商業(yè)價值。從挑戰(zhàn)和機遇來看,會產(chǎn)生對基于大數(shù)據(jù)架構(gòu)的一種新的需求。大數(shù)據(jù)的復雜模型不是在原有系統(tǒng)上擴容,增加一些新應用就能實現(xiàn)的。比如,用數(shù)據(jù)中心逐漸擴容的方式來迎合這種需求很難做到的。無論是數(shù)據(jù)庫、存儲、數(shù)據(jù)計算能力,現(xiàn)在流行的數(shù)據(jù)中心的技術(shù)很難滿足大數(shù)據(jù)的需求。需要考慮對整個IT架構(gòu)進行革命性的變化。