大數(shù)據(jù)時代最熱的三個關鍵詞為:云、大數(shù)據(jù)、分析。云計算之熱在此不必贅述,因為不管你看微博也好,瀏覽網(wǎng)站也好,如果三頁看不到一個云字的話,那說明你一定不在IT業(yè)。
可是,人們往往會看不透云計算,也不知道到底該怎樣做、做什么樣的事情。云計算如果不用來做分析的話,那么你只能云里來、云里去,永遠沒辦法化云為雨。
何為大數(shù)據(jù)?何以據(jù)?
我們先一起看看大數(shù)據(jù)這個詞發(fā)展的歷史。
60年代的時候,人們提起數(shù)據(jù)這個詞的時候,都只提Data。70年代創(chuàng)建了一個詞叫Database,從數(shù)據(jù)變成了數(shù)據(jù)庫,庫這個詞就顯得很大了。1975年創(chuàng)建了一個詞叫VLDB,80年代又創(chuàng)建了一個詞叫Data Warehouse,數(shù)據(jù)倉庫比數(shù)據(jù)庫還要大。到了90年代,人們才開始對數(shù)據(jù)倉庫里面的數(shù)據(jù)做了一些事情,叫做數(shù)據(jù)挖掘Data Mining。隨著90年代末期中期到2000年這個新的世紀里面,互聯(lián)網(wǎng)行業(yè)社交媒體還有云計算等等這些技術不斷地發(fā)展,人們又覺得這些詞都不夠了,于是就有了大數(shù)據(jù)Big Data?,F(xiàn)在在國外已經創(chuàng)建了一個叫Extreme Data,也就是說大數(shù)據(jù)也不夠,還有極端數(shù)據(jù),為什么呢?
在我看來,大數(shù)據(jù)不過是人們在三、四十年前對數(shù)據(jù)的理解,以及對數(shù)據(jù)管理和運用手段的不斷提升,所以不要管這些詞的叫法,我們先看看大數(shù)據(jù)都做了哪些事情。
以中國的某電信運營商短信業(yè)務的數(shù)據(jù)來看,每年7000多億條短信,5年下來就是3萬多億,其實這些短信里面還是有很多價值可以挖掘的。想要挖掘這個東西難不難?3萬多億行數(shù)據(jù),先不說這個表有多寬,先說做一些數(shù)學的統(tǒng)計、分析,就已經是一件非常困難的事情。
大數(shù)據(jù)的4V理論
目前業(yè)界對大數(shù)據(jù)總結出來一些特征,在這里,我用了4V理論來概括。
第一個V,數(shù)據(jù)量,它決定了大數(shù)據(jù)的基礎架子;
第二個V,速度。既使在大數(shù)據(jù)的數(shù)據(jù)量的規(guī)模下,企業(yè)其實還在要求能不能夠很快地把一些分析做出來。
第三個V,就是數(shù)據(jù)類型。過去我們在金融、電信行業(yè)里面經常做一些非常簡單的數(shù)據(jù)集,比如說號碼、姓名、年齡、主叫人的號碼、被叫號碼、主叫時間等很結構化、很整齊的一些數(shù)據(jù)?,F(xiàn)在有大量的數(shù)據(jù)不是結構化的,是半結構化的,比如一些文字,微博上的信息如何去分析,這就是大數(shù)據(jù)要解決的問題;
第四個V,變異,就是不管人們怎么去想象這些數(shù)據(jù),它隨時還都是在變的,變動越快、越大,對我們的處理能力提出的挑戰(zhàn)越大?,F(xiàn)在大家手上已經不光是微博了,還有微信,已經加上了聲音的信號,已經有圖象甚至視頻。如何通過一個短信或者說彩信的方式發(fā)出去,怎么樣去處理這些信息,其實都是我們要面臨的問題。
大數(shù)據(jù)需要分析云平臺
分析這個詞,是在大數(shù)據(jù)或是云計算里面,必須要提到一個戰(zhàn)略高度來認識的詞。如果你的云計算平臺沒有考慮如何對存儲下來的一些數(shù)據(jù)進行分析的話,那你存的又是什么?如果你沒有辦法把這里面的價值挖掘出來的話,你怎么區(qū)分一個是金礦,一個是垃圾堆?我存了大量的垃圾能夠有用嗎?當然,沒有用處的。
大數(shù)據(jù)面臨的問題之一就是如何對數(shù)據(jù)進行快速地采集。數(shù)據(jù)的采集是非常困難的事情,對比現(xiàn)在的數(shù)據(jù)庫水平和數(shù)據(jù)增長的趨勢,可以看出,數(shù)據(jù)增長速度比我們現(xiàn)在數(shù)據(jù)庫的處理能力要大得多。
這里,大家可以看到一些耳熟能詳?shù)年P健詞,像Hadoop、MapReduce,像Sybase IQ代表的列式數(shù)據(jù)庫,還有Sybase Event Stream Processor事件流處理器,怎么樣對流數(shù)據(jù)進行實時的加工,都是企業(yè)現(xiàn)在需要掌握的一些技術。
大數(shù)據(jù)的分析還有一些周邊的、外延的工具,比如說像Matlab、SAS、SPSS或者現(xiàn)在非?;鸬腞evolution R。開源的里邊有Hive、SciPy,Mahout、AMPL等等這些技術,在不同的領域里面都有很多人在研究、在分析著。
信息價值的挖掘有很多方法論和手段,比如說怎么樣去做社交媒體的分析,怎么樣去做行為分析、情緒分析。還有就是業(yè)務場景上個性化的服務、個性化的分析、個性化的推薦等等。
現(xiàn)在的數(shù)據(jù)庫市場在面臨這么大的數(shù)據(jù),這么復雜的數(shù)據(jù)類型,以及這么快的變化面前,已經不再是一統(tǒng)天下的格局,沒有一個數(shù)據(jù)庫產品,或者沒有一種數(shù)據(jù)庫產品可以完全地解決大數(shù)據(jù)的問題。未來的格局可能是什么呢?
在一個企業(yè)或者是像一個IDC這樣的架構里邊,必須要面臨一個工具箱的狀態(tài),這個工具箱里面有各種各樣的工具,每個工具的體驗點都是不一樣的,互相之間幾乎是不可取代的?,F(xiàn)在的數(shù)據(jù)庫市場也面臨這樣一個格局,很多時候做OLTP,要用行式數(shù)據(jù)庫,做大量的數(shù)據(jù)分析時要用列式數(shù)據(jù)庫,因為它可以帶來十倍、百倍的速度提高。
那么對大數(shù)據(jù)實時的處理,我們要用做數(shù)據(jù)流的分析數(shù)據(jù)庫、內存數(shù)據(jù)庫;在手機上或者說一些移動設備上要想做一些小的應用,我們需要一些嵌入式的數(shù)據(jù)庫;還有面向對象數(shù)據(jù)庫等等。在大數(shù)據(jù)的處理格局下,大家必須要接受這樣的一個觀點,就是專項的數(shù)據(jù)庫用于解決專項的問題。