大數(shù)據(jù),大概是爆紅速度僅次于云計算的科技新名詞,過去一年來,云計算雖然還是很熱門的話題,但更熱門的是大數(shù)據(jù),情況就像幾年前廠商不約而同在談云計算一樣。
當初整個業(yè)界大談云計算,從上到下幾乎所有公司都能沾得上邊,不免令人質(zhì)疑是在炒作,但事實證明云計算至今不只沒有成為泡沫,還有許多更進一步的成果。然而,遇到現(xiàn)今整個IT業(yè)界都在追逐大數(shù)據(jù)話題,在相同的情境下還是不免要質(zhì)疑:這是不是也在炒作?
其中最直接的質(zhì)疑是:大數(shù)據(jù)所指的大數(shù)據(jù)分析,已經(jīng)不是什么新鮮事了,大量數(shù)據(jù)的處理與分析應用早就存在,許多企業(yè)采用數(shù)據(jù)倉儲就是為了解決大量數(shù)據(jù)處理與分析的難題。這種情況就如同當初云計算被擴大解釋為網(wǎng)頁電子信箱,搞得大家一頭霧水,不免覺得“原來云計算早就存在,不過是舊瓶裝新酒罷了”,但從云計算現(xiàn)在的發(fā)展狀況來看,這當然是個誤解。
大數(shù)據(jù)(Big Data)的誤解,其實從中文翻譯就已經(jīng)造成了。大數(shù)據(jù)真是一個不好翻譯的名詞,很難從中文找到一個適切的譯名,任何一種翻譯方法,都只能表達部分意思,因此勢必就會造成另外一部分的誤解。
大數(shù)據(jù)有3種特性:Volume、Velocity、Variety,Volume指的是數(shù)據(jù)量龐大,而到底數(shù)據(jù)量要多大才算呢?這其實沒有一定的界限,不過有許多企業(yè)已經(jīng)面臨單日數(shù)據(jù)量以數(shù)十、數(shù)百TB的速度增加,而總數(shù)據(jù)量也達到了PB(Petabyte)等級,這樣的數(shù)據(jù)量已讓傳統(tǒng)的數(shù)據(jù)庫難以處理;Velocity是指數(shù)據(jù)增加的速度越來越快,諸如移動化、社交網(wǎng)絡的風行,使得數(shù)據(jù)增加的速度比傳統(tǒng)的企業(yè)應用程式來得快很多,一旦數(shù)據(jù)增生速度越快,數(shù)據(jù)處理、分析的速度也就得跟上;而Variety則是指數(shù)據(jù)的多樣性,我們現(xiàn)在上網(wǎng)不是只看看資訊,同時我們不斷在產(chǎn)出數(shù)據(jù):上傳照片、上傳視頻、發(fā)微博,另一方面,IT深入生活中的各個層面,各式各樣的監(jiān)控器、感應器也不停地產(chǎn)出機器資訊,數(shù)據(jù)的型式已不像過去那么單純了。
這3個數(shù)據(jù)特性,已經(jīng)是現(xiàn)在式,而不是未來式。然而該如何解決日漸緊迫的大數(shù)據(jù)處理問題呢?像Facebook、Twitter這樣面臨數(shù)據(jù)量大爆炸的網(wǎng)路公司,開始用Hadoop、NoSQL等新興技術(shù)來解決問題。
Hadoop是分散式處理技術(shù),它立基于分布式架構(gòu),因此可以使用大量便宜的服務器,打造巨大的處理能力,并且可由水平擴充方式來加大處理能力,以應付更大的數(shù)據(jù)處理需求。
有了Hadoop這樣的開放原始碼技術(shù),讓許多人不需購買大型的數(shù)據(jù)分析設備,也有辦法來分析大量的數(shù)據(jù),例如日本藥廠透過分析Twitter使用者的留言,分析感冒、流鼻水等癥狀的字眼,就能了解流行病的趨勢,掌握市場脈動;而在過去,如果你沒有可行的大數(shù)據(jù)分析工具,可能連想都不敢想要分析Twitter這么一回事。
至于傳統(tǒng)數(shù)據(jù)分析廠商,也紛紛將數(shù)據(jù)分析平臺轉(zhuǎn)換為分散式處理架構(gòu),提供水平擴充能力,或是增加處理速度更快的數(shù)據(jù)庫技術(shù),來應付大數(shù)據(jù)的3種特性。這樣的發(fā)展也有助于企業(yè)因應未來的數(shù)據(jù)處理挑戰(zhàn),對于已經(jīng)采用數(shù)據(jù)倉儲的用戶,例如銀行業(yè),就能順利移轉(zhuǎn)。畢竟,Hadoop仍是一個很新的技術(shù),其中的技術(shù)門檻亦較高。
所以,大數(shù)據(jù)不會是一個空談的話題,在技術(shù)上已經(jīng)有諸多變革在發(fā)生了。不過,大數(shù)據(jù)的挑戰(zhàn)不完全是技術(shù)層面的話題,更大的挑戰(zhàn)是在業(yè)務層面,甚至是管理面的問題。