大數(shù)據(jù)(Big data)正構成我們明天的新大陸。
從2012年開始,我們將從大陸時代,移民進入大數(shù)據(jù)時代。
麥肯錫公司提出的大數(shù)據(jù)時代到來的觀點,引起了全球廣泛的反響。多家機構認為,“大數(shù)據(jù)”將會成為貫穿2012年的一條全新投資主線。
作為特指的大數(shù)據(jù),按EMC的界定,其中的“大”是指大型數(shù)據(jù)集,一般在10TB規(guī)模左右;多用戶把多個數(shù)據(jù)集放在一起,形成PB級的數(shù)據(jù)量;同時這些數(shù)據(jù)來自多種數(shù)據(jù)源,以實時、迭代的方式來實現(xiàn)。IBM把大數(shù)據(jù)概括成了三個V,即大量化(Volume)、多樣化(Variety)和快速化(Velocity)。大數(shù)據(jù)通常與Hadoop、NoSQL、數(shù)據(jù)分析與挖掘、數(shù)據(jù)倉庫、商業(yè)智能以及開源云計算架構等諸多熱點話題聯(lián)系在一起。
作為泛指的大數(shù)據(jù),則指向了定制化、差異化、個性化方向的競爭力。例如美國奧巴馬總統(tǒng)委員會的科技顧問Stephen Brobst所說:“過去3年里產生的數(shù)據(jù)量比以往4萬年的數(shù)據(jù)量還要多,大數(shù)據(jù)時代的來臨已經(jīng)毋庸置疑。我們即將面臨一場變革,新興大數(shù)據(jù)將成為企業(yè)發(fā)展的當務之急,而常規(guī)技術已經(jīng)難以應對Pb級的大規(guī)模數(shù)據(jù)量。這一變化所帶來的挑戰(zhàn),是成功的企業(yè)在未來發(fā)展過程中必須要面對的。只有那些能夠運用這些新數(shù)據(jù)型態(tài)的企業(yè),方能打造可持續(xù)的重要競爭優(yōu)勢。”
我們原以為已經(jīng)進入數(shù)據(jù)時代,其實真正的數(shù)據(jù)時代從2012年剛剛開始。標志性的區(qū)別就在于,以往的數(shù)據(jù)只是結構化的數(shù)據(jù),是非個性化的數(shù)據(jù);而進入2012年,非結構化數(shù)據(jù)占有比例將達到互聯(lián)網(wǎng)整個數(shù)據(jù)量的75%以上,這意味著個性化數(shù)據(jù)時代的到來。
異質性、個性化,這才是數(shù)據(jù)的真正本質。而那種一模一樣的數(shù)據(jù),與長相相同的麥當勞、鐵鍬一樣,仍屬于過去的時代。
在真正的數(shù)據(jù)時代,網(wǎng)商將不再奔向數(shù)據(jù)趨同的淘寶商城,而將涌向提供個性化競爭力的AaaS(分析即服務,analytics-as-a-service),撲向3V的懷抱。
淘寶目前每天活躍數(shù)據(jù)量已經(jīng)超過50TB,共有4億條產品訊息和2億多名注冊用戶在上面活動,每天超過4000萬人次訪問。“大數(shù)據(jù)”的作用,就是把這些數(shù)據(jù)采集進數(shù)據(jù)倉庫中,然后用分布式的技術框架(Hadoop),對非關系型數(shù)據(jù)進行異質性處理(NoSQL),通過數(shù)據(jù)分析與挖掘,發(fā)展一對一的商業(yè)智能,從中產生讓網(wǎng)商因小而美、不再打價格戰(zhàn)的企業(yè)和個人競爭力;讓中國產生不再依靠“中國制造”,而轉向“中國創(chuàng)造”的國家競爭力。
大數(shù)據(jù)時代,還會使一些具有數(shù)據(jù)核心技術的企業(yè)面臨新的機會。IBM希望提供端到端、整體的大數(shù)據(jù)解決方案,機器人“沃森”在人機大戰(zhàn)中獲勝就是其中的成果。眼看已經(jīng)不行的惠普,隨著對數(shù)據(jù)分析倉庫供應商Vertica的收購,儼然有了追隨Teradata的資本。只要愚蠢的投資人不再多事,就有可能咸魚翻身。更不用說EMC占對了內存計算的要津,搶得大數(shù)據(jù)和云計算的先機。幾家歡樂幾家愁,就看數(shù)據(jù)有沒有。
我個人以為,大數(shù)據(jù)并不像某些人說的,是云計算之“后”的又一浪。而就是云計算本身。因為都是數(shù)據(jù)的大規(guī)模集聚與定制化分布的結合。
我們來到了一個人類新的分水嶺,由此要把農業(yè)文明的分散化,與工業(yè)文明的集中化,在大數(shù)據(jù)中融為一體,集天地之精華,釋放出無窮的能量,達到信息時代的“光明頂”。