大數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預(yù)示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。
2013年10月28日,三名新疆籍恐怖分子駕吉普車沖撞天安門,恐怖分子當(dāng)場全部燒死,可是警方僅用了10多個小時就全部抓住了5名同伙。警方如何快速鎖定嫌疑犯,這是國家秘密,但是從媒體披露的蛛絲馬跡中,我們還是能發(fā)現(xiàn)無處不在的監(jiān)控視頻和電信追蹤起到了至關(guān)重要的作用。從天安門廣場追溯過去的海量信息,通過一些模糊匹配方法能快速地過濾信息,最后找出恐怖活動與嫌疑犯的相關(guān)性——這就是大數(shù)據(jù)的威力。
沒有最大,只有更大
維基百科這樣定義大數(shù)據(jù)(Big data):大數(shù)據(jù)或巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大,以至于無法在合理時間內(nèi)通過人工截取、管理、處理并整理成為人類所能解讀的信息。我們舉個例子,IBM團(tuán)隊為了讓電腦戰(zhàn)勝國際象棋冠軍卡斯帕羅夫,收集了將近100年來的60萬盤高手的棋譜,這個就是大數(shù)據(jù),人腦是無法記憶所有這些棋譜并加以有效利用的。1997年,國際象棋特級大師卡斯帕羅夫在《危險邊緣》(jeopardy)節(jié)目中首次輸給了IBM深藍(lán)電腦,成為轟動一時的新聞。電腦能戰(zhàn)勝人腦,秘訣就在于存儲在深藍(lán)電腦內(nèi)的棋譜大數(shù)據(jù)。科學(xué)家們研制了人工智能博弈軟件,能從大量的棋譜中找出最合適的步驟,這是人腦所無法企及的。
有人把大數(shù)據(jù)的特征歸納為4V:Volume(量大)、Variety(多樣)、Velocity(高速)、Value(價值密度低)。讓我們來回顧一下剛剛過去的“雙十一”節(jié),那天淘寶商城達(dá)成了1.88億筆交易,總交易額達(dá)創(chuàng)紀(jì)錄的350.19億元。這些交易記錄就形成了那天瘋狂網(wǎng)購的大數(shù)據(jù)。
這樣的記錄首先體現(xiàn)在數(shù)據(jù)量巨大上。我們知道一部高清電影的容量大約有1GB,而1024個GB就是一個TB,再1024個TB就是一個PB,而大數(shù)據(jù)往往達(dá)到PB數(shù)量級,可見數(shù)據(jù)量大得無法想象。其次,就是數(shù)據(jù)的多樣性,交易的品種、賣家的信息、買家的信息、快遞的信息、支付的信息,構(gòu)成了一個行業(yè)多樣化的數(shù)據(jù)鏈。第三,就是數(shù)據(jù)產(chǎn)生的速度極快,檢索結(jié)果的速度也要求快,要在幾百萬件商品中查找出一類商品,其檢索速度只需要1秒,這是傳統(tǒng)技術(shù)無法達(dá)到的。最后,需要說明的是,大數(shù)據(jù)的內(nèi)容雖然真實、完整地反映了客觀世界,但它的價值密度很低,如果不去研究挖掘,大數(shù)據(jù)是不會自動產(chǎn)生有用結(jié)果的。比如,在街景的海量監(jiān)控視頻中,犯罪分子留下的蹤影也許只有幾秒鐘。
大數(shù)據(jù)時代
英國的大數(shù)據(jù)權(quán)威專家維克托·邁爾-舍恩伯格(Viktor Mayer-Sch?nberger)寫過一本書,書名就叫《大數(shù)據(jù)時代》,書中首次斷言人類已經(jīng)無可逆轉(zhuǎn)地跨入了大數(shù)據(jù)時代。據(jù)他估算,人類在2000年時大約只有四分之一的信息實現(xiàn)了數(shù)字化,其他的四分之三的信息仍然以報紙、書籍、膠片、磁帶等形式存在,但是到了2007年人類存儲的數(shù)據(jù)超過了300艾字節(jié),相當(dāng)于3000億GB的信息量。大數(shù)據(jù)時代在生活、工作和思維上給人們帶來了巨大變革。
首先,是數(shù)據(jù)的形式由原來的關(guān)系型數(shù)據(jù)(如電子表格形式)更多地表現(xiàn)為非關(guān)系型數(shù)據(jù)(如用戶評論、圖片等);數(shù)據(jù)存儲方式也由原來集中式存儲變?yōu)榉植际酱鎯?,大型?shù)據(jù)不得不存儲在不同地方的存儲服務(wù)器中,通過網(wǎng)絡(luò)進(jìn)行互聯(lián)訪問,構(gòu)成所謂的云存儲。
其次,是對數(shù)據(jù)處理的方式發(fā)生了根本變化,人們已無法只用一臺電腦處理數(shù)據(jù),必須依賴網(wǎng)絡(luò)后面的云平臺,進(jìn)行云計算,才能有效處理大數(shù)據(jù)。在對大數(shù)據(jù)處理上,我們可以看到三個有趣的變化:在小數(shù)據(jù)時代,人們限于獲取數(shù)據(jù)的困難,只能采用隨機抽樣的方式獲取數(shù)據(jù)樣本,然后根據(jù)樣本數(shù)據(jù)進(jìn)行分析預(yù)測。一旦樣本出現(xiàn)偏差,那推導(dǎo)出的結(jié)果就會產(chǎn)生很大的誤差。
而在大數(shù)據(jù)時代,我們能輕易地得到數(shù)據(jù)全體,而不再需要樣本。譬如,阿里巴巴能得到所有買家的數(shù)據(jù),它能輕易地統(tǒng)計“光棍節(jié)”那天的交易金額,算出哪個地區(qū)交易最活躍,可以通過媒體實時轉(zhuǎn)播交易盛況。這就是大數(shù)據(jù)的全數(shù)據(jù)模式,數(shù)據(jù)處理的范圍是全體,而不再是樣本。第二個變化,是不再一味地追求數(shù)據(jù)的精確性。由于大數(shù)據(jù)的多樣性、豐富性、動態(tài)性(在處理的同時,數(shù)據(jù)還在大量產(chǎn)生),強調(diào)數(shù)據(jù)的精確性是做不到的,也沒有必要。紛繁的數(shù)據(jù)會混雜在一起,看起來好像全無用處,甚至有些還是錯誤的數(shù)據(jù),但是沒有關(guān)系,這就是大數(shù)據(jù)的本性,看似無關(guān)無用的一堆數(shù)據(jù)卻蘊含著無限商機。