大數(shù)據(jù),即將成為石油、礦產(chǎn)類的新能源、新生產(chǎn)要素和巨大的經(jīng)濟資產(chǎn),開啟一次重大的時代轉(zhuǎn)型,預示著新一波生產(chǎn)率增長和消費者贏余浪潮的到來。它是管理國家的手段、商務經(jīng)營的法寶、未來就職的熱門,可能還是發(fā)達國家下一輪全球化競爭中的利器。
2013被稱為大數(shù)據(jù)元年。
關(guān)于大數(shù)據(jù)的圖書市面上就有20多種,其中最突出的是維克托·邁爾-舍恩伯格的《大數(shù)據(jù)時代——生活、工作與思維的大變革》(浙江人民出版社出版)。
舍恩伯格是最早洞見大數(shù)據(jù)時代發(fā)展趨勢的數(shù)據(jù)科學家之一,早在2010年就在《經(jīng)濟學人》上發(fā)布了對大數(shù)據(jù)應用的前瞻性研究,他的咨詢客戶包括微軟、惠普和IBM等全球頂級企業(yè),被譽為“大數(shù)據(jù)商業(yè)應用第一人”。
下面,我們循著舍恩伯格《大數(shù)據(jù)時代》的脈絡,了解一下大數(shù)據(jù)究竟意味著什么。
世界的本質(zhì)是數(shù)據(jù)
2009年,甲型H1N1流感爆發(fā)的前幾周,谷歌的工程師在《自然》雜志上預測大型流感傳播即將到來。不需分發(fā)口腔試紙或調(diào)查醫(yī)生,他們建立了一個系統(tǒng),在每天收到的數(shù)十億條搜索指令中關(guān)注特定檢索詞條(如“哪些是治療咳嗽和發(fā)熱的藥物”等)的頻繁使用與流感傳播之間的聯(lián)系,及時判斷流感從哪里傳出。而疾控中心要到流感爆發(fā)一兩周后才能確定。
谷歌的判斷就建立在大數(shù)據(jù)基礎上:即以一種特定方式,對海量數(shù)據(jù)進行分析,獲得有巨大價值的產(chǎn)品和服務或深刻的洞見。
傳統(tǒng)經(jīng)濟統(tǒng)計原則是以抽樣表征總體,人類對世界的認識,很像打著手電筒,清晰地看到腳下的某一塊石頭;而大數(shù)據(jù)時代的信息統(tǒng)計包含的樣本量是如此之大,如同一盞燈籠,可能細部不夠準確,但能照出整個環(huán)境和道路通向哪里。那些不很準確的最原始、看似平凡無用的信息,經(jīng)過恰當?shù)姆治?,讓我們越來越接近正確——
中英人壽通過分析愛好、常瀏覽的網(wǎng)頁、常看的節(jié)目、收入估計等好幾百種生活方式數(shù)據(jù),找出更有可能患高血壓、糖尿病和抑郁癥的人。申請者不必提供血液和尿樣,這個純數(shù)據(jù)分析法只需5美元,可使保險公司在每人身上節(jié)省125美元;
網(wǎng)站內(nèi)容設置依賴于數(shù)據(jù)而不是編輯的新聞敏感度,數(shù)據(jù)比有經(jīng)驗的記者更能揭示哪些是符合大眾口味的新聞;
網(wǎng)上教育公司深度研究它收集的所有數(shù)據(jù),比如學生重放講座視頻的哪個片斷,從而找出不明晰或很吸引人的地方反饋給設計課程的團隊……
這很像一場尋寶游戲,通過數(shù)據(jù)科學家的巧手,這些數(shù)據(jù)的潛在價值被挖掘出來,遠超其最基本的用途。數(shù)據(jù)發(fā)出了自己的聲音,帶給我們驚喜。有了大數(shù)據(jù)的幫助,我們會意識到本質(zhì)上世界是由信息構(gòu)成的。
挖掘處理數(shù)據(jù)是“大數(shù)據(jù)”的真諦
一個男人沖進塔吉特商店,氣憤地對經(jīng)理說:“我女兒還是高中生,你們卻給她郵寄嬰兒服和嬰兒床的優(yōu)惠券,你們是在鼓勵她懷孕嗎?”幾天后,當經(jīng)理打電話致歉時,男人語氣變平和了:“我女兒的預產(chǎn)期是8月份,是我完全沒有意識到這個事件的發(fā)生,該說抱歉的是我。”原來,塔吉特的分析團隊發(fā)現(xiàn),懷孕3個月的女性會買無香乳液,之后會買鎂、鈣、鋅等營養(yǎng)品,有20多種關(guān)聯(lián)物能使零售商較準確地預測預產(chǎn)期,寄出相應的優(yōu)惠券招徠顧客。
在大數(shù)據(jù)時代我們可以預測未來。古代能夠預言天氣的人,往往被視為通神,而今需要的只是海量信息的占有和分析。
大數(shù)據(jù)不僅僅在于數(shù)據(jù)之大,挖掘處理才是大數(shù)據(jù)關(guān)鍵所在。一要有收集及開發(fā)數(shù)據(jù)的特定工具,二要有集黑客和定量分析員優(yōu)長于一身的數(shù)據(jù)科學家。
隨著相關(guān)技術(shù)的成熟,公共部門和私人企業(yè)過去積累的大量“垃圾”數(shù)據(jù)有可能重煥光彩。比如用微觀居民和企業(yè)用電量數(shù)據(jù)指導智能電網(wǎng)建設、用交通事故和犯罪數(shù)據(jù)指導警力布局、用消費和稅收數(shù)據(jù)指導收入分配、用客流量數(shù)據(jù)指導鐵路和民航調(diào)配、用互聯(lián)網(wǎng)關(guān)鍵詞傳播數(shù)據(jù)進行流行病預防等等。
沃爾瑪可謂是大數(shù)據(jù)的玩家。在對每個顧客購物籃中的物品、具體購買時間甚至購買日的天氣分析后,研究人員發(fā)現(xiàn),跟尿布一起搭配購買最多的竟是啤酒,而季節(jié)性颶風到來之前,POP-Tarts蛋撻被大量買走。于是沃爾瑪把啤酒和尿布捆綁銷售;在颶風警報發(fā)出后,將蛋撻和手電筒等放在一起。過去,總部人員需要先有想法,再收集數(shù)據(jù)來驗證;如今,他們可以預測到當A出現(xiàn),B即將出現(xiàn),這已經(jīng)足夠珍貴。他們不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。