在數(shù)據(jù)“爆炸”的時(shí)代,大數(shù)據(jù)常常被寄予厚望。到底,什么樣的數(shù)據(jù)才算大數(shù)據(jù),怎樣才能用好大數(shù)據(jù),傳統(tǒng)統(tǒng)計(jì)學(xué)還有用武之地嗎?清華大學(xué)統(tǒng)計(jì)學(xué)研究中心前不久成立,著名統(tǒng)計(jì)學(xué)家、哈佛大學(xué)終身教授劉軍擔(dān)任主任。日前,劉軍做客人民日?qǐng)?bào)、人民網(wǎng)《文化講壇》,分享他的思考。
——編者
讓大數(shù)據(jù)區(qū)別于數(shù)據(jù)的,是其海量積累、高增長(zhǎng)率和多樣性
什么是數(shù)據(jù)?數(shù)據(jù)(data)在拉丁文里是“已知”的意思,在英文中的一個(gè)解釋是“一組事實(shí)的集合,從中可以分析出結(jié)論”?;\統(tǒng)地說,凡是用某種載體記錄下來的、能反映自然界和人類社會(huì)某種信息的,就可稱之為數(shù)據(jù)。古人“結(jié)繩記事”,打了結(jié)的繩子就是數(shù)據(jù)。步入現(xiàn)代社會(huì),信息的種類和數(shù)量越來越豐富,載體也越來越多。數(shù)字是數(shù)據(jù),文字是數(shù)據(jù),圖像、音頻、視頻等都是數(shù)據(jù)。
什么是大數(shù)據(jù)呢?量的增多,是人們對(duì)大數(shù)據(jù)的第一個(gè)認(rèn)識(shí)。隨著科技發(fā)展,各個(gè)領(lǐng)域的數(shù)據(jù)量都在迅猛增長(zhǎng)。有研究發(fā)現(xiàn),近年來,數(shù)字?jǐn)?shù)據(jù)的數(shù)量每3年多就會(huì)翻一番。
大數(shù)據(jù)區(qū)別于數(shù)據(jù),還在于數(shù)據(jù)的多樣性。正如高德納咨詢公司研究報(bào)告指出的,數(shù)據(jù)的爆炸是三維的、立體的。所謂的三維,除了指數(shù)據(jù)量快速增大外,還指數(shù)據(jù)增長(zhǎng)速度的加快,以及數(shù)據(jù)的多樣性,即數(shù)據(jù)的來源、種類不斷增加。
從數(shù)據(jù)到大數(shù)據(jù),不僅是量的積累,更是質(zhì)的飛躍。海量的、不同來源、不同形式、包含不同信息的數(shù)據(jù)可以容易地被整合、分析,原本孤立的數(shù)據(jù)變得互相聯(lián)通。這使得人們通過數(shù)據(jù)分析,能發(fā)現(xiàn)小數(shù)據(jù)時(shí)代很難發(fā)現(xiàn)的新知識(shí),創(chuàng)造新的價(jià)值。
通過數(shù)據(jù)來研究規(guī)律、發(fā)現(xiàn)規(guī)律,貫穿了人類社會(huì)發(fā)展的始終。人類科學(xué)發(fā)展史上的不少進(jìn)步都和數(shù)據(jù)采集分析直接相關(guān),例如現(xiàn)代醫(yī)學(xué)流行病學(xué)的開端。倫敦1854年發(fā)生了大規(guī)模的霍亂,很長(zhǎng)時(shí)間沒有辦法控制。一位醫(yī)師用標(biāo)點(diǎn)地圖的方法研究了當(dāng)?shù)厮植己突魜y患者分布之間的關(guān)系,發(fā)現(xiàn)有一口水井周圍,霍亂患病率明顯較高,借此找到了霍亂暴發(fā)的原因:一口被污染的水井。關(guān)閉這口水井之后,霍亂的發(fā)病率明顯下降。這種方法,充分展示了數(shù)據(jù)的力量。
本質(zhì)上說,許多科學(xué)活動(dòng)都是數(shù)據(jù)挖掘,不是從預(yù)先設(shè)定好的理論或者原理出發(fā),通過演繹來研究問題,而是從數(shù)據(jù)本身出發(fā)通過歸納來總結(jié)規(guī)律。近現(xiàn)代以來,隨著我們面臨的問題變得越來越復(fù)雜,通過演繹的方式來研究問題常常變得很困難。這就使得數(shù)據(jù)歸納的方法變得越來越重要,數(shù)據(jù)的重要性也越發(fā)凸顯出來。
大數(shù)據(jù)是非競(jìng)爭(zhēng)性資源,有助于政府科學(xué)決策、商家精準(zhǔn)營(yíng)銷
大數(shù)據(jù)時(shí)代,數(shù)據(jù)的重要作用更加凸顯,許多國(guó)家都把大數(shù)據(jù)提升到國(guó)家戰(zhàn)略的高度。
政府合理利用大數(shù)據(jù),引導(dǎo)決策的將是基于實(shí)證的事實(shí),政府會(huì)更有預(yù)見性、更加負(fù)責(zé)、更加開放。中國(guó)古代治國(guó)就已經(jīng)有重?cái)?shù)據(jù)的思想,如商鞅提出,“強(qiáng)國(guó)知十三數(shù)……欲強(qiáng)國(guó),不知國(guó)十三數(shù),地雖利,民雖眾,國(guó)愈弱至削”。大數(shù)據(jù)時(shí)代,循“數(shù)”治國(guó)將更加有效。小數(shù)據(jù)時(shí)代,政府做決策更多依憑經(jīng)驗(yàn)和局部數(shù)據(jù),難免頭痛醫(yī)頭、腳痛醫(yī)腳。比如,交通堵塞就多修路。大數(shù)據(jù)時(shí)代,政府做決策能夠從粗放型轉(zhuǎn)向集約型。路堵了,利用大數(shù)據(jù)分析,可以得知哪一時(shí)間、哪一地段最容易堵,或在這一地段附近多修路,或提前預(yù)警引導(dǎo)居民合理安排出行,實(shí)現(xiàn)對(duì)交通流的最佳配置和控制,改善交通。
對(duì)于商家來說,大數(shù)據(jù)使精準(zhǔn)營(yíng)銷成為可能。一個(gè)有趣的故事,是沃爾瑪超市的“啤酒、尿布”現(xiàn)象。沃爾瑪超市分析銷售數(shù)據(jù)時(shí)發(fā)現(xiàn),顧客消費(fèi)單上和尿布一起出現(xiàn)次數(shù)最多的商品,竟然是啤酒。跟蹤調(diào)查后發(fā)現(xiàn),有不少年輕爸爸會(huì)在買尿布時(shí),順便買些啤酒喝。沃爾瑪發(fā)現(xiàn)這一規(guī)律后,搭配促銷啤酒、尿布,銷量大幅增加。大數(shù)據(jù)時(shí)代,每個(gè)人都會(huì)“自發(fā)地”提供數(shù)據(jù)。我們的各種行為,如點(diǎn)擊網(wǎng)頁(yè)、使用手機(jī)、刷卡消費(fèi)、觀看電視、坐地鐵出行、駕駛汽車,都會(huì)生成數(shù)據(jù)并被記錄下來,我們的性別、職業(yè)、喜好、消費(fèi)能力等信息,都會(huì)被商家從中挖掘出來,以分析商機(jī)。
大數(shù)據(jù)也將使個(gè)人受益。從生物學(xué)、醫(yī)學(xué)上講,以前生物學(xué)家只是通過對(duì)單個(gè)或幾個(gè)基因的操控來觀察其對(duì)生物體的影響,很難發(fā)現(xiàn)整體的關(guān)聯(lián)。現(xiàn)在由于技術(shù)的發(fā)展,可以分析很多,如遺傳信息、全體基因的表達(dá)量信息、蛋白質(zhì)族譜信息、全基因組甲基化信息、表觀遺傳信息等。同時(shí)還有個(gè)人健康指標(biāo)、病歷、藥物反應(yīng)等數(shù)據(jù)。如果真能達(dá)成生物學(xué)上多維多向數(shù)據(jù)的有機(jī)融合,就能夠把個(gè)人完整地描述出來,從而實(shí)現(xiàn)精準(zhǔn)醫(yī)療的目的。