在人類歷史上,從來沒有哪個(gè)時(shí)代出現(xiàn)過如此規(guī)模巨大的數(shù)據(jù)爆炸。如同互聯(lián)網(wǎng)初生時(shí)的景象,大數(shù)據(jù)(Big Data)浪潮如今洶涌來襲,已成為在全球范圍啟動(dòng)透明政府、加速企業(yè)創(chuàng)新、引領(lǐng)社會(huì)變革的利器。
今年初,美國總統(tǒng)奧巴馬宣布以2 億美元投資大數(shù)據(jù)領(lǐng)域,美國政府將數(shù)據(jù)定義為“未來的新石油”。
從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。掌握這一技術(shù)已經(jīng)成為一種新的競爭優(yōu)勢,一類新的經(jīng)濟(jì)資產(chǎn)。之于商業(yè),它就如企業(yè)巨輪遠(yuǎn)航的一片藍(lán)海,而它又不只是企業(yè)的“專利”;之于政府,應(yīng)用好大數(shù)據(jù),是構(gòu)建高效服務(wù)型政府的關(guān)鍵。
“統(tǒng)計(jì)學(xué)在最近幾年發(fā)展非??欤窈笠矊⒏嗟貞?yīng)用于社會(huì)的各個(gè)領(lǐng)域,大數(shù)據(jù)時(shí)代即將來臨。”胡善慶告訴《支點(diǎn)》記者。目前在美國喬治華盛頓大學(xué)擔(dān)任客座教授的胡善慶,曾于2004 年到2012 年間擔(dān)任美國統(tǒng)計(jì)局和商務(wù)部的高級(jí)顧問。
小時(shí)候跟隨父母移民美國的胡善慶,對于統(tǒng)計(jì)學(xué)有著天生愛好。在喬治華盛頓大學(xué)取得數(shù)理統(tǒng)計(jì)學(xué)博士學(xué)位后,他便進(jìn)入美國政府部門工作。2000年,他被任命為能源部首任國家申訴專員,此前還曾擔(dān)任聯(lián)邦農(nóng)業(yè)部民權(quán)司副司長,負(fù)責(zé)管理信息科技以及申訴等事務(wù)。如今,身為著名統(tǒng)計(jì)學(xué)家的胡善慶,同時(shí)也是美國“百人會(huì)”調(diào)研委員會(huì)主席。
作為一個(gè)快速成長的經(jīng)濟(jì)大國,中國的統(tǒng)計(jì)數(shù)字也日益受到重視,并對世界具有重大影響力。“我是希望能有機(jī)會(huì)到中國多走走,增長見識(shí)。興趣所在是利用學(xué)歷經(jīng)驗(yàn),為社團(tuán)學(xué)術(shù)界提供扶助創(chuàng)新機(jī)會(huì)。”胡善慶說,中國有非常廣闊的大數(shù)據(jù)應(yīng)用市場。
以下,是《支點(diǎn)》記者與胡善慶博士的對話。
傳統(tǒng)數(shù)據(jù)統(tǒng)計(jì)模式的終結(jié)
《支點(diǎn)》:如今在數(shù)據(jù)大爆炸時(shí)代,傳統(tǒng)的統(tǒng)計(jì)方法存在哪些局限性?
胡善慶:上個(gè)世紀(jì),各國人口和經(jīng)濟(jì)的測量與推論主要采用的是傳統(tǒng)的普查以及隨機(jī)抽樣調(diào)查的方式,這兩種數(shù)據(jù)統(tǒng)計(jì)方法對各國政策制定和信息傳遞都是非常重要的。
但就普查而言,雖然過去許多世紀(jì)都證明了它的重要性,不過它確實(shí)存在一些眾所周知的實(shí)際弱點(diǎn)。因?yàn)椋祟惢顒?dòng)是連續(xù)和動(dòng)態(tài)的,但普查只能為一個(gè)指定的普查日子或短暫時(shí)期提供一個(gè)比較全面的速映,更多的時(shí)間被花費(fèi)在數(shù)據(jù)處理、分析及報(bào)告結(jié)果上。通常普查結(jié)果在被宣布時(shí),它們已經(jīng)過時(shí)了。
在中國進(jìn)行人口調(diào)查,其復(fù)雜程度難以想象。抽樣數(shù)據(jù)的獲得需要同31個(gè)省市區(qū)、4800個(gè)村莊、4420個(gè)鎮(zhèn)區(qū)和2133個(gè)城區(qū)中的150萬人面談才行。
同時(shí),大部分國家,甚至發(fā)達(dá)國家,都面對嚴(yán)格的財(cái)政預(yù)算限制?,F(xiàn)在的高費(fèi)用、低回收的普查和調(diào)查辦法否定了它們新引進(jìn)或擴(kuò)張一貫做法的可能性。全球普查和調(diào)查反應(yīng)率下降亦把問題搞得復(fù)雜。比如,在美國,盡管多方計(jì)劃和努力,其2010年的普查參與率僅僅達(dá)到2000 年的74%。到了個(gè)人面談的地步,普查平均費(fèi)用升到每戶56 美元,超過最初的郵寄費(fèi)用的100 倍。
在數(shù)據(jù)大爆炸時(shí)代,國家統(tǒng)計(jì)局面對的真實(shí)挑戰(zhàn)是令人畏懼的,20 世紀(jì)的統(tǒng)計(jì)系統(tǒng)不能滿足21世紀(jì)的需求。應(yīng)用政府統(tǒng)計(jì)的網(wǎng)民正在快速地在數(shù)字和廣度方面增加。他們需要更廣泛、更動(dòng)態(tài)、更及時(shí)的數(shù)據(jù),并能容易地存取和了解,但現(xiàn)有方法必需的資源和時(shí)間都不可得或不能負(fù)擔(dān)。
《支點(diǎn)》:與之前相比,21世紀(jì)的統(tǒng)計(jì)系統(tǒng)發(fā)生了怎樣的變化?“大數(shù)據(jù)”對政府工作和企業(yè)生產(chǎn)帶來了哪些改變?
胡善慶:根據(jù)南加州大學(xué)的一項(xiàng)研究,世界電子儲(chǔ)藏?cái)?shù)量在2002 年第一次超越了非電子儲(chǔ)藏?cái)?shù)量。在2007 年,地球上至少94% 的所有資訊都以電子形式儲(chǔ)藏。于是,數(shù)據(jù)可以沒有抽取樣品的需要或考慮,可將其完整地電子化直接輸入機(jī)器處理和計(jì)算。
電子儲(chǔ)藏的快速發(fā)展也帶來了21 世紀(jì)統(tǒng)計(jì)系統(tǒng)和方法的改變,縱向數(shù)據(jù)的研究成為可能。所謂縱向數(shù)據(jù),是對同一單位( 例如一個(gè)工人、一位學(xué)生、一個(gè)家庭、一門生意、一所學(xué)校或一座醫(yī)院) 在時(shí)間上重復(fù)觀察所得的數(shù)據(jù)。它能在個(gè)體水平提供獨(dú)特的底線和變化計(jì)量。
大數(shù)據(jù)是一個(gè)有關(guān)非常大量電子數(shù)據(jù)的新用詞,它很可能不是根據(jù)傳統(tǒng)統(tǒng)計(jì)系統(tǒng)的結(jié)構(gòu)和概率原則而進(jìn)行收集的。行政記錄、社會(huì)媒體、條碼和電波掃描儀、運(yùn)輸感應(yīng)器、能源和環(huán)境監(jiān)視器、在線交易、流影像和人造衛(wèi)星圖像,這些都是大數(shù)據(jù)來源和爆發(fā)生長的因素。
私營企業(yè)在生產(chǎn)大數(shù)據(jù)已領(lǐng)先起步,組合政府的統(tǒng)計(jì),發(fā)展數(shù)據(jù)挖掘技術(shù)和方法來識(shí)別潛在的消費(fèi)者、擴(kuò)張市場、測試新產(chǎn)品、并抽取新訊息以作其他市場及客戶研究。有些情況下,他們甚至可向傳統(tǒng)的政府功能挑戰(zhàn)。例如,一些社會(huì)媒體搜索的言詞被用來做感冒的指標(biāo),它的表現(xiàn)不比公共衛(wèi)生機(jī)關(guān)的指標(biāo)差,在及時(shí)方面也更勝一籌。
盡管政府統(tǒng)計(jì)在大數(shù)據(jù)汪洋中的分量逐漸減少,但它仍然擁有其支持全球化的經(jīng)濟(jì)體制及解決不斷擴(kuò)張的社會(huì)需求的獨(dú)特重要。然而,當(dāng)我們活在可以數(shù)秒鐘內(nèi)上網(wǎng)搜索展示百萬計(jì)的結(jié)果和國際股票市場日夜即時(shí)報(bào)道成交數(shù)據(jù)的時(shí)代,要等多月甚至多年才可收集、處理、發(fā)放在地理、企業(yè)與人口都有限制的靜態(tài)結(jié)果將失去它的意義。