在與小數(shù)據(jù)互為補(bǔ)充推動研究與認(rèn)知方面,大數(shù)據(jù)大有可為。將大數(shù)據(jù)與小數(shù)據(jù)相結(jié)合,可以大大提高數(shù)據(jù)的顆粒度和預(yù)測精度。比如對CDC流感發(fā)病率的預(yù)測研究發(fā)現(xiàn),將GFT采用的大數(shù)據(jù)和CDC的歷史數(shù)據(jù)相結(jié)合的模型,其預(yù)測能力比單獨(dú)運(yùn)用大數(shù)據(jù)或者小數(shù)據(jù)要好很多。
大數(shù)據(jù)往往可以實(shí)時(shí)生成,對于觀察特定社區(qū)的動態(tài)具有小數(shù)據(jù)無可替代的優(yōu)勢。比如,美國在“九一一”之后,出于快速準(zhǔn)確估計(jì)在某個(gè)特定小社區(qū)活動的人口的需要而啟動了“工作單位和家庭住址縱向動態(tài)(LEHD)”項(xiàng)目,該項(xiàng)目將人口普查數(shù)據(jù)、全國公司數(shù)據(jù)、個(gè)人申請失業(yè)保險(xiǎn)、補(bǔ)貼、納稅等記錄聯(lián)通,可以對社區(qū)在短時(shí)間內(nèi)的“新陳代謝”作出較為全面的刻畫。
這類的數(shù)據(jù)結(jié)合研究,對于了解我國社會經(jīng)濟(jì)狀況的動態(tài)變化會十分重要。一個(gè)可能的應(yīng)用是,將城市人口、工作狀態(tài)、性別、年齡、收入等小數(shù)據(jù)采集的信息,和實(shí)時(shí)產(chǎn)生的交通狀況相結(jié)合,來預(yù)測人們的出行特征,來解決城市交通擁堵、治理霧霾等問題。另一個(gè)可能的應(yīng)用是,推動人民銀行征信中心個(gè)人征信系統(tǒng)數(shù)據(jù)和民間征信系統(tǒng)大數(shù)據(jù)的結(jié)合,建立高質(zhì)量的中國個(gè)人征信體系。
另外,我國經(jīng)濟(jì)處于轉(zhuǎn)型時(shí)期,有不少政策亟需快速評估政策果效。以小數(shù)據(jù)為基礎(chǔ),利用大數(shù)據(jù)數(shù)據(jù)量豐富的優(yōu)勢,可以通過互聯(lián)網(wǎng)做一些隨機(jī)實(shí)驗(yàn),來評估一些政策的效果,也是可能的發(fā)展方向。
在過去的十多年中,我國在通過非官方渠道采集小數(shù)據(jù)、特別是微觀實(shí)證數(shù)據(jù)方面取得了長足進(jìn)展。在多方努力下,更多經(jīng)過嚴(yán)格科學(xué)論證而產(chǎn)生的數(shù)據(jù)可被公眾免費(fèi)獲得并用于研究。例如,北京大學(xué)的“中國健康與養(yǎng)老追蹤調(diào)查”、“中國家庭追蹤調(diào)查”,都由經(jīng)濟(jì)、教育、健康、社會學(xué)等多領(lǐng)域的專家協(xié)同參與問卷的設(shè)計(jì)和數(shù)據(jù)采集的質(zhì)控。在這些努力下,小數(shù)據(jù)的生成機(jī)制更為透明,交叉驗(yàn)證調(diào)查數(shù)據(jù)的可信度等實(shí)證研究的必要步驟也更為可行。
但是,目前在小數(shù)據(jù)的收集和使用、政府和有關(guān)機(jī)構(gòu)的小數(shù)據(jù)開放運(yùn)用方面,我國還有很大推進(jìn)空間。只有在對涉及我國基本國情的小數(shù)據(jù)進(jìn)行充分學(xué)習(xí)研究之后,我國學(xué)界和業(yè)界才能對經(jīng)濟(jì)政治社會文化等領(lǐng)域的基本狀況有較清晰的把握。而這類的把握,是評估大數(shù)據(jù)質(zhì)量、大數(shù)據(jù)可研究問題的關(guān)鍵,對推進(jìn)大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展有舉足輕重的作用。