(一) 陷阱一:“大數(shù)據(jù)自大”
Lazer等學(xué)者提醒大家關(guān)注 “大數(shù)據(jù)自大(big data hubris)”的傾向,即認(rèn)為自己擁有的數(shù)據(jù)是總體,因此在分析定位上,大數(shù)據(jù)將代替科學(xué)抽樣基礎(chǔ)上形成的傳統(tǒng)數(shù)據(jù)(后文稱為“小數(shù)據(jù)”)、而不是作為小數(shù)據(jù)的補(bǔ)充。
如今,大數(shù)據(jù)確實(shí)使企業(yè)或者機(jī)構(gòu)獲取每一個(gè)客戶的信息、構(gòu)成客戶群的總體數(shù)據(jù)成為可能,那么說(shuō)企業(yè)有這樣的數(shù)據(jù)就不需要關(guān)心抽樣會(huì)有問(wèn)題嗎?
這里的關(guān)鍵是,企業(yè)或者機(jī)構(gòu)擁有的這個(gè)稱為總體的數(shù)據(jù),和研究問(wèn)題關(guān)心的總體是否相同?!稊?shù)據(jù)之巔》一書(shū)記載了下面這個(gè)例子:上世紀(jì)三十年代,美國(guó)的《文學(xué)文摘》有約240萬(wàn)讀者。如果《文學(xué)文摘》要了解這個(gè)讀者群的性別結(jié)構(gòu)與年齡結(jié)構(gòu),那么只要財(cái)力人力允許,不抽樣、直接分析所有這240萬(wàn)左右的數(shù)據(jù)是可行的。但是,如果要預(yù)測(cè)何人當(dāng)選1936年總統(tǒng),那么認(rèn)定“自己的讀者群”這個(gè)總體和“美國(guó)選民”這個(gè)總體根本特征完全相同,就會(huì)差之毫厘謬以千里了。事實(shí)上,《文學(xué)雜志》的訂戶數(shù)量雖多,卻集中在中上層,并不能代表全體選民。與此相應(yīng),蓋洛普根據(jù)選民的人口特點(diǎn)來(lái)確定各類人群在樣本中的份額,建立一個(gè)5000人的樣本,采用這個(gè)小數(shù)據(jù)比采用《文學(xué)文摘》的大數(shù)據(jù),更準(zhǔn)確地把握了民意。
在GFT案例中,“GFT采集的搜索信息”這個(gè)總體,和“某流感疫情涉及的人群”這個(gè)總體,恐怕不是一個(gè)總體。除非這兩個(gè)總體的生成機(jī)制相同,否則用此總體去估計(jì)彼總體難免出現(xiàn)偏差。
進(jìn)一步說(shuō),由于某個(gè)大數(shù)據(jù)是否是總體跟研究問(wèn)題密不可分,在實(shí)證分析中,往往需要人們對(duì)科學(xué)抽樣下能夠代表總體的小數(shù)據(jù)有充分認(rèn)識(shí),才能判斷認(rèn)定單獨(dú)使用大數(shù)據(jù)進(jìn)行研究會(huì)不會(huì)犯“大數(shù)據(jù)自大”的錯(cuò)誤。
(二) 陷阱二:算法演化
相比于“大數(shù)據(jù)自大”問(wèn)題,算法演化問(wèn)題(algorithm dynamics)就更為復(fù)雜、對(duì)大數(shù)據(jù)在實(shí)證運(yùn)用中產(chǎn)生的影響也更為深遠(yuǎn)。我們還是通過(guò)一個(gè)假想的故事來(lái)理解這一點(diǎn)。假定一個(gè)研究團(tuán)隊(duì)希望通過(guò)和尚在朋友圈發(fā)布的信息來(lái)判斷他們對(duì)風(fēng)險(xiǎn)的態(tài)度,其中和尚遇到老虎的次數(shù)是甄別他們是否喜歡冒險(xiǎn)的重要指標(biāo)。觀察一段時(shí)間后該團(tuán)隊(duì)發(fā)現(xiàn),小和尚智空原來(lái)遇到老虎的頻率大概是一個(gè)月一次,但是從半年前開(kāi)始,智空在朋友圈提及自己遇到老虎的次數(shù)大幅增加、甚至每天都會(huì)遇到很多只。由于大數(shù)據(jù)分析不關(guān)心因果,研究團(tuán)隊(duì)也就不花心思去追究智空為什么忽然遇到那么多老虎,而根據(jù)歷史數(shù)據(jù)認(rèn)定小智空比過(guò)去更愿意冒險(xiǎn)了。但是研究團(tuán)隊(duì)不知道的情況是:過(guò)去智空與老和尚同住,半年前智空奉命下山化齋;臨行前老和尚交代智空,山下的女人是老虎、遇到了快躲開(kāi)。在這個(gè)故事里,由于老和尚的叮囑,智空眼里老虎的標(biāo)準(zhǔn)變了。換句話說(shuō),同樣是老虎數(shù)據(jù),半年前老虎觀測(cè)數(shù)量的生成機(jī)制,和半年后該數(shù)據(jù)的生成機(jī)制是不同的。要命的是,研究團(tuán)隊(duì)對(duì)此并不知情。