現(xiàn)實(shí)中大數(shù)據(jù)的采集也會(huì)遇到類似問題,因?yàn)榇髷?shù)據(jù)往往是公司或者企業(yè)進(jìn)行主要經(jīng)營活動(dòng)之后被動(dòng)出現(xiàn)的產(chǎn)物。以谷歌公司為例,其商業(yè)模式的主要目標(biāo)是更快速地為使用者提供準(zhǔn)確信息。為了實(shí)現(xiàn)這一目標(biāo),數(shù)據(jù)科學(xué)家與工程師不斷更新谷歌搜索的算法、讓使用者可以通過后續(xù)谷歌推薦的相關(guān)詞快捷地獲得有用信息。這一模式在商業(yè)上非常必要,但是在數(shù)據(jù)生成機(jī)制方面,卻會(huì)出現(xiàn)使用者搜索的關(guān)鍵詞并非出于使用者本意的現(xiàn)象。
這就產(chǎn)生了兩個(gè)問題:第一,由于算法規(guī)則在不斷變化而研究人員對(duì)此不知情,今天的數(shù)據(jù)和明天的數(shù)據(jù)容易不具備可比性,就像上例中半年前的老虎數(shù)據(jù)和半年后的老虎數(shù)據(jù)不可比一樣。第二,數(shù)據(jù)收集過程的性質(zhì)發(fā)生了變化。大數(shù)據(jù)不再只是被動(dòng)記錄使用者的決策,而是通過算法演化,積極參與到使用者的行為決策中。
在GFT案例中,2009年以后,算法演化導(dǎo)致搜索數(shù)據(jù)前后不可比,特別是“搜索者鍵入的關(guān)鍵詞完全都是自發(fā)決定”這一假定在后期不再成立。這樣,用2009年建立的模型去預(yù)測未來,就無法避免因過度擬合問題而表現(xiàn)較差了。
(三) 陷阱三:看不見的動(dòng)機(jī)
算法演化問題中,數(shù)據(jù)生成者的行為變化是無意識(shí)的,他們只是被頁面引導(dǎo),點(diǎn)出一個(gè)個(gè)鏈接。如果在數(shù)據(jù)分析中不關(guān)心因果關(guān)系,那么也就無法觀察到人們通過有意識(shí)的行為變化,從而影響了數(shù)據(jù)根本特征。這一點(diǎn),對(duì)于數(shù)據(jù)使用者和對(duì)數(shù)據(jù)收集機(jī)構(gòu),都一樣不可忽略。
除掉人們的行為因?yàn)樽约旱脑虍a(chǎn)生系統(tǒng)不知道的變化之外,大數(shù)據(jù)的評(píng)估標(biāo)準(zhǔn)對(duì)人們行為的影響尤為值得關(guān)注。再以智空為例。假定上文中的小和尚智空發(fā)現(xiàn)自己的西瓜信用分遠(yuǎn)遠(yuǎn)低于自己好友智能的西瓜信用分。智空很不服氣,經(jīng)過仔細(xì)思考,他認(rèn)為朋友圈言論可能是形成差異的主因。于是他細(xì)細(xì)研究了智能的朋友圈。他發(fā)現(xiàn),智能從不在朋友圈提及遇到老虎的事,而是常常宣傳不殺生、保護(hù)環(huán)境、貼心靈雞湯,并定期分享自己化齋時(shí)遇到慷慨施主的事。雖然在現(xiàn)實(shí)中,他知道智能喜好酒肉穿腸過、也從未見老和尚稱贊智能的化齋成果。智空茅塞頓開,從此朋友圈言論風(fēng)格大變,而不久后他也滿意地看到自己的西瓜信用分大幅提高了。
如今,大數(shù)據(jù)常常倚重的一個(gè)優(yōu)勢,是社交媒體的數(shù)據(jù)大大豐富了各界對(duì)于個(gè)體的認(rèn)知。這一看法常常建立在一個(gè)隱含假定之上,就是人們?cè)谏缃幻襟w分享的信息都是真實(shí)的、自發(fā)的、不受評(píng)級(jí)機(jī)構(gòu)和各類評(píng)估機(jī)構(gòu)標(biāo)準(zhǔn)影響的。但是,在互聯(lián)網(wǎng)時(shí)代,人們通過互聯(lián)網(wǎng)學(xué)習(xí)的能力大大提高。如果人們通過學(xué)習(xí)評(píng)級(jí)機(jī)構(gòu)的標(biāo)準(zhǔn)而相應(yīng)改變社交媒體的信息,就意味著大數(shù)據(jù)分析的評(píng)估標(biāo)準(zhǔn)已經(jīng)內(nèi)生于人們生產(chǎn)的數(shù)據(jù)中,這時(shí),不通過仔細(xì)為人們的行為建模,是難以準(zhǔn)確抓住的數(shù)據(jù)生成機(jī)制這類的質(zhì)變的。