從數(shù)據(jù)生成機構(gòu)來看,他們對待數(shù)據(jù)的態(tài)度也可能發(fā)生微妙的變化。例如,過去社交媒體企業(yè)記錄保存客戶信息的動機僅僅是本公司發(fā)展業(yè)務(wù)需要,算法演化也是單純?yōu)榱烁玫胤?wù)消費者。但隨著大數(shù)據(jù)時代的推進,“數(shù)據(jù)為王”的特征越來越明顯,公司逐漸意識到,自己擁有的數(shù)據(jù)逐漸成為重要的資產(chǎn)。除了可以在一定程度上給使用者植入廣告增加收入之外,還可以在社會上產(chǎn)生更為重要的影響力。這時就不能排除數(shù)據(jù)生成機構(gòu)存在為了自身的利益,在一定程度上操縱數(shù)據(jù)的生成與報告的可能性。比如,在Facebook等社交媒體上的民意調(diào)查,就有可能對一個國家的政治走向產(chǎn)生影響。而民意調(diào)查語言的表述、調(diào)查的方式,都可能受到數(shù)據(jù)生成企業(yè)自身利益的影響。
簡而言之,天真地認為數(shù)據(jù)使用者和數(shù)據(jù)生成機構(gòu)都是無意識生產(chǎn)大數(shù)據(jù)、忽略了人們行為背后趨利避害的動機的大數(shù)據(jù)統(tǒng)計分析,可能對于數(shù)據(jù)特征的快速變化迷惑不解,即便看到模型預(yù)測表現(xiàn)差,也難以找到行之有效的克服方法。
◆ ◆ ◆
四、前車之鑒
目前,我國高度重視大數(shù)據(jù)發(fā)展。2015年8月31日,國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,系統(tǒng)部署大數(shù)據(jù)發(fā)展工作?!毒V要》認為,大數(shù)據(jù)成為推動經(jīng)濟轉(zhuǎn)型發(fā)展的新動力、重塑國家競爭優(yōu)勢的新機遇,和提升政府治理能力的新途徑?!毒V要》指出,2018年底前,要建成國家政府數(shù)據(jù)統(tǒng)一開放平臺,率先在信用、交通、醫(yī)療等重要領(lǐng)域?qū)崿F(xiàn)公共數(shù)據(jù)資源合理適度向社會開放。與此相應(yīng),近年來多地成立了大數(shù)據(jù)管理局、業(yè)界學界對于大數(shù)據(jù)的分析利用也予以熱烈回應(yīng)。因此,了解大數(shù)據(jù)分析的優(yōu)勢與陷阱,對我國的經(jīng)濟發(fā)展和實證研究具有極其重要的意義;而GFT項目折射出的大數(shù)據(jù)使用中可能存在的機會與問題,都值得關(guān)注。
(一) 防范“大數(shù)據(jù)自大”帶來的風險
GFT案例表明,如果認為大數(shù)據(jù)可以代替小數(shù)據(jù),那么過度擬合問題可以帶來巨大的估計誤差。這一點在“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”的今天尤其需要關(guān)注。這是因為大數(shù)據(jù)作為目前“創(chuàng)新”最閃亮的新元素被高度推崇的,而我國經(jīng)濟處于轉(zhuǎn)型時期的特征,使企業(yè)或者機構(gòu)面對的微觀數(shù)據(jù)不斷發(fā)生動態(tài)變化。如果在數(shù)據(jù)挖掘中忽略這些變化,往往要面臨過度擬合帶來的損失。