本文從谷歌流感趨勢(shì)2009年前后表現(xiàn)差異談起,討論了大數(shù)據(jù)分析容易面臨的大數(shù)據(jù)自大、算法演化、看不見(jiàn)的動(dòng)機(jī)導(dǎo)致數(shù)據(jù)生成機(jī)制變化等陷阱,以及對(duì)我國(guó)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的借鑒。本文認(rèn)為,為健康發(fā)展大數(shù)據(jù)產(chǎn)業(yè),我國(guó)需要防范大數(shù)據(jù)自大風(fēng)險(xiǎn)、推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)和小數(shù)據(jù)產(chǎn)業(yè)齊頭并進(jìn),并強(qiáng)化提高大數(shù)據(jù)透明度、審慎評(píng)估大數(shù)據(jù)質(zhì)量等方面的努力。
◆ ◆ ◆
一、谷歌流感趨勢(shì):未卜先知?
“谷歌流感趨勢(shì)”(Google Flu Trends,GFT)未卜先知的故事,常被看做大數(shù)據(jù)分析優(yōu)勢(shì)的明證。2008年11月谷歌公司啟動(dòng)的GFT項(xiàng)目,目標(biāo)是預(yù)測(cè)美國(guó)疾控中心(CDC)報(bào)告的流感發(fā)病率。甫一登場(chǎng),GFT就亮出十分驚艷的成績(jī)單。2009年,GFT團(tuán)隊(duì)在《自然》發(fā)文報(bào)告,只需分析數(shù)十億搜索中45個(gè)與流感相關(guān)的關(guān)鍵詞,GFT就能比CDC提前兩周預(yù)報(bào)2007-2008季流感的發(fā)病率。也就是說(shuō),人們不需要等CDC公布根據(jù)就診人數(shù)計(jì)算出的發(fā)病率,就可以提前兩周知道未來(lái)醫(yī)院因流感就診的人數(shù)了。有了這兩周,人們就可以有充足的時(shí)間提前預(yù)備,避免中招。多少人可以因?yàn)榇髷?shù)據(jù)避免不必要的痛苦、麻煩和經(jīng)濟(jì)損失啊。
此一時(shí),彼一時(shí)。2014年, Lazer等學(xué)者在《科學(xué)》發(fā)文報(bào)告了GFT近年的表現(xiàn)。2009年,GFT沒(méi)有能預(yù)測(cè)到非季節(jié)性流感A-H1N1;從2011年8月到2013年8月的108周里,GFT有100周高估了CDC報(bào)告的流感發(fā)病率。高估有多高呢?在2011-2012季,GFT預(yù)測(cè)的發(fā)病率是CDC報(bào)告值的1.5倍多;而到了2012-2013季,GFT流感發(fā)病率已經(jīng)是CDC報(bào)告值的雙倍多了。這樣看來(lái),GFT不就成了那個(gè)喊“狼來(lái)了”的熊孩子了么。那么不用大數(shù)據(jù)會(huì)如何?作者報(bào)告,只用兩周前CDC的歷史數(shù)據(jù)來(lái)預(yù)測(cè)發(fā)病率,其表現(xiàn)也要比GFT好很多。
2013年,谷歌調(diào)整了GFT的算法,并回應(yīng)稱(chēng)出現(xiàn)偏差的罪魁禍?zhǔn)资敲襟w對(duì)GFT的大幅報(bào)道導(dǎo)致人們的搜索行為發(fā)生了變化。Lazer等學(xué)者窮追不舍。他們的估算表明,GFT預(yù)測(cè)的2013-2014季的流感發(fā)病率,仍然高達(dá)CDC報(bào)告值的1.3倍。并且,前面發(fā)現(xiàn)的系統(tǒng)性誤差仍然存在,也就是過(guò)去犯的錯(cuò)誤如今仍然在犯。因?yàn)檫z漏了某些重要因素,GFT還是病得不輕。