但GFT的失敗并不能夠抹滅大數(shù)據(jù)本身的價(jià)值。相反,這個(gè)項(xiàng)目很好的凸顯出了很多大數(shù)據(jù)應(yīng)用實(shí)踐中的問題,也就是我們所說的“大數(shù)據(jù)的傲慢”。
“大數(shù)據(jù)傲慢”指的是這樣一種觀點(diǎn):即認(rèn)為大數(shù)據(jù)可以完全取代傳統(tǒng)的數(shù)據(jù)收集方法,而非作為后者的補(bǔ)充。這種觀點(diǎn)的最大問題在于,絕大多數(shù)大數(shù)據(jù)與經(jīng)過嚴(yán)謹(jǐn)科學(xué)試驗(yàn)得到的數(shù)據(jù)之間存在很大的不同。
編寫一個(gè)將5000萬搜索關(guān)鍵詞與1152個(gè)數(shù)據(jù)點(diǎn)相匹配的算法是非常困難的,很有可能會(huì)出現(xiàn)過度擬合(將噪聲誤認(rèn)為信號(hào))的情況:很多關(guān)鍵詞只是看似與流感相關(guān),但實(shí)際上卻并無關(guān)聯(lián)。事實(shí)上,在2013年的報(bào)道之前,GFT就多次在很長(zhǎng)一段時(shí)間內(nèi)過高地估計(jì)了流感的流行情況。 2010年的一項(xiàng)研究發(fā)現(xiàn),使用CDC的滯后預(yù)測(cè)報(bào)告(通常滯后兩周)來預(yù)測(cè)當(dāng)前的流感疫情,其準(zhǔn)確性甚至都高于GFT的預(yù)測(cè)結(jié)果。
但如果能夠得到正確的運(yùn)用,像谷歌這樣的巨頭掌握的數(shù)據(jù)體量的價(jià)值基本上是無法估量的。也就是說這些巨頭們有責(zé)任把這些數(shù)據(jù)運(yùn)用到最有利于公眾利益的方面。
在2014年發(fā)表在《科學(xué)》雜志的一篇文章中,來自美國(guó)東北大學(xué)、休斯頓大學(xué)以及哈佛大學(xué)的研究人員解析了谷歌預(yù)測(cè)流感趨勢(shì)失敗的原因。該文章把GFT的預(yù)測(cè)表現(xiàn)欲建立在CDC(美國(guó)疾病預(yù)防控制中心)數(shù)據(jù)基礎(chǔ)上的簡(jiǎn)單預(yù)測(cè)模型進(jìn)行了對(duì)比,結(jié)果發(fā)現(xiàn)GFT的總體表現(xiàn)實(shí)際上更差。該文章還認(rèn)為,GFT的模式可能能夠在2-3年內(nèi)保持比較穩(wěn)定的預(yù)測(cè)準(zhǔn)確率,但之后則容易出現(xiàn)較大的差錯(cuò),需要進(jìn)行重要的修改。
當(dāng)然,本文的目的也并不是要埋沒大數(shù)據(jù)的價(jià)值,目前的研究已經(jīng)證明了大數(shù)據(jù)在建立疾病傳播模型、突發(fā)事件的確認(rèn)以及經(jīng)濟(jì)情況的預(yù)測(cè)等方面相比于傳統(tǒng)的方式都顯示出了獨(dú)特的價(jià)值。雖然谷歌在流感預(yù)測(cè)方面的努力很有價(jià)值,但是他們?cè)诜椒皵?shù)據(jù)方面極其不透明的情況都導(dǎo)致了無法很好的利用谷歌流感趨勢(shì)(Google Flu Trends,GFT)的結(jié)果來進(jìn)行任何的決策支持。