這幾年, 大數(shù)據(jù) (big data) 的 “出鏡率” 頗高。 連帶著, “數(shù)據(jù)科學(xué)家” (data scientist) 成為了新的高薪一族。 人氣、 財(cái)氣的提升也帶動(dòng)了士氣, 有人開始高估大數(shù)據(jù)的神通, 仿佛只要積累了足夠多數(shù)據(jù), 請 “數(shù)據(jù)科學(xué)家” 們坐在電腦前——就像福爾摩斯坐在太師椅上——敲一通鍵盤, 各種問題就都能迎刃而解。
大數(shù)據(jù)真有如此神通嗎? 回顧一段小歷史對我們也許不無啟示。
那是在 1936 年, 美國共和黨人艾爾弗·蘭登 (Alfred Landon) 與民主黨人富蘭克林·羅斯福 (Franklin D. Roosevelt) 競選總統(tǒng)。 當(dāng)時(shí)很有影響力的《文摘》雜志 (The Literary Digest) 決定搞一次超大規(guī)模的民意調(diào)查, 調(diào)查人數(shù)高達(dá) 1,000 萬, 約為當(dāng)時(shí)選民總數(shù)的 1/4, 最終收到的回復(fù)約有 240 萬份, 對于民意調(diào)查來說可謂是 “大數(shù)據(jù)”——事實(shí)上, 哪怕在今天, 一些全國性民意調(diào)查的調(diào)查對象也只有幾千。 通過對這組 “大數(shù)據(jù)” 的分析,《文摘》雜志預(yù)測蘭登將以 55% 比 41% 的顯著優(yōu)勢獲勝。 但不久后揭曉的真正結(jié)果卻是羅斯福以 61% 比 37% 的優(yōu)勢大勝。《文摘》雜志的 “大數(shù)據(jù)” 遭到了慘敗。
當(dāng)然, 那是陳年舊事了。 區(qū)區(qū) 240 萬份回復(fù)作為民意調(diào)查是超大規(guī)模的, 從數(shù)據(jù)角度講, 以今天的標(biāo)準(zhǔn)來衡量卻實(shí)在小得可憐。 不過, 今天的 “大” 在幾十年后也未必不會(huì)如昔日的 “小” 一樣可憐。 那段小歷史的真正啟示在于: 數(shù)據(jù)已大到了統(tǒng)計(jì)誤差可以忽略的地步, 結(jié)果卻錯(cuò)得離譜。 這種類型的錯(cuò)誤對于大數(shù)據(jù)是一種警示。
現(xiàn)在讓我們回到當(dāng)代。 2008 年 8 月, 大數(shù)據(jù) “成功偶像” 之一的谷歌 (Google) 公司領(lǐng)銜在《自然》(Nature) 雜志上發(fā)表論文, 推介了一個(gè)如今被稱為 “谷歌流感趨勢” (Google Flu Trends) 的系統(tǒng)。 這一系統(tǒng)能利用互聯(lián)網(wǎng)上有關(guān)流感的搜索的數(shù)量和分布來估計(jì)各地區(qū)流感類疾病的患者數(shù)目。 谷歌表示, 這一系統(tǒng)給出的估計(jì)不僅比美國疾病控制與預(yù)防中心 (Centers for Disease Control and Prevention——簡稱 CDC) 的數(shù)據(jù)更快速, 而且還有 “不依賴于理論” (theory-free) 的特點(diǎn)。
但是, 這個(gè)一度引起轟動(dòng)的系統(tǒng)經(jīng)過幾年的運(yùn)行后, 卻引人注目地演示了大數(shù)據(jù)可能帶來的陷阱。
2013 年 2 月,《自然》雜志資深記者巴特勒 (Declan Butler) 發(fā)表了一篇題為 “當(dāng)谷歌弄錯(cuò)了流感” (When Google got flu wrong) 的文章, 指出 “谷歌流感趨勢” 對 2012 年底美國流感類疾病患者數(shù)目的估計(jì)比美國疾病控制與預(yù)防中心給出的數(shù)據(jù)高了約一倍。 不僅如此, “谷歌流感趨勢” 在 2008-2009 年間對瑞士、 德國、 比利時(shí)等國的流感類疾病患者數(shù)目的估計(jì)也都失過準(zhǔn)。
大數(shù)據(jù)在這些例子中為什么會(huì)失敗呢? 人們很快找到了原因。 比如《文摘》雜志對 1936 美國總統(tǒng)競選預(yù)測的失敗, 是因?yàn)樵撾s志的調(diào)查對象是從汽車注冊資料及電話簿中選取的, 而汽車及電話在當(dāng)時(shí)的美國尚未普及, 使得由此選出的調(diào)查對象缺乏代表性。 而谷歌對 2012 年底美國流感類疾病患者數(shù)目的估計(jì)失敗, 則是因?yàn)槊襟w對那段時(shí)間的美國流感類疾病作了渲染, 使得很多非患者也進(jìn)行了有關(guān)流感的搜索, 從而干擾了 “谷歌流感趨勢” 的估計(jì)。 在統(tǒng)計(jì)學(xué)中, 這被稱為系統(tǒng)誤差 (systematic error), 只要存在這種誤差, 數(shù)據(jù)量再大也無濟(jì)于事。
當(dāng)然, 原因一旦找到, 對結(jié)果進(jìn)行修正也就不無可能了。 比如在有關(guān)流感的搜索中, 來自患者的搜索往往隨疫情的爆發(fā)而迅速增加, 隨疫情的緩慢結(jié)束而緩慢降低, 呈現(xiàn)出前后的不對稱, 而媒體渲染引來的非患者的搜索則前后比較對稱。 利用這一區(qū)別, 原則上可對結(jié)果進(jìn)行校正。
但另一方面, 原因之所以很快找到, 是因?yàn)槭∫殉墒聦?shí), 從而有了明確的分析對象, 在千變?nèi)f化的大數(shù)據(jù)分析中要想每次都 “先發(fā)制人” 地避免失敗卻是極其困難的。 比如大數(shù)據(jù)分析對數(shù)據(jù)間的相關(guān)性情有獨(dú)鐘, 其所津津樂道的 “不依賴于理論” 的特點(diǎn)卻在很大程度上排斥了對相關(guān)性的價(jià)值進(jìn)行甄別——就如知名技術(shù)類刊物《連線》(Wired) 雜志的主編安德森 (Chris Anderson) 曾經(jīng)宣稱的: “只要有足夠多數(shù)據(jù), 數(shù)字自己就能說話” (with enough data, the numbers speak for themselves)。 數(shù)字也許是能說話, 但說出的未必都是有價(jià)值的話。 事實(shí)上, 未經(jīng)甄別的相關(guān)性可謂處處是陷阱。 比如 2006-2011 年間, 美國的犯罪率和微軟 IE 瀏覽器的市場占有率就明顯相關(guān) (同步下降), 但卻是毫無價(jià)值的相關(guān)性——這是紐約大學(xué) (New York University) 計(jì)算機(jī)教授戴維斯 (Ernest Davis) 舉出的例子。 在統(tǒng)計(jì)學(xué)中, 這是所謂 “相關(guān)性不蘊(yùn)含因果性” (correlation does not imply causation) 的一個(gè)例子。