從本質(zhì)來看,大數(shù)據(jù)不容易解讀。當你收集數(shù)十億個數(shù)據(jù)點的時候——一個網(wǎng)站上的點擊或者光標位置數(shù)據(jù);大型公共空間十字轉(zhuǎn)門的轉(zhuǎn)動次數(shù);對世界各地每個小時的風速觀察;推文——任何給定的數(shù)據(jù)點的來源會變得模糊。這反過來意味著,看似高級別的趨勢可能只是數(shù)據(jù)問題或者方法造成的產(chǎn)物。但也許更重大的問題是,你所擁有的數(shù)據(jù)通常只是你真正想要知道的東西的一個指標。大數(shù)據(jù)不能解決那個問題——它反而放大了那個問題。
例如,民意調(diào)查被廣泛用作衡量人們在選舉中的投票意向的指標。然而,從湯姆·布拉德利(Tom Bradley)1982年在加州州長競選中敗北,到英國脫歐公投,再到特朗普的當選,數(shù)十年來結(jié)果出乎意料的選舉一再提醒我們,民意測驗和人們實際的投票意向之間并不總是完全一致。Facebook以往主要通過用戶有沒有點贊來估量他們對特定的帖子是否有興趣。但隨著經(jīng)過算法優(yōu)化的動態(tài)信息開始大量出現(xiàn)標題誘餌、點贊誘餌和嬰兒照片——導致用戶滿意度明顯下降——該公司的高層逐漸意識到,“點贊”這事并不一定意味著用戶真的喜歡特定的內(nèi)容。
指標和你實際上要估量的東西之間的差別越大,過于倚重它就越危險。以來自奧尼爾的著作的前述例子為例:學區(qū)使用數(shù)學模型來讓教師的表現(xiàn)評估與學生的測驗分數(shù)掛鉤。學生測驗分數(shù)與不在教師控制范圍內(nèi)的無數(shù)重要因素有關(guān)。大數(shù)據(jù)的其中一個優(yōu)勢在于,即便是在非常嘈雜的數(shù)據(jù)集里,你也可以發(fā)現(xiàn)有意義的關(guān)聯(lián)性,這主要得益于數(shù)據(jù)量大以及理論上能夠控制混雜變量的強大軟件算法。例如,奧尼爾描述的那個模型,利用來自多個學區(qū)和體系的學生的眾多人口結(jié)構(gòu)方面的相關(guān)性,來生成測驗分數(shù)的“預期”數(shù)據(jù)集,再拿它們與學生的實際成績進行比較。(由于這個原因,奧尼爾認為它是“大數(shù)據(jù)”例子,盡管那個數(shù)據(jù)集并不夠大,沒達到該詞的一些技術(shù)定義的門檻。)
試想一下,這樣的系統(tǒng)被應用在同一所學校里面——拿每個年級的教師與其它年級的教師比較。要不是大數(shù)據(jù)的魔法,學生特定學年異常的測驗分數(shù)會非常惹眼。任何評估那些測驗的聰明人,都不會認為它們能夠很好地反映學生的能力,更不用說教他們的老師了。
而前華盛頓特區(qū)教育局長李洋姬(Michelle Rhee)實行的系統(tǒng)相比之下更不透明。因為數(shù)據(jù)集比較大,而不是小,它必須要由第三方的咨詢公司利用專門的數(shù)學模型來進行分析解讀。這可帶來一種客觀性,但它也排除掉了嚴密質(zhì)問任何給定的信息輸出,來看看該模型具體如何得出它的結(jié)論的可能性。
例如,奧尼爾分析道,有的教師得到低評分,可能不是因為他們的學生表現(xiàn)糟糕,而是因為那些學生之前一年表現(xiàn)得出奇地好——可能因為下面那個年級的教師謊稱那些學生表現(xiàn)很好,以提升他自己的教學評分。但對于那種可能性,學校高層并沒什么興趣去深究那種模型的機制來予以證實。
加入更多指標
并不是說學生測驗分數(shù)、民意調(diào)查、內(nèi)容排名算法或者累犯預測模型統(tǒng)統(tǒng)都需要忽視。除了停用數(shù)據(jù)和回歸到奇聞軼事和直覺判斷以外,至少有兩種可行的方法來處理數(shù)據(jù)集和你想要估量或者預計的現(xiàn)實世界結(jié)果之間不完全相關(guān)帶來的問題。
其中一種方法是加入更多的指標數(shù)據(jù)。Facebook采用這種做法已有很長一段時間。在了解到用戶點贊不能完全反映他們在動態(tài)消息當中實際想要看到的東西以后,該公司給它的模型加入了更多的指標。它開始測量其它的東西,比如用戶看一篇帖子的時長,他們?yōu)g覽其點擊的文章的時間,他們是在看內(nèi)容之前還是之后點贊。Facebook的工程師盡可能地去權(quán)衡和優(yōu)化那些指標,但他們發(fā)現(xiàn)用戶大體上還是對動態(tài)消息里呈現(xiàn)的內(nèi)容不滿意。因此,該公司進一步增加測量指標:它開始展開大范圍的用戶調(diào)查,增加新的反應表情讓用戶可以傳達更加細微的感受,并開始利用AI來按頁面和按出版者檢測帖子的標題黨語言。該社交網(wǎng)絡(luò)知道這些指標沒有一個是完美的。但是,通過增加更多的指標,它理論上能夠更加接近于形成可給用戶展示他們最想要看到的帖子的算法。
這種做法的一個弊端在于,它難度大,成本高昂。另一個弊端在于,你的模型加入的變量越多,它的方法就會變得越錯綜復雜,越不透明,越難以理解。這是帕斯夸里在《黑箱社會》里闡述的問題的一部分。算法再先進,所利用的數(shù)據(jù)集再好,它也有可能會出錯——而它出錯的時候,診斷問題幾無可能。“過度擬合”和盲目相信也會帶來危險:你的模型越先進,它看上去與你過往所有的觀察越吻合,你對它越有信心,它最終讓你一敗涂地的危險就越大。(想想次貸危機、選舉預測模型和Zynga吧。)