10月19日消息,國外媒體Slate刊文指出,“大數(shù)據(jù)(Big Data)”一詞已經(jīng)變得沒有以往那么紅火了,為什么會這樣呢?“大數(shù)據(jù)”的問題并不在于數(shù)據(jù)或者大數(shù)據(jù)本身很糟糕,而是在于盲目迷戀數(shù)據(jù),不加批判地使用,那會引發(fā)災(zāi)難。數(shù)據(jù)也不一定完全反映你想要了解的事情的實際情況。
以下是文章主要內(nèi)容:
5年前——2012年2月——《紐約時報》刊文高呼人類的一個新紀元的到來:“大數(shù)據(jù)時代”。該文章告訴我們,社會將開始發(fā)生一場革命,在這場革命中,海量數(shù)據(jù)的收集與分析將會改變?nèi)藗兩畹膸缀趺恳粋€方面。數(shù)據(jù)分析不再局限于電子數(shù)據(jù)表和回歸分析:超級計算的到來,伴隨著可持續(xù)記錄數(shù)據(jù)并將數(shù)據(jù)傳送到云端的聯(lián)網(wǎng)傳感器的不斷普及,意味著邁克爾·劉易斯(Michael Lewis)2003年的棒球書籍《Moneyball》所描述的那種先進數(shù)據(jù)分析有望被應(yīng)用于各行各業(yè),從商業(yè)到學術(shù),再到醫(yī)療和兩性關(guān)系。不僅如此,高端的數(shù)據(jù)分析軟件還有助于鑒定完全意想不到的相關(guān)性,比如貸款方用盡額度和他債務(wù)違約的可能性之間的關(guān)系。這勢必將會催生會改變我們思考幾乎一切事物的新穎見解。
《紐約時報》并不是第一個得出這一結(jié)論的企業(yè)機構(gòu):它的文章引用了麥肯錫咨詢公司2011年的一份重大報告,其觀點也得到了2012年瑞士達沃斯世界經(jīng)濟論壇題為“大數(shù)據(jù),大影響”的官方報告的支持。但這種宣言仿佛就是標志大數(shù)據(jù)時代開啟的里程碑。在之后的一個月里,巴拉克·奧巴馬(Barack Obama)的白宮成了一個2億美元的國家大數(shù)據(jù)項目,瘋狂熱潮隨即襲來:學術(shù)機構(gòu)、非盈利組織、政府和企業(yè)都爭相去探究“大數(shù)據(jù)”究竟是什么,他們可以如何好好利用它。
事實證明,這種瘋狂沒有持續(xù)很長時間。5年后,數(shù)據(jù)在我們的日常生活中扮演重要很多的角色,但大數(shù)據(jù)一詞已經(jīng)不再流行——甚至讓人覺得有些討厭。我們被允諾的那場革命究竟發(fā)生了什么呢?數(shù)據(jù)、分析技術(shù)和算法現(xiàn)在又在往什么方向發(fā)展呢?這些問題值得回頭去思考。
科技咨詢公司Gartner在它2015年相當有名的“技術(shù)成熟度曲線”報告中不再使用“大數(shù)據(jù)”一次,之后該詞再也沒有回歸。該公司澄清道,這并不是因為企業(yè)放棄挖掘巨量數(shù)據(jù)集獲得洞見的概念。而是因為那種做法已經(jīng)變得廣為流行,以至于它不再符合“新興技術(shù)”的定義。大數(shù)據(jù)幫助驅(qū)動我們的動態(tài)消息、Netflix視頻推薦、自動化股票交易、自動校正功能、健康跟蹤設(shè)備等不計其數(shù)的工具背后的算法。但我們現(xiàn)在不大使用大數(shù)據(jù)一詞了——我們只是將它稱作數(shù)據(jù)。我們開始將數(shù)據(jù)集能夠包含無數(shù)的觀察結(jié)果,先進軟件能夠檢測當中的趨勢當做理所當然的事情。
大數(shù)據(jù)引發(fā)的嚴重錯誤
雖然該詞仍有被使用,但它更多地帶有一種不好的意味,比如凱茜·奧尼爾(Cathy O’Neil)2016年的著作《數(shù)學殺傷性武器》(Weapons of Math Destruction)或者弗蘭克·帕斯夸里(Frank Pasquale)2015年的《黑箱社會》(The Black Box Society)。匆忙執(zhí)行和應(yīng)用大數(shù)據(jù),即進行所謂的“數(shù)據(jù)驅(qū)動型決策”,帶來了嚴重的錯誤。
有的錯誤相當惹人注目:塔吉特(Target)曾向一位沒跟任何人說過自己懷孕的少女的家庭派送嬰兒用品優(yōu)惠券;Pinterest曾恭喜一位單身女性即將結(jié)婚;谷歌照片(Google Photos)也曾引發(fā)軒然大波,該公司被大肆吹捧的AI將黑人誤以為是大猩猩,原因是它的訓練數(shù)據(jù)不夠多元化。(值得指出的是,至少在該事件中,“大數(shù)據(jù)”還不夠大。)
其它的錯誤更為微妙,或許也更加陰險。當中包括奧尼爾在她的重要著作中記錄的那些不透明的數(shù)據(jù)驅(qū)動式制度性模型:被法庭用來判決罪犯的、帶有種族偏見的累犯模型,或者那些基于可疑的測驗分數(shù)數(shù)據(jù)解雇備受愛戴的教師的模型。大數(shù)據(jù)出錯的新案例可謂層出不窮——比如Facebook算法明顯幫助俄羅斯通過針對性的假新聞影響美國總統(tǒng)大選的結(jié)果。
盲目迷戀數(shù)據(jù)與誤用
“大數(shù)據(jù)”的問題并不在于數(shù)據(jù)本身很糟糕,也不在于大數(shù)據(jù)本身很糟糕:謹慎應(yīng)用的話,大型數(shù)據(jù)集還是能夠揭示其它途徑發(fā)現(xiàn)不了的重要趨勢。正如茱莉婭·羅斯·韋斯特(Julia Rose West)在最近給Slate撰寫的文章里所說的,盲目迷戀數(shù)據(jù),不加批判地使用,往往導致災(zāi)難的發(fā)生。