美國《外交政策》雜志網(wǎng)站日前發(fā)表題為《對大數(shù)據(jù)的再思考——為什么機器的興起并不完全像人們吹噓的那樣》的文章,作者為微軟研究院首席研究員、麻省理工學(xué)院公民媒體中心客座教授凱特·克勞福德。
文章稱,“大數(shù)據(jù)”是當前的時髦術(shù)語,是技術(shù)界用來解決世界上最難處理的問題的全能辦法。這個術(shù)語一般用來描述對海量信息進行分析,從而發(fā)現(xiàn)規(guī)律、收集感悟和預(yù)言復(fù)雜問題答案的藝術(shù)與科學(xué)。它也許聽起來有些乏味,但是從制止恐怖分子到消除貧窮,再到拯救地球,對于大數(shù)據(jù)的鼓吹者來說,沒有什么問題是解決不了的。
維克托·梅耶-舍恩伯格和肯尼思·丘基爾在有著樸素書名的《大數(shù)據(jù):一次將改變我們生活、工作和思考方式的革命》一書中歡呼道:“對社會的好處將是無窮無盡的,因為大數(shù)據(jù)在一定程度上將解決迫在眉睫的全球問題,如處理氣候變化、根除疾病以及促進善政和經(jīng)濟發(fā)展等。”
文章稱,只要有足夠多的數(shù)據(jù)可以處理——不管是你的iPhone上的數(shù)據(jù)、雜貨店購物狀況、在線約會網(wǎng)站個人簡介或者是整個國家的匿名健康記錄,利用對這些原始數(shù)據(jù)進行解碼的計算能力,人們可以獲得數(shù)不勝數(shù)的洞察。甚至連奧巴馬政府也已經(jīng)趕上了這股潮流,并在5月9日向企業(yè)家、研究人員和公眾“破天荒”地發(fā)布了大量“以前難以獲取或難以管理的數(shù)據(jù)”。
然而,大數(shù)據(jù)真的完全像人們吹噓的那樣嗎?人們能相信如此眾多的1和0將能揭示人類行為的隱秘世界嗎?
“有了足夠的數(shù)據(jù),數(shù)字就可以自己說話。”沒門兒。
文章指出,大數(shù)據(jù)的鼓吹者希望人們相信,在一行行的代碼和龐大數(shù)據(jù)庫的背后存在著有關(guān)人類行為模式的客觀、普遍的洞察,不管是消費者的支出規(guī)律、犯罪或恐怖主義行動、健康習(xí)慣,還是雇員的生產(chǎn)效率。但是許多大數(shù)據(jù)的傳道者不愿正視其不足。數(shù)字無法自己說話,而數(shù)據(jù)集——不管它們具有什么樣的規(guī)模——仍然是人類設(shè)計的產(chǎn)物。大數(shù)據(jù)的工具——例如ApacheHadoop軟件框架——并不能使人們擺脫曲解、隔閡和錯誤的成見。當大數(shù)據(jù)試圖反映人們所生活的社會化世界時,這些因素變得尤其重要,而人們卻常常會傻乎乎地認為這些結(jié)果總是要比人為的意見來得客觀些。偏見和盲區(qū)存在于大數(shù)據(jù)中,就像它們存在于個人的感覺和經(jīng)驗中一樣。不過存在一種值得懷疑的信條,即認為數(shù)據(jù)總是越大越好,而相關(guān)性也等同于因果關(guān)系。
例如,社交媒體是大數(shù)據(jù)分析的一個普遍的信息源,那里無疑有許多信息可以挖掘。人們被告知,推特網(wǎng)的數(shù)據(jù)顯示人們在離家越遠的時候越快樂,而且在周四晚上最為沮喪。但是存在許多理由對這些數(shù)據(jù)的含義提出質(zhì)疑。首先,人們從皮尤研究中心獲悉,美國上網(wǎng)的成年人中只有16%使用推特網(wǎng),因而他們絕對不是一個具有代表性的樣本——與整體人口相比,他們中年輕人和城市人的比例偏多。此外,人們知道許多推特賬號是被稱作“機器人”程序的自動程序、虛假賬號或是“半機器人”系統(tǒng)(即得到機器人程序輔助的人為控制賬號)。最近的估計顯示,可能存在多達2000萬個虛假賬號。因此就算人們想要踏入有關(guān)如何評估推特網(wǎng)用戶情緒的方法論雷場之前,請先問一下這些情緒究竟是來自真人,還是來自自動化算法系統(tǒng)。
“大數(shù)據(jù)將使我們的城市變得更加智能和高效。”在一定程度上是的。
文章稱,大數(shù)據(jù)可以提供幫助改善城市的寶貴見識,但是它對人們的幫助僅此而已。因為數(shù)據(jù)在生成或采集的過程并不都是平等的,大數(shù)據(jù)集存在“信號問題”——即某些民眾和社區(qū)被忽略或未得到充分代表,這被稱為數(shù)據(jù)黑暗地帶或陰影區(qū)域。因此大數(shù)據(jù)在城市規(guī)劃中的應(yīng)用在很大程度上取決于市政官員對數(shù)據(jù)及其局限性的了解。
例如,波士頓的StreetBump應(yīng)用程序是一個比較聰明的以低成本收集信息的途徑。該程序從開車經(jīng)過路面坑洼處的駕駛員的智能手機上收集數(shù)據(jù)。更多類似的應(yīng)用正在出現(xiàn)。但是如果城市開始依靠僅來自智能手機用戶的信息,那么這些市民只是一個自我選擇樣本——它必然導(dǎo)致?lián)碛休^少智能手機用戶的社區(qū)的數(shù)據(jù)缺失,這樣的社區(qū)人群通常包括了年老和不那么富有的市民。盡管波士頓的新城市機械辦公室作出了多項努力來彌補這些潛在的數(shù)據(jù)缺陷,但不那么負責的公共官員可能會遺漏這些補救措施,最終會得到不均衡的數(shù)據(jù),從而進一步加劇已有的社會不公。人們只要回顧一下曾經(jīng)過高估計了年度流感發(fā)病率的2012年“谷歌流感趨勢”,就可以認識到依賴有缺陷的大數(shù)據(jù)可能給公共服務(wù)及公共政策造成的影響。