在網(wǎng)上公開政府部門數(shù)據(jù)的“開放政府”計(jì)劃——如Data.gov網(wǎng)站及“白宮開放政府計(jì)劃”——也存在同樣的情況。更多的數(shù)據(jù)未必會(huì)改善政府的任何功能,包括透明度和問(wèn)責(zé),除非存在可以使公眾和公共機(jī)構(gòu)保持接觸的機(jī)制,更不用說(shuō)促進(jìn)政府解釋數(shù)據(jù)并以足夠的資源作出反應(yīng)的能力。所有這些都非易事。事實(shí)上,人們身邊還沒(méi)有很多技能高超的數(shù)據(jù)科學(xué)家。各大學(xué)目前正在爭(zhēng)相定義這一行當(dāng)、制訂教程和滿足市場(chǎng)需求。
“大數(shù)據(jù)對(duì)不同的社會(huì)群體不會(huì)厚此薄彼。”幾乎不是這樣。
文章指出,對(duì)大數(shù)據(jù)所號(hào)稱的客觀性的另一個(gè)期待是對(duì)于少數(shù)群體的歧視將會(huì)減少,因?yàn)樵紨?shù)據(jù)總是不含社會(huì)偏見的,這使得分析可以在大規(guī)模的水平上進(jìn)行,從而避免基于群體的歧視。然而,由于大數(shù)據(jù)能夠作出有關(guān)群體不同行為方式的論斷,它們的使用通常恰恰就是為了實(shí)現(xiàn)這個(gè)目的——即把不同的個(gè)體歸入不同的群體中。例如,最近有一篇論文指科學(xué)家聽任自己的種族偏見影響有關(guān)基因組的大數(shù)據(jù)研究。
大數(shù)據(jù)有可能被用來(lái)搞價(jià)格歧視,從而引發(fā)嚴(yán)重的民權(quán)擔(dān)憂。這種做法在歷史上曾被稱為“劃紅線”。最近,劍橋大學(xué)對(duì)臉譜網(wǎng)5.8萬(wàn)個(gè)“喜歡”標(biāo)注進(jìn)行的大數(shù)據(jù)研究被用來(lái)預(yù)測(cè)用戶極其敏感的個(gè)人信息,如性取向、種族、宗教和政治觀點(diǎn)、性格特征、智力水平、快樂(lè)與否、成癮藥物使用、父母婚姻狀況、年齡及性別等。記者湯姆·福爾姆斯基這樣評(píng)價(jià)該項(xiàng)研究:“此類容易獲得的高度敏感信息可能會(huì)被雇主、房東、政府部門、教育機(jī)構(gòu)及私營(yíng)組織用來(lái)對(duì)個(gè)人實(shí)施歧視和懲罰。而人們沒(méi)有任何抗?fàn)幍氖侄巍?rdquo;
最后考慮一下在執(zhí)法方面的影響。從華盛頓到特拉華州的紐卡斯?fàn)柨h,警方正在求助于大數(shù)據(jù)的“預(yù)測(cè)性警事”模型,希望能夠?yàn)閼野傅膫善铺峁┚€索,甚至可以幫助預(yù)防未來(lái)的犯罪。不過(guò),讓警方把工作專注于大數(shù)據(jù)所發(fā)現(xiàn)的特定“熱點(diǎn)”,存在著強(qiáng)化警方對(duì)聲譽(yù)不佳的社會(huì)群體的懷疑以及使差別化執(zhí)法成為制度的危險(xiǎn)。正如某位警察局長(zhǎng)撰文指出的,盡管預(yù)測(cè)性警事算法系統(tǒng)不考慮種族和性別等因素,但是如果沒(méi)有對(duì)差別化影響的考慮,使用這種系統(tǒng)的實(shí)際結(jié)果可能“會(huì)導(dǎo)致警方與社區(qū)關(guān)系惡化,讓公眾產(chǎn)生司法程序缺失的感覺(jué),引發(fā)種族歧視指控,并使警方的合法性受到威脅。”
“大數(shù)據(jù)是匿名的,因此它不會(huì)侵犯我們的隱私。”大錯(cuò)特錯(cuò)。
文章稱,盡管許多大數(shù)據(jù)的提供者盡力消除以人類為對(duì)象的數(shù)據(jù)集中的個(gè)體身份,但身份重新被確認(rèn)的風(fēng)險(xiǎn)仍然很大。蜂窩電話數(shù)據(jù)看起來(lái)也許相當(dāng)匿名,但是最近對(duì)歐洲150萬(wàn)手機(jī)用戶的數(shù)據(jù)集進(jìn)行的研究表明,只需要4項(xiàng)參照因素就足以挨個(gè)確認(rèn)其中95%的人員的身份。研究人員指出,人們?cè)诔鞘兄凶哌^(guò)的路徑存在唯一性,而鑒于利用大量公共數(shù)據(jù)集可以推斷很多信息,這使個(gè)人隱私成為“日益嚴(yán)重的擔(dān)憂”。
但是大數(shù)據(jù)的隱私問(wèn)題遠(yuǎn)遠(yuǎn)超出了常規(guī)的身份確認(rèn)風(fēng)險(xiǎn)的范疇。目前被出售給分析公司的醫(yī)療數(shù)據(jù)有可能被用來(lái)追查到個(gè)人的身份。關(guān)于個(gè)性化醫(yī)療有很多談?wù)?,人們的希望是將?lái)可以針對(duì)個(gè)人研制藥物和其他療法,就好像這些藥物和療法是利用患者自己的DNA制作出來(lái)的。就提高醫(yī)學(xué)的功效而言,這是個(gè)美妙的前景,但這本質(zhì)上依賴于分子和基因水平上的個(gè)人身份確認(rèn),這種信息一旦被不當(dāng)使用或泄露就會(huì)帶來(lái)很大的風(fēng)險(xiǎn)。盡管像RunKeeper和Nike+等個(gè)人健康數(shù)據(jù)收集應(yīng)用得到了迅速發(fā)展,但在實(shí)踐中用大數(shù)據(jù)改善醫(yī)療服務(wù)仍然還只是一種愿望,而不是現(xiàn)實(shí)。
高度個(gè)人化的大數(shù)據(jù)集將成為黑客或泄露者覬覦的主要目標(biāo)。維基揭密網(wǎng)一直處在近年幾起最嚴(yán)重的大數(shù)據(jù)泄密事件的中心。正如從英國(guó)離岸金融業(yè)大規(guī)模數(shù)據(jù)泄露事件中看到的,與其他所有人一樣,世界上最富有的1%人口的個(gè)人信息也極易遭到公開。
“大數(shù)據(jù)是科學(xué)的未來(lái)。”部分正確,但它還需要一些成長(zhǎng)。
文章指出,大數(shù)據(jù)為科學(xué)提供了新的途徑。人們只需看一下希格斯玻色子的發(fā)現(xiàn),它是歷史上最大規(guī)模網(wǎng)格計(jì)算項(xiàng)目的產(chǎn)物。在該項(xiàng)目中,歐洲核子研究中心利用Hadoop分布式文件系統(tǒng)對(duì)所有數(shù)據(jù)進(jìn)行管理。但是除非人們認(rèn)識(shí)到并著手解決大數(shù)據(jù)在反映人類生活方面的某些內(nèi)在不足,否則可能會(huì)依據(jù)錯(cuò)誤的成見作出重大的公共政策和商業(yè)決定。