(原文來(lái)自FT,虎嗅編譯)
愛(ài)德華?斯諾登曝光NSA監(jiān)聽(tīng)之后,喬治·奧威爾著作《1984》的銷(xiāo)量都增加了。就目前的情況來(lái)說(shuō),即使人們不喜歡老大哥在監(jiān)視自己,也要準(zhǔn)備好接受隱私被冒犯的代價(jià),來(lái)?yè)Q得安全保障。
那么“大數(shù)據(jù)”會(huì)怎么樣?快速增長(zhǎng)的個(gè)人數(shù)據(jù)掌握在公司們手中,它們使用新型的數(shù)據(jù)分析和人工智能技術(shù)來(lái)改進(jìn)自己的產(chǎn)品和服務(wù),預(yù)測(cè)顧客的需求。谷歌首席執(zhí)行官拉里?佩奇(Larry Page)描述他心目中理想的科技形態(tài)是“一個(gè)真正智能的助理,能夠幫人類(lèi)去做事,我們就不必再費(fèi)腦筋”。
試想一下居住在虛擬的唐頓莊園(Downton Abbey)里,有一臺(tái)電腦幫你安排一天的計(jì)劃,給出旅行的最佳路線(xiàn)建議、可能想要觀看的影片和最適宜搭乘的航班——甚至幫你訂票——這的確有誘惑力。我們都在趕時(shí)間,想要一個(gè)簡(jiǎn)單輕松的生活。只要不被信息轟炸或是迫失選擇,有個(gè)私人助理服務(wù)還是不錯(cuò)的。
但是NSA監(jiān)聽(tīng)事件讓所有人大吃一驚,雖然監(jiān)聽(tīng)計(jì)劃已經(jīng)存在60年了,我懷疑許多人是否能明白他們每天制造的數(shù)據(jù)量有多大,或者是否了解如今科技發(fā)展到怎樣的程度——一小撮大數(shù)據(jù)公司已經(jīng)在進(jìn)行數(shù)據(jù)挖掘。科技發(fā)展得太快,兩年前還認(rèn)為是不可能的事情如今已經(jīng)十分平常了。
“未來(lái)既令人激動(dòng)又讓人恐懼。擁有海量數(shù)據(jù)的公司們甚至要比你還要了解你自己。它們能預(yù)測(cè)你下面可能做什么,”李開(kāi)復(fù)說(shuō)。他是Google中國(guó)的前任CEO,目前在北京做投資。
上周我在一篇專(zhuān)欄文章里將谷歌與19世紀(jì)的通用電氣進(jìn)行了比較——這是一家創(chuàng)新的工業(yè)公司,借助了在新技術(shù)潮流發(fā)展的力量。不利的一面是谷歌、亞馬遜、微軟以及其他科技巨頭正在積累自己的力量,需要小心翼翼地控制。
NSA和大數(shù)據(jù)公司將它們的數(shù)據(jù)庫(kù)和計(jì)算能力用在了不同的地方——一個(gè)是發(fā)現(xiàn)間諜和恐怖分子,一個(gè)是為用戶(hù)匹配服務(wù)。它們對(duì)大規(guī)模數(shù)據(jù)庫(kù)的使用有相似之處,比如模式識(shí)別和網(wǎng)絡(luò)分析等等。
更進(jìn)一步來(lái)看,這涉及到人工智能技術(shù),比如在用戶(hù)輸入關(guān)鍵詞時(shí)分析搜索的目的、實(shí)時(shí)將演講翻譯成另外一種語(yǔ)言(像微軟去年在中國(guó)演示的那樣)、通過(guò)讀取上千張圖像去學(xué)習(xí)分辨一只貓的照片。
計(jì)算機(jī)學(xué)習(xí)人類(lèi)趨同行為的能力被稱(chēng)作是“深度學(xué)習(xí)(deep learning)”,值得注意的是谷歌已經(jīng)聘請(qǐng)了該領(lǐng)域的幾位前沿學(xué)者,其中就包括科學(xué)家、作家雷·庫(kù)茲韋爾(Ray Kurzweil)。NSA向美國(guó)私人公司開(kāi)放的技術(shù)轉(zhuǎn)讓中就有“領(lǐng)先的機(jī)器學(xué)習(xí)技術(shù)”。
這種軟件可以從信息碎片中預(yù)測(cè)許多東西,只要碎片足夠多就可以,好像NSA從運(yùn)營(yíng)商Verizon那里獲取電話(huà)撥叫元數(shù)據(jù)并對(duì)其分析一樣??偨y(tǒng)奧巴馬向美國(guó)公民保證“沒(méi)人在竊聽(tīng)你的電話(huà)”,但是只要撥叫紀(jì)錄就足夠了。
哈佛大學(xué)教授拉坦婭·斯威妮(Latanya Sweeney)的一項(xiàng)研究表明,有87%的人在獲知年齡、性別和郵政編碼的情況下能夠被確認(rèn)身份,只要在公開(kāi)數(shù)據(jù)庫(kù)里交叉確認(rèn)(cross-checked)就可以。這恰恰是社交網(wǎng)絡(luò)和互聯(lián)網(wǎng)公司通常所收集的數(shù)據(jù)。
大數(shù)據(jù)公司的驚人能力來(lái)自一點(diǎn),它們可以將顧客的個(gè)人數(shù)據(jù)進(jìn)行整合,其中就涵蓋購(gòu)買(mǎi)的何種商品、位置在哪里(由移動(dòng)電話(huà)的GPS搜集)。由此生成一組有關(guān)顧客意圖的“推測(cè)數(shù)據(jù)(inferred data)”。
舉例說(shuō)明,如果我在印度時(shí)用安卓手機(jī)搜索“泰姬陵”,谷歌會(huì)優(yōu)先顯示北方邦(Uttar Pradesh)的神廟結(jié)果。如果我在倫敦東部的布里克街(Brick Lane),則會(huì)返回本地的孟加拉風(fēng)味餐廳結(jié)果。基于我的評(píng)價(jià)紀(jì)錄提供餐館預(yù)訂服務(wù)也就不難實(shí)現(xiàn)了。
從一方面來(lái)說(shuō),如果確實(shí)做到這一點(diǎn)(只要是一家好餐廳)我會(huì)很高興,因?yàn)槟軌蚬?jié)省我的一些操作。從另一方面來(lái)看,正如世界經(jīng)濟(jì)論壇關(guān)于個(gè)人數(shù)據(jù)的報(bào)告里所講:“預(yù)測(cè)數(shù)據(jù)給人感覺(jué)好像無(wú)所不知的老大哥在盯著監(jiān)控錄像一樣。”
其中引發(fā)的擔(dān)憂(yōu)之一是掌握這種軟件能力的大數(shù)據(jù)公司很難與之抗衡。我和其他用戶(hù)提供的數(shù)據(jù)越多,它們對(duì)我們意圖的預(yù)測(cè)就越準(zhǔn)確。機(jī)器大腦越用越精明。
另外一個(gè)和信任有關(guān)。社交網(wǎng)絡(luò)在保護(hù)用戶(hù)數(shù)據(jù)方面做得很差,它們只擁有一小片段涉及用戶(hù)行為、習(xí)慣和意愿的信息。很明顯為什么NSA會(huì)把社交網(wǎng)絡(luò)作為目標(biāo)——NSA有計(jì)算能力,他們需要數(shù)據(jù)原料。