點擊、流量的多少并不能客觀地概括“我們是誰”,而是關(guān)于希望與訴求的一種個性化的展現(xiàn)。目前針對“大數(shù)據(jù)”的定義給人的印象是缺乏主體性,我們不能滿足于數(shù)據(jù)的產(chǎn)生與人有關(guān),更要意識到,數(shù)據(jù)本身就是由人創(chuàng)造。這就是人的數(shù)據(jù)。
我們所處的時代還有一個比較拗口的名字,叫做“拍字節(jié)時代”(petabyte era),所謂“拍字節(jié)”即千萬億字節(jié)或千兆字節(jié),屬于較高級的儲存單位。人們不僅關(guān)注存儲介質(zhì)的龐大體量,也在談論數(shù)據(jù)內(nèi)容的急速增長。“我們每天創(chuàng)造2.5萬兆字節(jié)的數(shù)據(jù),90%的現(xiàn)有數(shù)據(jù)在過去兩年內(nèi)創(chuàng)造。”這種說法的準確出處是IBM公司在其官網(wǎng)上發(fā)布的“什么是大數(shù)據(jù)”,類似的結(jié)論常常被一些媒體所轉(zhuǎn)述。
不光是媒體,包括商界、學術(shù)期刊都開始熱衷于研究大數(shù)據(jù)的特別之處。2013年,《哥倫比亞新聞評論》(Columbia Journalism Review)上有一篇文章,形容“大數(shù)據(jù)”是“一個包羅萬象的標簽”——通過分析大量的數(shù)據(jù)來重新認識世界。被譽為“信息時代的精神領(lǐng)袖”的克里斯·安德森(Chris Anderson)在《連線》(Wired)雜志上曾預言,數(shù)據(jù)洪流將導致科學方法不合時宜,他所謂的“理論的終結(jié)”正在一步步演變?yōu)楝F(xiàn)實——如此龐大的數(shù)據(jù)是現(xiàn)成的,沒有必要大費周章地提出假設(shè),然后不厭其煩地進行科學驗證。如果善于獲取和分析數(shù)據(jù),它們自身就可以說明很多問題。
何謂大數(shù)據(jù)?一個數(shù)據(jù)集合需要滿足三個“V”的維度,即大量(huge in volume)、高速(high in velocity)、多變(diverse in variety),有時也會附帶第四點,真實或準確(veracity),這可以從不同角度進行解讀。一旦掌握了全部人口的數(shù)據(jù),就意味著產(chǎn)生新的可能性。在熱烈的討論中,往往被遺忘的,或者暫時被忽視的是這些新鮮出爐的字節(jié)有多少是基于個人數(shù)據(jù)創(chuàng)造。值得一提的是,三個“V”的維度是15年前由美國高德納公司分析員道格·萊尼(Doug Laney)提出,當時用以描述數(shù)據(jù)管理的核心問題,后來經(jīng)過重新演繹,用來定義大數(shù)據(jù)。
哈佛大學科學史系助理教授麗貝卡·萊莫夫(Rebecca Lemov)在課上講授大數(shù)據(jù)主題時,總喜歡提到美國男星查爾頓·赫斯頓(Charlton Heston)主演的反烏托邦科幻電影《超世紀諜殺案》(Soylent Green)。影片在1973年上映,描繪了2022年的未來世界——由于污染、氣候變暖和人口過剩導致資源枯竭,蔬菜水果成為稀有的奢侈品,大多數(shù)人只能依賴于綠色食品(soylent)維持生命,官方口徑是由大豆(soy)和扁豆(lentil)制成。事實并非如此,男主人公經(jīng)過調(diào)查后發(fā)現(xiàn),綠色食品是用人做的——“Soylent green is people”,這一幕出現(xiàn)在影片結(jié)尾處。
萊莫夫套用了這句經(jīng)典臺詞,稱“大數(shù)據(jù)就是人”。關(guān)于大數(shù)據(jù)的定義,大部分都沒有考慮到與生俱來的人性,也沒有揪住意味深長的啟示,比如技術(shù)與不斷改變的自我定義的關(guān)系。一組不同以往的新數(shù)據(jù),源于人類的日常生活——幾乎不用深思熟慮,通過一個簡單動作就能完成,推特、臉書、谷歌搜索、在線評論、一鍵下單。這些是“我”的模糊圖像,新的虛擬生活被轉(zhuǎn)換為算法處理。
對于上述數(shù)據(jù)的生產(chǎn)現(xiàn)場,人類地理學者羅伯·基欽(Rob Kitchin)最近做過編目,包括進貨量的記錄、數(shù)字設(shè)備對其使用歷史的保存和傳播(如手機)、事務處理日志和數(shù)字網(wǎng)絡(luò)的交互(如郵件和網(wǎng)上銀行)、網(wǎng)站或軟件導航所帶來的點擊流量、嵌入物體或環(huán)境的傳感器所收集的測量數(shù)據(jù)、對機讀對象進行的掃描(如條形碼)、車載資通系統(tǒng)、社交媒體的信息發(fā)布,大量的、動態(tài)的、細化的、關(guān)聯(lián)的數(shù)據(jù)流由此形成。
2012年,沃爾瑪每小時創(chuàng)造2.5千萬億字節(jié)數(shù)據(jù),涉及逾100萬筆客戶交易。同年,臉書宣布每天處理25億個頁面(鏈接與評論)、27億個點贊、3億張上傳的圖片。與此同時,精細數(shù)據(jù)的收集場合與方法一直在更新。今年2月,臉書修改了提供給用戶的性別設(shè)定,除了傳統(tǒng)的男/女,還有56種新的非傳統(tǒng)性別。
從輸入信息中導出的持續(xù)不斷的數(shù)據(jù)軌跡很快投入應用。地圖上的數(shù)據(jù)流不但可以告訴你所在的位置,還能預判你的目的地。警方多了一個得力助手,在犯罪結(jié)論認定前,先通過數(shù)據(jù)對嫌疑對象的行為范式進行分析識別。“大數(shù)據(jù)是人”,這可以從兩方面來理解:大數(shù)據(jù)由我們的點擊、導航的偏好和行為所創(chuàng)造,也隨之塑成了許多重大的社會政策。