英特爾人類學(xué)家Genevieve Bell分享了她針對(duì)大數(shù)據(jù)(big data)所做的研究,她深刻思考了大數(shù)據(jù)對(duì)未來可能激起的改變,并探討了在許多不同情境下,這些大數(shù)據(jù)現(xiàn)象實(shí)際上所蘊(yùn)涵的意義。
“對(duì)我來說,在這份工作中,數(shù)據(jù)本身并不是讓我最感興趣的地方,因?yàn)樗械囊磺惺挛锒紩?huì)產(chǎn)生數(shù)據(jù),真正有趣之處在于如何開發(fā)更能善加運(yùn)用這些數(shù)據(jù)的算法之類,”她解釋道。
今天,我們使用數(shù)據(jù)的方法,并非都能直觀地展現(xiàn)出數(shù)據(jù)本身的意義,
Bell在英特爾公司的正式頭銜是英特爾實(shí)驗(yàn)室互動(dòng)暨體驗(yàn)研究總監(jiān),她負(fù)責(zé)的工作與英特爾其他科學(xué)家和工程師截然不同,涉及的層面涵蓋了所有最近在業(yè)界掀起熱烈討論的數(shù)據(jù)海嘯(data tsunami)、云計(jì)算、設(shè)備擴(kuò)散(device proliferation),以及更強(qiáng)大的服務(wù)器在內(nèi)。“大數(shù)據(jù)”,正是Bell的下一個(gè)主要研究專案。
“問題是該從何處著手?對(duì)于我們想要討論的主題,我們?nèi)蕴幵谠囍胂襁@個(gè)主題的輪廓及其規(guī)模的階段,”Bell在稍早前英特爾的倫敦Xeon E5處理器發(fā)布會(huì)上表示。“而今天,所有已達(dá)爆滿邊緣的數(shù)據(jù)庫,只不過是個(gè)開端而已。”
接下來,Bell表示,這個(gè)世界必須去思考,我們想怎樣過濾這些數(shù)據(jù)?這會(huì)對(duì)傳統(tǒng)線上數(shù)據(jù)庫帶來哪些改變?既有的數(shù)據(jù)世界是否會(huì)開始失序,甚至面臨崩解而后再建設(shè)的局面?
而在這一切的轉(zhuǎn)變過程中,Bell表示,至少我們已經(jīng)開始明白,所有的一切都會(huì)朝著建立一種數(shù)據(jù)追蹤法則的方向發(fā)展,包括模擬和數(shù)字?jǐn)?shù)據(jù)在內(nèi),而且,我們還必須有能力管理所有數(shù)據(jù)。
“對(duì)我來說,在這份工作中,數(shù)據(jù)本身并不是讓我最感興趣的地方,因?yàn)樗械囊磺惺挛锒紩?huì)產(chǎn)生數(shù)據(jù),真正有趣之處在于如何開發(fā)更能善加運(yùn)用這些數(shù)據(jù)的算法之類,”她解釋道。
今天,我們使用數(shù)據(jù)的方法,并非都能直觀地展現(xiàn)出數(shù)據(jù)本身的意義,Bell說,特別是演算法──要讓所有的數(shù)據(jù)都能善加運(yùn)用,就必須深入了解數(shù)據(jù)本身的正確性,而這又和最初的數(shù)據(jù)填寫者有著密切關(guān)聯(lián)。
“所有我們?cè)噲D用來讓數(shù)據(jù)使用更加合理的想法,都會(huì)在一開始被就放在最優(yōu)先的位置,”她說。事實(shí)上,她也點(diǎn)出了當(dāng)我們開始在單一一種數(shù)據(jù)模式內(nèi)找尋數(shù)據(jù)間的固定模式、因果關(guān)系和關(guān)聯(lián)時(shí),實(shí)際上都早已落入固有的偏見之中。
“對(duì)我而言,大數(shù)據(jù)分析最迷人之處不僅在于匯聚了來自各個(gè)領(lǐng)域的廣泛數(shù)據(jù),更重要的是你可以拿它們來做些什么,”Bell表示,我們愈來愈依賴數(shù)據(jù)分析,某種層面來說,這也代表著文化腳本(cultural script)正在跨入嶄新的水平。
這類有關(guān)數(shù)據(jù)分析的想法,也推動(dòng)數(shù)據(jù)朝“擬人化”(anthropomorphizing)的方向發(fā)展。Bell指出,在開始討論到“數(shù)據(jù)的秘密生活”(the secret life of data)之際,所有這些數(shù)據(jù)都將是必要的。而這些討論也將進(jìn)一步推動(dòng)大數(shù)據(jù)和云計(jì)算等應(yīng)用的擴(kuò)展。
Bell表示,所有的數(shù)據(jù)實(shí)際上都擁有它自己的特性,這正是使它與其他所有數(shù)據(jù)有所差異化之處,因此,在分析數(shù)據(jù)以前,最好先厘清所有數(shù)據(jù)的特性。
云計(jì)算的物理特性和“野性”數(shù)據(jù)概念
Bell認(rèn)為數(shù)據(jù)本身屬性即具備繁殖(ferality)或復(fù)制(reproductive)能力。“數(shù)據(jù)并不會(huì)永遠(yuǎn)依照算法或輸入時(shí)的順序整齊排列,在經(jīng)過云計(jì)算和其他控制機(jī)制后,數(shù)據(jù)會(huì)產(chǎn)生何種變化才是重點(diǎn)所在,因?yàn)槲覀兌紩?huì)嘗試著去控制這些本身即具備“野性”(feral)的數(shù)據(jù),”Bell說。
事實(shí)上,Bell舉例道,將同一類型的數(shù)據(jù)全都放在同一種類別中,像是將兔子或其他繁殖力極強(qiáng)的動(dòng)物放在一起,或許能做出初步有的有效分類。她也指出,由于數(shù)據(jù)可以很容易地在各個(gè)類別間轉(zhuǎn)移,或是完全轉(zhuǎn)移到另一種類別,因此上下文(contexts)也可以很容易地轉(zhuǎn)移,這或許能讓人們?cè)囍ス芾頂?shù)據(jù),或是減少這些數(shù)據(jù)的增殖情況。“在數(shù)據(jù)世界中,去思考這些策略,是相當(dāng)有趣的一件事,”她若有所思地表示。
數(shù)據(jù)的另一個(gè)特性在于,盡管數(shù)據(jù)大多具有明確概念(conceptually),但卻也難以捉摸。例如,“云端”事實(shí)上仍需要許多實(shí)體建設(shè)。“云計(jì)算最終都會(huì)有一個(gè)實(shí)體機(jī)房。云計(jì)算數(shù)據(jù)中心必須是一個(gè)實(shí)體建筑,其中設(shè)有服務(wù)器,”Bell強(qiáng)調(diào)了實(shí)體建設(shè)的重要性。
Bell同時(shí)強(qiáng)調(diào),云計(jì)算并不是特殊的概念。“我們思考的不只是單一的云端系統(tǒng),我們?cè)谙氲氖窃S許多多的云,以及成千上萬的實(shí)體設(shè)備,包括進(jìn)行數(shù)據(jù)分析的數(shù)據(jù)中心(server farm)在內(nèi),對(duì)我來說,所有這些實(shí)體設(shè)備,都是研究大數(shù)據(jù)過程中的關(guān)鍵部份,”她表示。
而這也對(duì)大數(shù)據(jù)的研究提出了諸多問題,包括最終數(shù)據(jù)是否會(huì)無處不在?數(shù)據(jù)中心該設(shè)置在何處?這些數(shù)據(jù)該由何地的何種法律來管轄?采用何種網(wǎng)絡(luò)運(yùn)作?以及如何提供和將提供何種服務(wù)?
同時(shí),這也讓人們開始思考,是否每件事或每個(gè)人都會(huì)產(chǎn)生數(shù)據(jù),抑或是像William Gibson對(duì)網(wǎng)路空間(cyberspace)所下的注解:“未來已然來臨,只是還未廣為人知。”(future was already here but unevenly distributed)
Bell認(rèn)為,數(shù)據(jù)將會(huì)在各種地方以不同的方式出現(xiàn),但并非所有情況下的數(shù)據(jù)都是有用的。“你可以輕松地和蘋果(Apple)的Siri對(duì)話,看起來這個(gè)語音管家似乎頗具智能性,但基本上我只覺得那是一連串毫無意義的對(duì)談,”她說。
再者便是如何處理舊設(shè)備和舊數(shù)據(jù),這些數(shù)據(jù)可能尚未數(shù)字化,如何處理它們并以新型態(tài)來呈現(xiàn)都會(huì)是一大問題。
“愈來愈大量的數(shù)據(jù)不斷地產(chǎn)生出來,但這些數(shù)據(jù)并不一定出自人類之手,”她指出,即使靜態(tài)數(shù)據(jù)有可能經(jīng)過處理轉(zhuǎn)變?yōu)閯?dòng)態(tài)資訊,但在相反情況下卻不一定會(huì)出現(xiàn)同樣的結(jié)果。
在全球各地,物聯(lián)網(wǎng)(Internet of things, IoT)應(yīng)用模式都正在發(fā)酵,從交通號(hào)志燈到汽車、冰箱、除草機(jī),到固定電話、平板電腦、筆電和電視,所有的裝置都會(huì)產(chǎn)生數(shù)據(jù),但將來這些數(shù)據(jù)未必會(huì)適合每一個(gè)獨(dú)立的使用者,Bell說。
例如,有些家庭會(huì)共用電話;一些家庭成員在白天工作時(shí)使用自己的平板電腦,但夜間或周末時(shí)則讓給他們的孩子使用。“我們要如何排序數(shù)據(jù),才能得知有多少使用者共用一部設(shè)備?”Bell表示,這讓數(shù)據(jù)排序成為更艱難的任務(wù)。
人類數(shù)據(jù)的特征──不確定性
然而,開發(fā)演算法的噩夢(mèng)還不僅限于要從這么多獨(dú)立使用者和個(gè)別設(shè)備中對(duì)數(shù)據(jù)進(jìn)行排序,Bell表示,更重要的是,你必須牢記,有些數(shù)據(jù)根本就不是真實(shí)的。
她以一份在美國進(jìn)行的研究為例指出,在該研究的調(diào)查對(duì)象中,幾乎100%在個(gè)人數(shù)據(jù)中都謊報(bào)了約會(huì)地點(diǎn)。那么,如何對(duì)這些虛構(gòu)的數(shù)據(jù)進(jìn)行排序,而且讓結(jié)果呈現(xiàn)出非常人性化的觀點(diǎn)呢?
“因此,目前人類和機(jī)器設(shè)備們都會(huì)建構(gòu)數(shù)據(jù),但我們會(huì)需要演算法來協(xié)助建構(gòu)更有用的數(shù)據(jù),”她表示。
“數(shù)據(jù)基本上只是由0與1組成的字串,這很容易想像,而你所要做的,只是找到適合的工具,盡可能去發(fā)揮這些數(shù)據(jù)的作用。但如果我們停止思考,那么數(shù)據(jù)將成為一堆難以想像數(shù)位符號(hào)。所以,我們要開始想像數(shù)據(jù)的輪廓,去想像經(jīng)過處理后,它將會(huì)呈現(xiàn)出什么樣的結(jié)果,”她說。“我們正試著以這些數(shù)據(jù)集為基礎(chǔ)提出建議,但我們卻無法假設(shè)所有數(shù)據(jù)都100%是真實(shí)的。”
此外,Bell指出,隨著數(shù)據(jù)使用者的數(shù)量不斷增加,他們對(duì)數(shù)據(jù)的期望也愈來愈高,這些人會(huì)希望每一個(gè)故事、每一個(gè)當(dāng)下、每一個(gè)所產(chǎn)生的數(shù)據(jù),都能得到相應(yīng)的處理。
另一個(gè)問題,則是這些數(shù)據(jù)是否需要被打理得很好,關(guān)聯(lián)性很強(qiáng)?或是能以散亂型態(tài)呈現(xiàn)?
隨著設(shè)備、服務(wù)、應(yīng)用程序迅速增加,我們處理數(shù)據(jù)的經(jīng)驗(yàn)也快速累積,同時(shí),隨著云計(jì)算系統(tǒng)不停增加,大數(shù)據(jù)的概念也正不斷成長(zhǎng),Bell說,這也意味著在數(shù)據(jù)量持續(xù)增長(zhǎng)的同時(shí),我們將面對(duì)一系列嶄新的挑戰(zhàn)。
但所有這些問題都能得到妥善答覆嗎?或是目前我們?nèi)匀晃茨苡|及問題核心?Bell表示,大數(shù)據(jù)代表了“令人難以置信的龐大商機(jī)”,它不僅僅是字面上極龐大的數(shù)字,它還將對(duì)今天的系統(tǒng)架構(gòu)師、工程師、設(shè)備制造商和使用者帶來深遠(yuǎn)的影響。