當(dāng)?shù)貢r(shí)間今日,F(xiàn)acebook在加州總部向幾位記者透露了一些關(guān)于“大數(shù)據(jù)”的統(tǒng)計(jì)數(shù)字,諸如Facebook系統(tǒng)每天要處理25億條消息、500+ TB的數(shù)據(jù)、用戶點(diǎn)擊Like按鈕的次數(shù)達(dá)到27億次、上傳3億張照片、每半個(gè)小時(shí)掃描的數(shù)據(jù)大約為105TB。另外Facebook還首次透露了新項(xiàng)目“Project Prism”的有關(guān)細(xì)節(jié)。
Facebook基礎(chǔ)設(shè)施技術(shù)部門副總裁Jay Parikh稱,這些數(shù)據(jù)對于Facebook來說尤為重要。通過快速處理這些數(shù)據(jù),F(xiàn)acebook能夠推出新產(chǎn)品,知曉用戶反應(yīng)以及近乎實(shí)時(shí)地調(diào)整產(chǎn)品設(shè)計(jì)。
Facebook透露的另外一項(xiàng)統(tǒng)計(jì)數(shù)字顯示:在一個(gè)單獨(dú)的Hadoop磁盤集群內(nèi)存儲了超過100 PB的數(shù)據(jù),Parikh表示這是全球最大的單一Hadoop系統(tǒng)。不過他同時(shí)指出,雖然這種數(shù)據(jù)規(guī)模對于小企業(yè)來說很龐大,但是幾個(gè)月之后就沒有人會在乎你的數(shù)據(jù)庫內(nèi)存儲了100PB的數(shù)據(jù)。因?yàn)閿?shù)據(jù)增長的速度非常之快,而且我們對數(shù)據(jù)變得愈加渴求,所以再過幾個(gè)月,100 PB的磁盤集群就再也不是新聞了。
另外,Parikh還稱,這些數(shù)據(jù)不僅僅只對Facebook有幫助,廣告商同時(shí)也是受益者。Parikh解釋道:“通過追蹤網(wǎng)站上發(fā)布的廣告對各個(gè)層面用戶(性別、年齡、興趣愛好)的影響,我們可以有針對性地加大廣告力度,使其效果更加明顯。打個(gè)比方,如果廣告效應(yīng)在加州相比其他地方更好,我們就會在加州投放更多的廣告,從而讓廣告商的效益達(dá)到最大化。
Facebook甚至都不需要作出任何改變就能看到這些數(shù)據(jù)帶來的影響。只要透過歷史數(shù)據(jù),F(xiàn)aceboo就可以建立一個(gè)模型,然后進(jìn)行數(shù)據(jù)模擬,就能看到廣告點(diǎn)擊率(CTR)成倍增長。與此同時(shí),還有一個(gè)叫做Gatekeeper的系統(tǒng)在測試少數(shù)比例的用戶群的數(shù)據(jù)所帶來的變化。
接下來談?wù)摰氖切马?xiàng)目“Project Prism”?,F(xiàn)在Facebook實(shí)際上是將其所有的用戶數(shù)據(jù)庫(一直在不斷變化增大)存儲在某個(gè)特定的數(shù)據(jù)中心,其他數(shù)據(jù)中心則用來存儲其他數(shù)據(jù)和冗余數(shù)據(jù)。不過隨著用戶數(shù)據(jù)庫不斷增大,一個(gè)數(shù)據(jù)中心將不足以存儲所有的數(shù)據(jù),那么就需要將整個(gè)用戶數(shù)據(jù)庫轉(zhuǎn)移到更大的數(shù)據(jù)中心去。整個(gè)數(shù)據(jù)的轉(zhuǎn)移過程其實(shí)也是一種資源浪費(fèi)。
Parikh說:“Project Prism”讓我們可以對這個(gè)“巨大倉庫”(指用戶數(shù)據(jù)庫)進(jìn)行分別存儲但是依然不會影響整個(gè)數(shù)據(jù)視圖,也就是意味著這些數(shù)據(jù)可以分別托管在Facebook在加州、弗吉尼亞州、俄勒岡州、北卡羅來納州甚至是瑞典等地的數(shù)據(jù)中心。
在內(nèi)部,F(xiàn)acebook選擇不對數(shù)據(jù)進(jìn)行分區(qū)處理或者給不同業(yè)務(wù)部門(如廣告部門和客戶支持服務(wù)部門)之間設(shè)置障礙。產(chǎn)品開發(fā)人員可以跨部門查看數(shù)據(jù),以評估他們作出的小調(diào)整是否會增加用戶在網(wǎng)站的停留時(shí)間、是否會引發(fā)用戶的投訴或者是否增加廣告的點(diǎn)擊次數(shù)。
這樣一來,作為用戶,想到Facebook的員工可以對自己的活動了如指掌,肯定會感到絲絲的不安。但Facebook承諾用戶,將會采取多重保護(hù)措施以免用戶的數(shù)據(jù)被濫用。所有的數(shù)據(jù)訪問記錄會被Facebook記錄下來,這樣就可以追蹤哪些員工查看了哪些數(shù)據(jù)。并且Facebook還會對員工進(jìn)行強(qiáng)化訓(xùn)練,每個(gè)人都有各自管轄的數(shù)據(jù)領(lǐng)域,如果員工越權(quán)偷看了不該看的數(shù)據(jù),那么將會被炒魷魚。Parikh嚴(yán)正聲明:“我們采取的是零容忍政策,絕對不姑息任何非法使用用戶數(shù)據(jù)的情況發(fā)生。”