值得一提的是,數(shù)據(jù)本身的飛速發(fā)展從另一個側(cè)面其實也給數(shù)據(jù)工程師們的大數(shù)據(jù)處理帶來了許多挑戰(zhàn)。主要來源于以下的兩個方面:
數(shù)據(jù)量的急速增長。如今,數(shù)據(jù)的產(chǎn)生變得異常容易。社交網(wǎng)絡(luò),移動應(yīng)用,幾乎所有的互聯(lián)網(wǎng)相關(guān)產(chǎn)品每時每刻都在產(chǎn)生眾多數(shù)據(jù)。傳統(tǒng)的集中儲存計算方式顯然無法處理如此龐大的數(shù)據(jù)量。這時,我們就需要新的儲存方式,如云儲存,以及新的處理方案,如Hadoop這樣的分布計算平臺。
數(shù)據(jù)本身的非結(jié)構(gòu)化。在傳統(tǒng)的數(shù)據(jù)處理領(lǐng)域,我們處理的主要是結(jié)構(gòu)化數(shù)據(jù),例如,Excel表格可以顯示量化數(shù)據(jù)等。而如今我們面對著越來越多的非結(jié)構(gòu)化數(shù)據(jù),如社交網(wǎng)絡(luò)的評論,用戶上傳的音頻視頻等。這些數(shù)據(jù)存在于包括文本、圖片、視頻、音頻等眾多的數(shù)據(jù)格式中,這些數(shù)據(jù)中隱含著眾多有價值的信息,但這些信息卻需要深度的計算才可以分析出來。這就需要我們利用智能化分析、圖像識別等等一系列新的算法來進行數(shù)據(jù)挖掘,這也就是“大數(shù)據(jù)”的挑戰(zhàn)所在。
目前硅谷的創(chuàng)業(yè)公司正在探索新的應(yīng)用領(lǐng)域和方法,比如說物聯(lián)網(wǎng)這塊?,F(xiàn)在智能設(shè)備們才剛剛起步,Nest、被 Nest 收購的Dropcam、Iotera、emberlight等等都屬于少部分人的玩具。待到家家戶戶都安裝了智能冰箱、智能燈泡、智能桌子、智能沙發(fā)等等的時候,大數(shù)據(jù)的威力才會伴隨著巨大的使用規(guī)模而發(fā)揮出來。
另外一個角度就是人。如果把之前談的設(shè)備全部置換成個人的時候,他們的相互關(guān)系在各種維度上的交錯會產(chǎn)生一張巨大的網(wǎng)絡(luò),其中的每個組成部分都由大量的數(shù)據(jù)組成。分析理解預測這些社會關(guān)系將會是大數(shù)據(jù)另一個有趣的應(yīng)用方向,即Social Physics。不過按照從硅谷到全國的速度,感覺不管哪一方面的普及起碼得等上五年以上的時間。
展望一下未來的話,如果參照以前的技術(shù)革命和行業(yè)發(fā)展來看大數(shù)據(jù),那么大數(shù)據(jù)的底層設(shè)施將會逐漸被隔離,被模塊化和標準化,甚至是自動化,而在其上的中間層和應(yīng)用層將成為各大公司的數(shù)據(jù)工程師們激烈攻克的主戰(zhàn)場。
硅谷公司的大數(shù)據(jù)運行現(xiàn)狀
目前硅谷各個公司的數(shù)據(jù)處理水平和模式差別還是蠻大的。除 Facebook 等幾個很領(lǐng)先的公司外,大部分公司要么還沒有能力自行處理數(shù)據(jù),要么就是正在建立單獨的數(shù)據(jù)處理部門,主要負責從數(shù)據(jù)基本處理到后期分析的各個環(huán)節(jié),然后再送到公司內(nèi)部的其他部門。
對于這些公司來說,建立一個單獨的數(shù)據(jù)處理部門可能還有還路漫漫其修遠兮。舉個例子來說,F(xiàn)acebook 有一個超過 30 人的團隊花了近 4 年的時間才建立了 Facebook 的數(shù)據(jù)處理平臺。如今,F(xiàn)acebook 仍需要超過 100 名工程師來支持這個平臺的日常運行。可想而知,光是大數(shù)據(jù)分析的基礎(chǔ)設(shè)施就已經(jīng)是一個耗時耗力的項目了。LinkedIn 大數(shù)據(jù)部門的建設(shè)也已花了整整六年。
普遍來說,各公司自主建立數(shù)據(jù)處理平臺存在著幾個難點:
沒有足夠優(yōu)秀的數(shù)據(jù)工程師來組建團隊
沒有足夠能力整合數(shù)據(jù)
沒有易于操作的基礎(chǔ)軟硬件來支持數(shù)據(jù)分析
這幾個主要難點使得大數(shù)據(jù)分析越來越專業(yè)化、服務(wù)化,以至于我們漸漸看到一條“硅谷數(shù)據(jù)處理產(chǎn)業(yè)鏈”的出現(xiàn)。從數(shù)據(jù)的儲存,數(shù)據(jù)分析平臺建立,到數(shù)據(jù)分析,數(shù)據(jù)可視化等等各個環(huán)節(jié)的成本越來越高,這使得本身技術(shù)能力很強的公司都還是使用專業(yè)數(shù)據(jù)處理公司提供的服務(wù),而將更多的人才和資源放到核心業(yè)務(wù)的開發(fā)上。
另外,就是各個公司對于數(shù)據(jù)處理的要求也越來越高。不僅僅需要有效的處理結(jié)果,也需要數(shù)據(jù)處理可以 self-service、self-managing、保證數(shù)據(jù)安全性、完善實時分析。這些諸多需求也使得專業(yè)化團隊的優(yōu)勢更加突出。而這樣一條整合服務(wù)鏈的行程,也給眾多的大數(shù)據(jù)公司提供了機會。
硅谷是非常神奇的地方??萍几拍钤谶@里也不能免俗會被追捧,被炒得很熱。但這種激情和關(guān)注某個程度上講正是硅谷創(chuàng)新的動力。即使存在很多投機貼標簽的人,即使一片片的大數(shù)據(jù) startups 被拍死在沙灘上,即使 Gartner 預測大數(shù)據(jù)概念將被回歸現(xiàn)實,但相信會有更多的人投入到大數(shù)據(jù)這個行業(yè),開發(fā)出更智能,更有影響力的產(chǎn)品。畢竟,大數(shù)據(jù)本身,不像一個單純的 pitch 那樣,它能夠保證的是一定可以中看并且中用。