要想預(yù)測(cè)大數(shù)據(jù)的走勢(shì),明確自己的關(guān)注點(diǎn),F(xiàn)acebook是不二之選,因?yàn)樗占臄?shù)據(jù)可謂海量(100PB,也即102400TB)。而要想處理這些數(shù)據(jù),Cassandra NoSQL數(shù)據(jù)存儲(chǔ)+Hive查詢語(yǔ)言+Hadoop分布式數(shù)據(jù)庫(kù)是最佳拍檔。此文談到了大數(shù)據(jù)初創(chuàng)企業(yè)應(yīng)該如何從Facebook身上學(xué)習(xí)自己的突破方向。
機(jī)遇之一:Hadoop大眾化
通過Hadoop和NoSQL進(jìn)行基礎(chǔ)設(shè)施層創(chuàng)新是機(jī)遇一。
Facebook幾乎把Hadoop運(yùn)用到了方方面面,從朋友推薦到定向廣告乃至于數(shù)據(jù)中心分析,不一而足,大數(shù)據(jù)被分割成了字節(jié)大小的碎片。不過,要服務(wù)好這一切意味著需要確保其各部門的用戶都能夠以一種有意義的方式跟Hadoop交互。
定制化的工具、接口及虛擬層為這個(gè)問題的解決提供了幫助。技術(shù)門檻降低以后,F(xiàn)acebook的非技術(shù)用戶也能夠利用Hadoop生成報(bào)表、查看分析了。幫助創(chuàng)建了Hive的幾位前Facebook員工還推出了云版的Hive —Qubole,可以通過Hive的簽名SQL接口提供對(duì)Hadoop的請(qǐng)求式訪問。Facebook希望創(chuàng)建出有助于降低Hadoop使用難度的工具,把大數(shù)據(jù)的應(yīng)用效率提高上去。
機(jī)遇之二:超越Hadoop
但是有時(shí)候跳出已有的框架(如Hadoop和NoSQL存儲(chǔ))也許也能夠闖出一片新天地。這一切都取決于需求。大家用Hadoop是因?yàn)樗敲赓M(fèi)的、開源的。但是,要想實(shí)現(xiàn)自己的需求往往需要在Hadoop上面做大量工作。有很多大數(shù)據(jù)的問題跟Hadoop是無(wú)關(guān)的,所以另起爐灶也許不失為一種解決之道。Facebook的圖譜數(shù)據(jù)庫(kù)用的是MySQL,其開發(fā)TimeLine和Newsfeed的后臺(tái)用的也是它,一切均應(yīng)根據(jù)需要來(lái)選擇。
不過對(duì)于初創(chuàng)企業(yè)來(lái)說(shuō),在選擇應(yīng)用開發(fā)平臺(tái)的時(shí)候還是要有所權(quán)衡。Accel Partners的Ping Li的忠告是,夠好是偉大的敵人。要想成就偉大,也許就得突破Hadoop。
機(jī)遇之三:做大,像數(shù)據(jù)中心那么大
Facebook今年8月推出了數(shù)據(jù)中心的一項(xiàng)深度存儲(chǔ)新戰(zhàn)略,打算從頭設(shè)計(jì)數(shù)據(jù)中心,以期可以處理長(zhǎng)期較少被訪問的數(shù)據(jù)存儲(chǔ),而非比較穩(wěn)定的web事務(wù)流。
這種變化絕非遞進(jìn)式的變化,跟過去的數(shù)據(jù)中心相比有著很大的不同。這種能源集約型的數(shù)據(jù)中心力圖將計(jì)算節(jié)省下來(lái)的每一度電都分配給對(duì)電力需求要少得多的處理上,但是這些處理還是需要把數(shù)據(jù)交付給用戶和分析引擎。這是一個(gè)巨大的挑戰(zhàn),因?yàn)樵絹?lái)越多的企業(yè)已經(jīng)意識(shí)到歷史數(shù)據(jù)的重要性。
Facebook打算通過Open Compute項(xiàng)目將其設(shè)計(jì)開放,其中已有部分管理工作在Apache Hadoop項(xiàng)目中實(shí)現(xiàn),這對(duì)于初創(chuàng)企業(yè)來(lái)說(shuō)是個(gè)好消息,他們只需要做剩下的事情就行了。