新浪微博平臺上的風(fēng)云榜、微數(shù)據(jù)、微報告,以及餐客等第三方微博數(shù)據(jù)挖掘,就是基于微博內(nèi)容對海量數(shù)據(jù)進(jìn)行挖掘和價值提煉的典型應(yīng)用。在基于英特爾架構(gòu)的基礎(chǔ)上,新浪還特別重視軟件層面的大數(shù)據(jù)解決方案。
根據(jù)楊衛(wèi)華的介紹,目前新浪微博主要采用2種方法來處理海量數(shù)據(jù),分別是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫和NoSQL。在關(guān)系數(shù)據(jù)庫中,可以通過sharding將數(shù)據(jù)分散至多臺服務(wù)器上,并針對不同時間段的熱門微博內(nèi)容或者關(guān)鍵詞,通過時間分片進(jìn)行sharding。比如針對微博熱詞或者微博賬號影響力按照一定規(guī)則進(jìn)行排序,提供風(fēng)云榜排名,也可支持微博用戶鑒定自我影響力和了解當(dāng)前熱門話題。NoSQL屬于非關(guān)系型數(shù)據(jù)庫,同時也是Hadoop框架中的HBase子模塊,能夠搭建起應(yīng)對微博海量數(shù)據(jù)的解決方案。對于音視頻、投票排名等非結(jié)構(gòu)化數(shù)據(jù),可以通過對微博數(shù)據(jù)按行業(yè)類別進(jìn)行挖掘、分析和處理,并將處理結(jié)果形成微報告,指導(dǎo)運(yùn)營工作。而開放API的新浪微博,也可以為第三方開發(fā)內(nèi)容更為豐富的微博數(shù)據(jù)挖掘應(yīng)用提供外部接口。不遠(yuǎn)的未來,新浪微博將升級系統(tǒng),直接采用能夠與現(xiàn)有架構(gòu)實現(xiàn)完美支持、并將性能發(fā)揮至極致的英特爾Hadoop發(fā)行版,實現(xiàn)大數(shù)據(jù)完整解決方案。
英特爾Hadoop發(fā)行版,專門針對英特爾架構(gòu)平臺進(jìn)行了一系列優(yōu)化,能獲得比非英特爾發(fā)行版Hadoop的性能實現(xiàn)成倍增長,使其處理能力達(dá)到或者接近于實時的效果,同時可確保更好的穩(wěn)定性。英特爾Hadoop Manager 2.0可幫助管理員簡化Hadoop的部署和管理工作,提高效率。這些,讓已經(jīng)部署了英特爾硬件平臺的新浪微博看到了希望,精“芯”構(gòu)筑的軟硬一體數(shù)據(jù)挖掘平臺,為開放API給第三方提供更多微博數(shù)據(jù)挖掘提供更好支持。
總結(jié):
大數(shù)據(jù),既是一種機(jī)遇也是一種挑戰(zhàn)。作為國內(nèi)最大的微博平臺,新浪微博在應(yīng)對不斷增長的微博用戶和數(shù)據(jù)內(nèi)容帶來的挑戰(zhàn)的同時,也需要特別抓住微博帶來的巨大商業(yè)價值?;谟⑻貭柶脚_的底層架構(gòu)和英特爾Hadoop發(fā)行版分布式處理系統(tǒng),可以幫助提供可靠、高效而又易于擴(kuò)展的微博平臺。在實現(xiàn)新浪微博通過微博數(shù)據(jù)進(jìn)行挖掘,滿足微博用戶個性化應(yīng)用體驗的同時,也可以滿足第三方挖掘微博數(shù)據(jù)價值為企業(yè)提供決策參考的需求。