近年來(lái),微博成為了時(shí)下最為時(shí)髦的互聯(lián)網(wǎng)應(yīng)用。它不僅是互聯(lián)網(wǎng)發(fā)展的一個(gè)新興產(chǎn)物,也是社交平臺(tái)更趨豐富和細(xì)化的應(yīng)用分支。自從2009年新浪推出國(guó)內(nèi)首個(gè)微博平臺(tái)以來(lái),微博在國(guó)內(nèi)的發(fā)展猶如雨后春筍,遍布大江南北。
2010年迎來(lái)了國(guó)內(nèi)微博發(fā)展的春天,新浪騰訊等門(mén)戶(hù)網(wǎng)站均推出微博業(yè)務(wù)。自去年以來(lái),微博用戶(hù)數(shù)量獲得迅猛增長(zhǎng)。今年5月份新浪發(fā)布的第一財(cái)季報(bào)告顯示,僅新浪微博用戶(hù)數(shù)就已增至3.24億人。而另一個(gè)微博巨頭——騰訊微博,也呈現(xiàn)出發(fā)展迅猛的姿態(tài),微博注冊(cè)用戶(hù)也突破3億大關(guān)。
微博獲得迅猛發(fā)展有著深層次的原因。一方面,微博的內(nèi)容組成只是由簡(jiǎn)單的只言片語(yǔ)組成,對(duì)用戶(hù)的技術(shù)和文字功底要求較低,而且在語(yǔ)言的編排組織上,也沒(méi)有博客那么高。另一方面,隨著微博的推廣,運(yùn)營(yíng)商開(kāi)放API使得用戶(hù)都可以通過(guò)手機(jī)、平板電腦、PC等各種終端和系統(tǒng)平臺(tái)實(shí)時(shí)更新和追蹤微博內(nèi)容。
除此之外,最為重要的原因是中國(guó)人口基數(shù)大,中國(guó)網(wǎng)民數(shù)量眾多,微博的使用人群數(shù)量也大,狀態(tài)信息更新頻繁、信息傳播迅速。根據(jù)中國(guó)互聯(lián)網(wǎng)信息中心的統(tǒng)計(jì),截至2011年12月底,中國(guó)網(wǎng)民數(shù)量突破5億,達(dá)到5.13億。眾多網(wǎng)民的背后,不僅有助于擴(kuò)充微博用戶(hù)群體規(guī)模,也為廣大商家和運(yùn)營(yíng)商從微博中獲取商機(jī)帶來(lái)了便利。
微博大數(shù)據(jù):大商機(jī) 大煩惱
直觀、便捷、高效的傳播與轉(zhuǎn)發(fā)模式,是微博運(yùn)營(yíng)商挖掘商機(jī)的潛在動(dòng)力。每一個(gè)微博注冊(cè)用戶(hù),既是用戶(hù)者同時(shí)也是消費(fèi)者。美國(guó)財(cái)經(jīng)網(wǎng)站CNNMoney曾撰文指出,F(xiàn)acebook每名用戶(hù)每個(gè)季度能給其貢獻(xiàn)1.21美元的營(yíng)收,在這個(gè)微博火熱的時(shí)代,誰(shuí)搶占了微博的先機(jī),誰(shuí)就會(huì)在激烈的競(jìng)爭(zhēng)中更脫穎而出。
隨著用戶(hù)的增加,微博將會(huì)逐步實(shí)現(xiàn)商業(yè)化。其核心是為用戶(hù)提供增值服務(wù),利用廣告對(duì)應(yīng)的頁(yè)面吸引粉絲互動(dòng),對(duì)品牌和產(chǎn)品進(jìn)行推廣,幫助微博運(yùn)營(yíng)商實(shí)現(xiàn)盈利;另一方面,國(guó)內(nèi)外已經(jīng)出現(xiàn)很多專(zhuān)業(yè)數(shù)據(jù)挖掘和分析機(jī)構(gòu),利用微博平臺(tái)收集海量數(shù)據(jù),對(duì)微博用戶(hù)的言論和興趣愛(ài)好進(jìn)行分析,從微博“大數(shù)據(jù)”中挖掘商業(yè)價(jià)值。
然而,由于微博用戶(hù)、微博內(nèi)容及其復(fù)雜性的持續(xù)增加,要想實(shí)現(xiàn)高效、快速的從海量微博內(nèi)容中挖掘有價(jià)值的信息,并從中提煉出具有商業(yè)價(jià)值的決策分析數(shù)據(jù),對(duì)于任何一個(gè)數(shù)據(jù)挖掘的企業(yè)或者微博運(yùn)營(yíng)商來(lái)說(shuō)都面臨著極大的挑戰(zhàn)。
新浪微博平臺(tái)首席架構(gòu)師楊衛(wèi)華表示,一方面,微博運(yùn)營(yíng)商需要提供高效、可靠、穩(wěn)定的微博平臺(tái),支撐不斷增長(zhǎng)的微博用戶(hù)和微博內(nèi)容,尤其是音視頻等海量非結(jié)構(gòu)化數(shù)據(jù)帶來(lái)的高訪問(wèn)量需求;另一方面,要有符合開(kāi)放、易用而又支持定制化、可輕松擴(kuò)展的數(shù)據(jù)挖掘平臺(tái),充分利用已有的硬件平臺(tái),支撐高效靈活的數(shù)據(jù)挖掘和分享應(yīng)用。
精“芯”構(gòu)建數(shù)據(jù)挖掘平臺(tái)
微博面臨的諸多挑戰(zhàn),其實(shí)也見(jiàn)證了大數(shù)據(jù)應(yīng)用下的常見(jiàn)困境。微博運(yùn)營(yíng)商需要搭建起能夠支撐不斷增長(zhǎng)的用戶(hù)訪問(wèn)需求,并提供開(kāi)放、可支持定制化的API,為運(yùn)營(yíng)商和第三方實(shí)現(xiàn)微博數(shù)據(jù)價(jià)值挖掘奠定基礎(chǔ)。
新浪微博平臺(tái)首席架構(gòu)師楊衛(wèi)華就曾表示,很多突發(fā)事件的訪問(wèn)峰值,會(huì)給微博運(yùn)營(yíng)商帶來(lái)嚴(yán)峻挑戰(zhàn)。“(除此之外)我們還要關(guān)注怎么樣打造一個(gè)高性能架構(gòu)。”楊衛(wèi)華接著表示。這些問(wèn)題的本質(zhì)其實(shí)是架構(gòu)需要考慮高訪問(wèn)量、海量數(shù)據(jù)下的易于擴(kuò)展、低延遲、高可用和異地分布的問(wèn)題。新浪微博每天有數(shù)十億外部網(wǎng)頁(yè)和API接口訪問(wèn)需求。高性能系統(tǒng)要具備低延遲、高實(shí)時(shí)性的特點(diǎn)。微博的核心價(jià)值就在于實(shí)現(xiàn)高實(shí)時(shí)性,而實(shí)時(shí)性的核心就是盡可能讓數(shù)據(jù)鄰近CPU,避免出現(xiàn)磁盤(pán)IO問(wèn)題。
新浪研發(fā)部平臺(tái)架構(gòu)高級(jí)總監(jiān)童劍也告訴記者,現(xiàn)在新浪微博的服務(wù)器群組,在晚上高峰期,每秒要接受100萬(wàn)以上的響應(yīng)請(qǐng)求,壓力巨大。新浪也在不斷尋找性能更強(qiáng)的服務(wù)器來(lái)滿(mǎn)足他們的需求。為此,新浪微博從推出伊始就與英特爾建立起了廣泛的合作關(guān)系。得益于得天獨(dú)厚的優(yōu)勢(shì),英特爾至強(qiáng)平臺(tái)能夠提供顯著的性能優(yōu)勢(shì),即時(shí)響應(yīng)數(shù)百萬(wàn)訪問(wèn)請(qǐng)求和微博消息隊(duì)列處理。在此基礎(chǔ)上,一方面x86架構(gòu)能夠提供更具性?xún)r(jià)比的解決方案,能夠適應(yīng)和滿(mǎn)足新浪微博推出初期未能帶來(lái)盈利的問(wèn)題,并支撐微博的持續(xù)發(fā)展和業(yè)務(wù)擴(kuò)充;另一方面,開(kāi)放性架構(gòu)有助于新浪微博推廣和開(kāi)放API,讓更多第三方依托微博平臺(tái)開(kāi)發(fā)出微博數(shù)據(jù)挖掘等應(yīng)用。其開(kāi)放性也體現(xiàn)在可以更好的兼容并支持微博程序代碼的優(yōu)化,滿(mǎn)足更高的資源整合和性能要求。