7月24日,以“芯動(dòng)大數(shù)據(jù),智領(lǐng)大機(jī)遇”為主題的英特爾大數(shù)據(jù)論壇在北京舉行。中國(guó)聯(lián)通研究院副院長(zhǎng)黃文良先生在大會(huì)上介紹了聯(lián)通應(yīng)用英特爾Hadoop發(fā)行版和基于英特爾至強(qiáng)處理器平臺(tái)的服務(wù)器應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的真實(shí)案例。
伴隨著智能手機(jī)的普及,廣大用戶利用手機(jī)上網(wǎng)和社交越來越頻繁,這由此也帶來了一個(gè)新的挑戰(zhàn):用戶想清清楚楚了解自己的上網(wǎng)流量究竟用在了哪里?在這種狀況下,聯(lián)通從去年開始部署針對(duì)移動(dòng)互聯(lián)網(wǎng)用戶的上網(wǎng)記錄。和其他運(yùn)營(yíng)商以省為單位不同,聯(lián)通是在全國(guó)部署了一套上網(wǎng)記錄查閱系統(tǒng),用戶可以通過網(wǎng)上營(yíng)業(yè)廳查閱自己的上網(wǎng)記錄。
而事實(shí)上,即使是簡(jiǎn)單地訪問一個(gè)新浪首頁(yè),上網(wǎng)記錄查閱系統(tǒng)就會(huì)產(chǎn)生20多條記錄,這樣每天產(chǎn)生的數(shù)據(jù)簡(jiǎn)直是天量。此前聯(lián)通曾經(jīng)試圖用甲骨文數(shù)據(jù)庫(kù)來解決該問題,但發(fā)現(xiàn)關(guān)系型數(shù)據(jù)庫(kù)到百億條時(shí)就無能為力了,一次查詢可能幾個(gè)小時(shí)都出不來結(jié)果。
“聯(lián)通的海量數(shù)據(jù)用傳統(tǒng)的方式已經(jīng)很難解決。為此我們和英特爾合作引入了Hadoop技術(shù)來解決問題。”黃文良說。
目前,聯(lián)通Hadoop系統(tǒng)部署在北京,各省的數(shù)據(jù)每5分鐘生成一個(gè)文件往北京傳輸。采用Hadoop技術(shù)后用戶上網(wǎng)記錄檢索速度上能達(dá)到秒級(jí),用戶輸入中國(guó)聯(lián)通任何一個(gè)城市的號(hào)碼,其上網(wǎng)記錄只需一兩秒就可以檢索出來。
黃文良告訴DOIT記者,聯(lián)通Hadoop系統(tǒng)的后臺(tái)是178臺(tái)基于英特爾至強(qiáng)5600處理器的兩路刀片服務(wù)器,每臺(tái)服務(wù)器配備了14TB存儲(chǔ)容量。此外,系統(tǒng)還有3臺(tái)NameNode節(jié)點(diǎn)服務(wù)器、入庫(kù)服務(wù)節(jié)點(diǎn)服務(wù)器24臺(tái)、Zookeeper節(jié)點(diǎn)服務(wù)器7臺(tái)、集群監(jiān)控節(jié)點(diǎn)1臺(tái)和Web查詢應(yīng)用服務(wù)節(jié)點(diǎn)20臺(tái)。這些也都是IA架構(gòu)的x86服務(wù)器。
“我們也試過用Hadoop的開源版本,但是確實(shí)在性能上不如英特爾的Hadoo發(fā)行版,無論是監(jiān)控能力還是穩(wěn)定性都有很大區(qū)別。最終我們?nèi)娌捎昧擞⑻貭柕腍adoop發(fā)行版。”黃文良介紹說。
目前,市場(chǎng)上除了Hadoop外還有其它的大數(shù)據(jù)解決方案,黃文良認(rèn)為,聯(lián)通選擇時(shí)重點(diǎn)考慮了產(chǎn)品的可持續(xù)發(fā)展性。
Hadoop因?yàn)橛杏⑻貭柕鹊闹С郑a(chǎn)業(yè)生態(tài)鏈軟件完善,是值得信賴的方案。此外,聯(lián)通還選擇大公司作為應(yīng)用的風(fēng)向標(biāo),目前Facebook等全球知名企業(yè)都選用了Hadoop,他們的成功經(jīng)驗(yàn)也給聯(lián)通增強(qiáng)了信心。
黃文良透露,上網(wǎng)記錄查詢只是聯(lián)通大數(shù)據(jù)平臺(tái)的一部分,未來如何在大數(shù)據(jù)中掘“金”,聯(lián)通已經(jīng)有了一整套的規(guī)劃。目前,聯(lián)通大數(shù)據(jù)解決方案的技術(shù)原型已經(jīng)完成,而到今年10月,整個(gè)系統(tǒng)會(huì)全部實(shí)施完成,屆時(shí)聯(lián)通將會(huì)給客戶和廣大用戶提供更多的大數(shù)據(jù)服務(wù)。