中國(guó)IDC圈4月28日?qǐng)?bào)道,互聯(lián)網(wǎng)的發(fā)展使得大數(shù)據(jù)引起人們廣泛關(guān)注?,F(xiàn)如今大數(shù)據(jù)技術(shù)早已滲透到金融、通訊等行業(yè)以及生物學(xué)、物理學(xué)等領(lǐng)域。大數(shù)據(jù)在容量、多樣性和高增速方面的爆炸式增長(zhǎng)全面考驗(yàn)著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力,與此同時(shí)也為各個(gè)行業(yè)帶來(lái)了準(zhǔn)確洞察市場(chǎng)行為的機(jī)會(huì)。迄今為止大數(shù)據(jù)技術(shù)與產(chǎn)品有哪些創(chuàng)新,工業(yè)大數(shù)據(jù)應(yīng)用面臨哪些挑戰(zhàn),金融行業(yè)大數(shù)據(jù)應(yīng)用現(xiàn)狀如何等。圍繞這一系列問(wèn)題,4月27日至28日,由工業(yè)和信息化部指導(dǎo)、中國(guó)信息通信研究院主辦的"2016大數(shù)據(jù)產(chǎn)業(yè)峰會(huì)"在北京國(guó)際會(huì)議中心盛大召開(kāi)。
其中,在4月28日上午“大數(shù)據(jù)與電信業(yè)轉(zhuǎn)型”分論壇上,中國(guó)移動(dòng)大數(shù)據(jù)系統(tǒng)總架構(gòu)設(shè)計(jì)師段云峰發(fā)表了主題為《中國(guó)移動(dòng)大數(shù)據(jù)系統(tǒng)架構(gòu)研究與實(shí)踐》的精彩演講。
中國(guó)移動(dòng)大數(shù)據(jù)系統(tǒng)總架構(gòu)設(shè)計(jì)師段云峰
以下為段云峰演講實(shí)錄:
段云峰:很高興有機(jī)會(huì)跟大家在這兒做一個(gè)大數(shù)據(jù)方面的交流,我的題目是大數(shù)據(jù)系統(tǒng)的架構(gòu)研究和實(shí)踐,更多是從技術(shù)角度做切入,我演講內(nèi)容是三塊,一個(gè)是中國(guó)移動(dòng)的演進(jìn)和研究,另外是大數(shù)據(jù)做的案例和幾個(gè)關(guān)鍵點(diǎn)。
這是整個(gè)電信行業(yè)大致的數(shù)據(jù)的情況,我們?cè)谧龃髷?shù)據(jù)的過(guò)程中,中國(guó)移動(dòng)的角度,2001年就開(kāi)始規(guī)劃了數(shù)據(jù)倉(cāng)庫(kù),在做數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程中,主要匯集的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),為什么現(xiàn)在冒出一個(gè)大數(shù)據(jù),我個(gè)人理解是非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)出來(lái)。2010年開(kāi)始中國(guó)移動(dòng)做了一些云計(jì)算方面新技術(shù)的研究部署,給大家做一個(gè)介紹,中間還有一個(gè)MPP,分布式數(shù)據(jù)庫(kù),主要是想降低成本,因?yàn)镸PP最大的好處是X86化,最大的優(yōu)點(diǎn)是SQ9200支持的。原來(lái)數(shù)據(jù)倉(cāng)庫(kù)的問(wèn)題是成本比較高,在Hadoop的架構(gòu)上,我們現(xiàn)在基本上把有關(guān)的技術(shù),Hadoop上組群技術(shù)都做了嘗試。大數(shù)據(jù)時(shí)代的技術(shù)一個(gè)是時(shí)時(shí)技術(shù),Hadoop技術(shù)和MPP技術(shù),我個(gè)人覺(jué)得MPP的技術(shù)將來(lái)的發(fā)展還會(huì)面臨一個(gè)角度,看它和數(shù)據(jù)倉(cāng)庫(kù)誰(shuí)能夠站住腳,這是整個(gè)大數(shù)據(jù)我們的基本架構(gòu)。
中國(guó)移動(dòng)在大數(shù)據(jù)方面是一個(gè)承載者,因?yàn)槲覀冸娦?,大家一提大?shù)據(jù)都想到互聯(lián)網(wǎng),但是所有互聯(lián)網(wǎng)數(shù)據(jù)都跑在電信的網(wǎng)絡(luò)上,電信網(wǎng)絡(luò)的數(shù)據(jù)的特點(diǎn),第一是全承載,第二是各個(gè)維度的,這是我們感受到的電信和互聯(lián)網(wǎng)相比的一些特點(diǎn),這是我們的一個(gè)架構(gòu),這個(gè)架構(gòu)是中國(guó)移動(dòng)的變化,2001年的時(shí)候做數(shù)據(jù)倉(cāng)庫(kù),當(dāng)年的目標(biāo)就是內(nèi)部服務(wù)沒(méi)有對(duì)外服務(wù)的定位,最早定位是做決策支持,但是我們做了兩年的時(shí)候發(fā)現(xiàn)不對(duì)勁,光做決策支持無(wú)法滿足公司各方面業(yè)務(wù)的發(fā)展需要,后來(lái)提出全員經(jīng)營(yíng)分析,希望把我們的應(yīng)用讓所有的移動(dòng)員工都能夠使用上,這是我們當(dāng)年的情況。從去年開(kāi)始,我們整個(gè)中國(guó)移動(dòng)進(jìn)行了大數(shù)據(jù)的建設(shè),這個(gè)建設(shè)的過(guò)程首先是拿到很多數(shù)據(jù),進(jìn)行有關(guān)的分發(fā),現(xiàn)在數(shù)據(jù)環(huán)境里包括傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)MPPHadoop和時(shí)時(shí)的計(jì)算的環(huán)境,左邊是數(shù)據(jù)治理,數(shù)據(jù)治理,2005年就開(kāi)始做,做的比較早,這是我們的一些慘痛的教訓(xùn),大數(shù)據(jù)做了兩年左右,數(shù)據(jù)質(zhì)量爆發(fā)期有些問(wèn)題會(huì)出現(xiàn),口徑問(wèn)題,數(shù)據(jù)的一致性問(wèn)題等等都會(huì)暴露出來(lái),這些有的是技術(shù)問(wèn)題有的是管理問(wèn)題?,F(xiàn)在互聯(lián)網(wǎng)行業(yè)這方面還怎么開(kāi)始介入。大的互聯(lián)網(wǎng)企業(yè)這些問(wèn)題開(kāi)始爆發(fā),這是要解決的問(wèn)題。
在上面怎么做服務(wù)和分享,包括我們做一些應(yīng)用的展現(xiàn),我們這次大數(shù)據(jù)的架構(gòu)里可能有一些新的點(diǎn),還在理念上,我們引入互聯(lián)網(wǎng)的思維和角度怎么做這個(gè)后面的演化,包括用戶是誰(shuí),大數(shù)據(jù)產(chǎn)品應(yīng)該長(zhǎng)什么樣,很多問(wèn)題需要大家考慮,我說(shuō)的用戶包括內(nèi)部客戶和外部客戶,大家關(guān)注的更多是外部客戶,從我們實(shí)踐15年的情況看,作為一個(gè)企業(yè)尤其是國(guó)企第一件事要解決的是對(duì)內(nèi)服務(wù),把數(shù)據(jù)保障準(zhǔn)確,讓所有人都能看到數(shù)據(jù)的價(jià)值,這是我們面臨的情況,這個(gè)結(jié)果特別復(fù)雜,這是混搭的狀態(tài)。
這是中國(guó)移動(dòng)的情況,數(shù)據(jù)資產(chǎn),省略號(hào)是意味著整個(gè)數(shù)據(jù)極其繁雜,中國(guó)移動(dòng)做了有意的嘗試把所有的系統(tǒng)做了整合和管理,數(shù)據(jù)大量的梳理工作都是體力活,但是我們不得不干,因?yàn)檎嬲龃髷?shù)據(jù)這些東西都要先梳理。我個(gè)人認(rèn)為很多事情是繞不過(guò)的數(shù)據(jù)整理建模都要做,我們看到互聯(lián)網(wǎng)在建模方面剛剛開(kāi)始。這是大數(shù)據(jù)應(yīng)用的架構(gòu),這個(gè)能看出中國(guó)移動(dòng)大數(shù)據(jù)做的一些工作,在全網(wǎng)有60個(gè)標(biāo)準(zhǔn)的應(yīng)用,在省里有上千個(gè)個(gè)性化應(yīng)用,現(xiàn)在業(yè)界看到的應(yīng)用和模型中國(guó)移動(dòng)都做了。包括當(dāng)年做數(shù)據(jù)倉(cāng)庫(kù),相關(guān)的工具中國(guó)移動(dòng)基本都用了,SaaS、PaaS,當(dāng)年數(shù)據(jù)挖掘類(lèi)的工具都做過(guò)嘗試,這些經(jīng)驗(yàn)可能是對(duì)業(yè)界很難得的經(jīng)驗(yàn),中國(guó)移動(dòng)是第一個(gè)吃螃蟹的,這個(gè)模型里做了很多數(shù)據(jù)挖掘的應(yīng)用,有一種展現(xiàn)形式就是標(biāo)簽,對(duì)外再做服務(wù),對(duì)外做服務(wù)的過(guò)程中中國(guó)移動(dòng)積累了大量的經(jīng)驗(yàn),五年前我們提出怎么做大數(shù)據(jù)產(chǎn)品概念,怎么和APP結(jié)合,等等這些相關(guān)的內(nèi)容。中國(guó)移動(dòng)最大的特點(diǎn),電信運(yùn)營(yíng)商最大的好處是所有大數(shù)據(jù)的匯集點(diǎn),我見(jiàn)到政府的官員說(shuō)的很實(shí)在,他說(shuō)現(xiàn)在雖然提大數(shù)據(jù),真正有大數(shù)據(jù)的也不多,互聯(lián)網(wǎng)也就是BAT,再就是電信,這是運(yùn)營(yíng)商的一個(gè)優(yōu)勢(shì),手里有大量數(shù)據(jù),這些數(shù)據(jù)將來(lái)對(duì)社會(huì)各個(gè)方面都能產(chǎn)生積極的影響。這是IaaS,大數(shù)據(jù)4S店,DaaS是數(shù)據(jù)對(duì)外開(kāi)放,PaaS是有關(guān)架構(gòu),中國(guó)移動(dòng)設(shè)備很龐雜,全網(wǎng)加起來(lái)一百多個(gè)Pb,有大量的計(jì)算資源,包括現(xiàn)在的Hadoop和原來(lái)的數(shù)據(jù)倉(cāng)庫(kù)的體系,數(shù)據(jù)集市里更多有這些工具,他這些分析的工具在原來(lái)是比較成熟的,現(xiàn)在在PaaS里需要自己重新建,中國(guó)移動(dòng)的這些能力都是將來(lái)的一個(gè)核心競(jìng)爭(zhēng)力,大家都有數(shù)據(jù),我們電信運(yùn)營(yíng)商這是我們的強(qiáng)項(xiàng)。計(jì)算能力是我們的競(jìng)爭(zhēng)優(yōu)勢(shì),因?yàn)槲覀儽容^成體系,不光是數(shù)據(jù)存儲(chǔ)處理和分析,都是有成體系的工具。