2014中關(guān)村大數(shù)據(jù)日于2014年12月11日在中關(guān)村舉辦,大會以大會以“聚合數(shù)據(jù)資產(chǎn),推動產(chǎn)業(yè)創(chuàng)新”為主題,探討數(shù)據(jù)資產(chǎn)管理和變現(xiàn)、大數(shù)據(jù)深度技術(shù)以及行業(yè)大數(shù)據(jù)應(yīng)用創(chuàng)新和生態(tài)系統(tǒng)建設(shè)等等關(guān)鍵問題。大會還承載從政亞信府主管部門到各行各業(yè)的需求和實踐中的疑問,探討包括政府、金融、運營商等部門是如何通過數(shù)據(jù)資產(chǎn)管理和運營,實現(xiàn)轉(zhuǎn)型發(fā)展和產(chǎn)業(yè)創(chuàng)新的路徑。
在下午的運營商@Big Data論壇上,中國聯(lián)通信息化和電子商務(wù)事業(yè)部數(shù)據(jù)中心副總經(jīng)理范濟安做主題演講。范濟安經(jīng)理介紹了聯(lián)通在大數(shù)據(jù)方面的發(fā)展情況,以及在2015年的發(fā)展規(guī)劃。
范濟安:謝謝楊總的介紹,各位領(lǐng)導(dǎo),各位嘉賓大家好。今天受邀請我準(zhǔn)備在下面的時間給大家介紹一下聯(lián)通公司,尤其是從集團公司的角度來看在大數(shù)據(jù)方面的發(fā)展的情況,及我們在2015年的規(guī)劃。
回首2014年,從走過的角度來看我們做了哪些具體的工作。首先一點我們可以說在這之前,在聯(lián)通整個集團有總分公司研究院都有大數(shù)據(jù)研究,但是從大數(shù)據(jù)中心角度,2014年我們實現(xiàn)了零的突破,尤其是在這個基礎(chǔ)設(shè)施的層面,我們今年年初的時候建立最初的28個節(jié)點的平臺,到現(xiàn)在400多個節(jié)點正在生產(chǎn)運營當(dāng)中的大數(shù)據(jù)平臺,及正在部署中早1200個節(jié)點規(guī)模的平臺。這個規(guī)模在全國的企業(yè)當(dāng)中應(yīng)該算是比較重要的這么一個平臺。同時我們在原有的BIM,以傳統(tǒng)的甲骨文數(shù)據(jù)倉庫架構(gòu)的基礎(chǔ)上,同時也部署了MPP數(shù)據(jù)庫,加上剛才我所說的HADOOP數(shù)據(jù)庫,在這個混搭的架構(gòu)下關(guān)鍵一點實現(xiàn)了一體化,通過工具對三個不同的平臺進行了一體化的運營,也進行了不同的數(shù)據(jù)源的分配。
同時在2014年,我們在數(shù)據(jù)采集方面也做出了下列的工作。與其說在這之前我們的數(shù)據(jù)系統(tǒng)主要以BI為主,以地域基肥系統(tǒng)PIM和我們ERP系統(tǒng)為主的話,2014年我們首先把網(wǎng)絡(luò)采集的用戶的上網(wǎng)數(shù)據(jù)同步到了我們數(shù)據(jù)中心。這從大數(shù)據(jù)應(yīng)用角度來看,是一個重要的突破。因為我們可以把網(wǎng)絡(luò)測的數(shù)據(jù)和地域的數(shù)據(jù)進行整合,發(fā)揮更大的數(shù)據(jù)價值。這是一個乘法效應(yīng),不單單是一個簡單的數(shù)據(jù)的累積。
另外一點大家可能也知道聯(lián)通公司極力主推集中化IT建設(shè),我們除了IT系統(tǒng)以外,正在建設(shè)計費系統(tǒng),在這個系統(tǒng)上我們采集了全國31省的所有原始話單,包括全網(wǎng)2G3G4G移動網(wǎng)和寬帶原有業(yè)務(wù)的原始話單。
最后剛才講到我們準(zhǔn)備的計費系統(tǒng),第一期我們叫4.0使用,聚集了3G寬帶用戶的遷移正在當(dāng)中。這個4G集中系統(tǒng)產(chǎn)生的這些新的詳單位,客戶的基礎(chǔ)信息,訂購產(chǎn)品訂購關(guān)系等等新的數(shù)據(jù),最給我們帶來一個大的改變是什么呢?原來采集的數(shù)據(jù)量是往總部整理,現(xiàn)在新的系統(tǒng)建立我們系統(tǒng)流向正是從上往下。除去平臺的建設(shè)和數(shù)據(jù)的采集,我們通過這一年也在數(shù)據(jù)挖掘?qū)用鎸W(xué)到了許多的東西。因為在傳統(tǒng)的BI領(lǐng)域我們做的工作報表主要是報表生成的工作和數(shù)據(jù)分析的工作。通過剛剛我談到的一些新的數(shù)據(jù)和新的采集,學(xué)會了我們怎樣使用大數(shù)據(jù)挖掘工具。我們的起步實際上是通過一個簡單的項目,我們叫做365輔導(dǎo)計劃,是我們市場部推出的一個對3G新用戶使用流量的這樣一個輔導(dǎo)計劃,在它的第一周和第一個月第幾個月的關(guān)鍵時間點的時候,把用戶的喜好通過畫像描繪出來以后,為市場部能夠依據(jù)這些數(shù)據(jù)來確定最好的輔導(dǎo)用戶使用流量的計劃,然后把這些計劃推送給用戶,這是我們這個初試牛刀的第一個項目,這是我們今年年初的時候建立的。通過這個項目我們逐漸學(xué)會對原始數(shù)據(jù)進行簡單的加工,到后來對這些數(shù)據(jù)內(nèi)容,尤其是用戶上網(wǎng)記錄URL等解析工作,在這個基礎(chǔ)上我們目前已經(jīng)沉淀了在我們知識庫當(dāng)中近一個億網(wǎng)址的內(nèi)容記錄,解析了5000個移動APP,及為1.3億的移動用戶進行了標(biāo)簽化界定。
除去原始數(shù)據(jù)的加工,上網(wǎng)數(shù)據(jù)的解析,我們也利用挖掘工具緊密地與業(yè)務(wù)部門需求進行結(jié)合,作出了不同客戶的管理系統(tǒng)分析模型。這里面比如說用戶識別模型,用戶評價模型,終端適配,創(chuàng)卡,以及養(yǎng)卡用戶等等九大類模型,有效地支撐了聯(lián)通公司的銷售的轉(zhuǎn)型。為什么我說這個轉(zhuǎn)型呢?因為我想跟其他的友商的情況一樣,今年年初開始聯(lián)通公司由增量公司專項了增量和存量并向的方向,就是要依據(jù)大數(shù)據(jù)來做好準(zhǔn)確有效地用戶維系的工作,主要地依據(jù)就是通過這些模型來實現(xiàn)。
剛才我已經(jīng)談到了公司某些業(yè)務(wù)的轉(zhuǎn)型。在這一年當(dāng)中通過我剛剛講到的模型數(shù)據(jù)采集,以及數(shù)據(jù)不同的加工,我們通過應(yīng)用有效地支撐了公司業(yè)務(wù)轉(zhuǎn)型及創(chuàng)新。這里舉幾個例子,比如說移動轉(zhuǎn)售,大家都知道這是2014年第一大新聞,我們現(xiàn)在可以保證通過整個數(shù)據(jù)平臺對數(shù)據(jù)的采集、處理等等,保證在30分鐘,甚至好象是15分鐘之內(nèi),把移動虛擬運營商需要的數(shù)據(jù)推送給他們。
在今年7月份世界杯的時候,我們也利用剛才我們的平臺能力,及數(shù)據(jù)的加工能力,作出了一個世界杯容量營銷的一個有效地活動??蛻艟S系剛剛我談到了,通過剛剛建模。互聯(lián)網(wǎng)金融也是一個很熱門的話題,大家如果關(guān)注最近的媒體的話,可能也知道招行和聯(lián)通成立了一家合資公司,叫做招聯(lián)公司,它的目的準(zhǔn)備在今年年底之前推出互聯(lián)網(wǎng)金融業(yè)務(wù),在這個背后實際上就是把聯(lián)通的數(shù)據(jù)與招行在風(fēng)控模型上的支持結(jié)合在一起,開發(fā)出一款針對互聯(lián)網(wǎng)金融有效地風(fēng)險評估模型。現(xiàn)在我們正在積極地建設(shè)這個平臺,和模型的開發(fā)。
大數(shù)據(jù)的一項應(yīng)用是對外開放與合作伙伴,除去對應(yīng)用內(nèi)之外,我們還在逐漸摸索在金融界,廣告界,以及行業(yè)應(yīng)用方面怎樣能夠把我們的數(shù)據(jù)價值有效地發(fā)揮出來。我們找到的一條路就是通過建立一個開放的數(shù)據(jù)挖掘平臺,在這個上面聯(lián)通可以提供數(shù)據(jù),提供存儲能力,計算能力,然后邀請第三方的合作伙伴,在這個上面進行數(shù)據(jù)挖掘工作,可以共享這些開發(fā)的成果。銀聯(lián)智慧是另外一種合作方式,主要也是在征信領(lǐng)域,這是一個在線的一種數(shù)據(jù)的用戶身份識別和他的信任度的這么一個查詢的業(yè)務(wù),也是在聯(lián)通和銀聯(lián)智慧雙方合作的項目,也會在年底之前推出來。
其他的行業(yè)應(yīng)用,剛才我說到比如說我們?yōu)閲医y(tǒng)計局做了人口流動的分析報告,汽車行業(yè)指數(shù)報告等等,上述都是一些對內(nèi)和對外的典型的大數(shù)據(jù)應(yīng)用。
通過這個歸納總結(jié)上述的幾項工作,我們發(fā)現(xiàn)可以歸納為三個主要的層面。最下面是基礎(chǔ)設(shè)施層,我們在這里充分地利用了互聯(lián)網(wǎng)的典型架構(gòu),分布式,X86,云計算,在中型充分地建立我們的平臺能力,剛才談到的新數(shù)據(jù)的采集的方式,數(shù)據(jù)的加工,挖掘能力的提高。第三層的價值層或者應(yīng)用層,就是開發(fā)、推廣以價值為導(dǎo)向的應(yīng)用服務(wù)。
這三層架構(gòu)也完全符合聯(lián)通總體的信息化三層架構(gòu),聯(lián)通總體的信息化總體架構(gòu)也分成最底層的IAAS,中層的PAAS,還有SAAS層。IAAS層是跨界的,PAAS針對地域的以及其他類的應(yīng)用,上層的應(yīng)用就會搭建在這些PAAS平臺之上,所以可以看到標(biāo)紅的部分是我們數(shù)據(jù)域發(fā)展的典型架構(gòu),與總體的架構(gòu)完全相符。除去大數(shù)據(jù)之外,我在聯(lián)通同時也負(fù)責(zé)云計算的發(fā)展,所以我在這里說一下我們在大數(shù)據(jù)與云計算整體發(fā)展的思路。第一個就是說在大數(shù)據(jù)平臺的建設(shè)方面,我們要遵循互聯(lián)網(wǎng)云計算這種思維,做到能力開放,靈活支撐,安全服務(wù)。怎樣才能有效地把這兩個領(lǐng)域結(jié)合在一起?第一點,在我們推進聯(lián)通私有云,尤其是IAAS云平臺管理的同時,我們把所有大數(shù)據(jù)的硬件資源納入到這個云管理平臺之下,使我們的私有云管理平臺一開始就具有一定的規(guī)模。
第二個怎樣來推進使用我們的云平臺?在這方面我們看到很多的內(nèi)部的業(yè)務(wù)部門,外部的合作伙伴,經(jīng)常來向我們索要這樣和那樣的數(shù)據(jù),與其說像現(xiàn)在這樣提供簡單的數(shù)據(jù)服務(wù),我們希望能夠在未來,或者在未來的幾個月當(dāng)中,能夠把數(shù)據(jù)服務(wù)于云平臺結(jié)合在一起,就像剛才我講的那樣可以為用戶提供不光光是數(shù)據(jù),同時也可以把計算能力,存儲能力,挖掘工具,同時推給地方。這樣逐漸地培養(yǎng)起一個聯(lián)通私有云的用戶群。
最后一點就是在PAAS層,剛才我講到三種不同的PAAS云,但是我忽略了在PAAS云底下的公共服務(wù),數(shù)據(jù)的PAAS服務(wù)肯定是跨域的,所以我們跟其他的跨域的架構(gòu)師們一起討論怎么樣把關(guān)系數(shù)據(jù)庫,內(nèi)存數(shù)據(jù)庫,分布式文件系統(tǒng)等等沉淀在這個PASS層作為公共的服務(wù)級。所以簡單來說通過上面幾點我們希望能夠把云計算的發(fā)展和大數(shù)據(jù)的發(fā)展有效地結(jié)合在一起。
剛才我講的主要是回顧一下2014年聯(lián)通集團公司在大數(shù)據(jù)建設(shè)方面的一些總結(jié)。下面我通過幾個PPT給大家介紹一下我們在2015年我們都規(guī)劃了哪些主要的工作。首先是平臺的建設(shè)。在剛才我講到的1200個節(jié)點之上,我們希望在2015年進一步地增強總部大數(shù)據(jù)平臺的數(shù)據(jù)覆蓋范圍和數(shù)據(jù)支撐能力,進一步實現(xiàn)全集團數(shù)據(jù)一集采集,一點加工轉(zhuǎn)換,一點數(shù)據(jù)提供和一點服務(wù)支撐,這是聯(lián)通管理層給我們數(shù)據(jù)中心定的責(zé)任。同時我們搭起適用多種的數(shù)據(jù)架構(gòu),有ERP平臺,有HADOOP平臺,為上層提供高效靈活的數(shù)據(jù)支撐能力,怎么樣具體體現(xiàn)擴大數(shù)據(jù)支撐的范圍和能力?剛剛我們采集到的數(shù)據(jù)之外,我們已經(jīng)開始啟動了對客服類數(shù)據(jù),典型的非結(jié)構(gòu)化數(shù)據(jù),尤其是客服語音的數(shù)據(jù)采集比如說是固網(wǎng)寬帶用戶上網(wǎng)的記錄,來補充剛才我所談到的移動用戶上網(wǎng)記錄的數(shù)據(jù)。
網(wǎng)絡(luò)側(cè)的稀有數(shù)據(jù),尤其是PS數(shù)據(jù)在無線口的數(shù)據(jù)信息及軌道信息。同時我們準(zhǔn)備在三大類不同的平臺下面建設(shè)一層數(shù)據(jù)采集交換的這樣一個樞紐,可以便于我們把這類新采集的數(shù)據(jù)源指向這樣或那樣的數(shù)據(jù)集成平臺。
今天我們已經(jīng)有200個節(jié)點的MPB數(shù)據(jù)集群,我們也在數(shù)據(jù)采集當(dāng)中遇到這樣那樣的數(shù)據(jù)問題,所以在新的一年我們準(zhǔn)備構(gòu)建擴容MPB集群,并對它進行優(yōu)化,尤其是在穩(wěn)定方面。同時我們還要提升數(shù)據(jù)管理平臺的能力,這一點尤其是針對聯(lián)通的省份公司。剛才我談到在地域當(dāng)中,聯(lián)通是主張集中化建設(shè),在數(shù)據(jù)域我們現(xiàn)在也在考慮,因為在省分公司的層面主要是銷售,客服等等,數(shù)據(jù)就會下沉,推進第一線。未來數(shù)據(jù)系統(tǒng)是怎么樣建設(shè)?現(xiàn)在我們也在跟省分公司進行探討,不同的大的省份公司對我們原數(shù)據(jù)工作在邏輯上形成一體化的應(yīng)用,對小的分公司他們可能會直接掛在總部大數(shù)據(jù)開放平臺上進行他們本地化應(yīng)用的開發(fā)。
最后一點也是剛才我談到的,構(gòu)建大數(shù)據(jù)能力開放平臺,要通過大數(shù)據(jù)能力開放平臺促進我們與外部合作伙伴的合作,為大數(shù)據(jù)應(yīng)用創(chuàng)造更大的價值。
這張圖可能看起來有點復(fù)雜,它代表著現(xiàn)在我們大數(shù)據(jù)平臺的現(xiàn)狀以及基礎(chǔ)架構(gòu)。最底層是我們的采集層,數(shù)據(jù)源,中層的平臺層是剛才我談到的MPB,DW和HADOOP的數(shù)據(jù)平臺,再上面是服務(wù)層,再這上面是我們現(xiàn)在已經(jīng)開發(fā)的應(yīng)用。
第二張圖可能更復(fù)雜了,標(biāo)紅的部分是我們準(zhǔn)備在2015年建設(shè)的項目的內(nèi)容。比如說我們會在第一期的HADOOP平臺以批量處理,以HBAS,HAP為主,在第二期我們就會把SPK,STHIN,處理流,數(shù)據(jù)學(xué)習(xí)HADOOP等等逐漸引進,另外著重在上面建立能力開放平臺。
光說平臺建設(shè)還不夠,必須要談到應(yīng)用,因為大數(shù)據(jù)的價值要通過應(yīng)用才能夠體現(xiàn)。在2015年的規(guī)劃當(dāng)中我們也規(guī)劃了對內(nèi)與對外的應(yīng)用,對內(nèi)我們主要由四大類的應(yīng)用,客戶維系平臺,這是一個自然的發(fā)展的結(jié)果。剛才我談到了在2014年我們?yōu)榭头?shù)據(jù)中心建立了不同的數(shù)據(jù)模型,這個模型的結(jié)果通過不同的方式提供給客戶,他們需要一個平臺一個工具來把這些數(shù)據(jù)進行關(guān)聯(lián),再進行細(xì)化,才能夠最后得出維系的真正策略,推送的最佳渠道,以及回收的效用結(jié)果。這個就是我們在2015年準(zhǔn)備建設(shè)的這樣一個輔助平臺。
智能語音分析,剛才我在采集當(dāng)中也提到了對我們的客服電話10010的數(shù)據(jù)語音進行采集,采集之后我們也準(zhǔn)備把它做成一個典型的大數(shù)據(jù)應(yīng)用。這個應(yīng)用在技術(shù)上也有一定的挑戰(zhàn)性,因為這就需要我們把這個語音轉(zhuǎn)成文本,再進行語音分析,在這個分析之上再作出應(yīng)用。第三項就是支撐我們集中的ERP,因為很多ERP報表都是在GRP預(yù)測,尤其是自助報表的功能遷移到混搭的大數(shù)據(jù)集團。還有就是我們成立了聯(lián)通公司全國的4G運營中心,這個新的運營中心剛才我也談到幫助支撐公司新的轉(zhuǎn)型,也包括各種轉(zhuǎn)型及監(jiān)測手段來有效地對于全國做到4G運營的監(jiān)控工作。
在對外應(yīng)用,行業(yè)應(yīng)用,互聯(lián)網(wǎng)金融,汽車,酒店,商圈,電商,這是目前為止我們已經(jīng)找到,已經(jīng)建立了初步的業(yè)務(wù)關(guān)系的一些合作領(lǐng)域。另外我們還要大力推廣大數(shù)據(jù)能力開放平臺,準(zhǔn)備嘗試讓第三方合作伙伴有展現(xiàn)自己能力的機會。最后對于數(shù)據(jù)開放這也是熱門的話題,我們是積極抱著參加大數(shù)據(jù)活動的態(tài)度,共同地與同行探索數(shù)據(jù)開放之路,推進數(shù)據(jù)法律法規(guī)的完善。
下面是一些細(xì)節(jié),對存量經(jīng)營,應(yīng)用的一些細(xì)節(jié),我也就不一一講了,我不知道這個材料會不會提供給大家,比如說存量經(jīng)營當(dāng)中怎樣通過數(shù)據(jù)采集、加工為用戶畫像,然后再這個維系平臺上根據(jù)營銷活動的分客戶群進行二次達(dá)標(biāo),推給渠道,最后形成用戶環(huán)節(jié)的辦理。另外一個是語音分析,需要非結(jié)構(gòu)化的語音文件,轉(zhuǎn)換為大數(shù)據(jù)平臺的能力,做語音識別,對數(shù)據(jù)進行建模,然后對客服的電子化進行根源分析、確認(rèn)等等。
在這個方面我們已經(jīng)啟動了十個省份的試點工程,這個智能語音分析的工具的使用者主要是總部的客服中心,與省份的客服中心是一個兩級使用單位。這次試點工程涉及的十個省份在這里也列出了,它代表了聯(lián)通大概占全國的總的通話量的50%以上。我的介紹就到此為止,通過這個第一個是給大家回顧一下2014年我們在大數(shù)據(jù)建設(shè)方面所做的工作。第二個就是為大家介紹一下我們在2015年規(guī)劃的一些項目,從應(yīng)用層面和平臺層面,謝謝大家。