這是我們整體的邏輯架構(gòu)圖,左側(cè)是數(shù)據(jù)源層,上游的生產(chǎn)系統(tǒng),幾乎全行所有的生產(chǎn)系統(tǒng)的數(shù)據(jù)到今年底已經(jīng)全部進(jìn)來(lái)了,金融交易類(lèi)百分之百都進(jìn)來(lái)了,現(xiàn)在有60多個(gè)上游系統(tǒng),通過(guò)一個(gè)交換平臺(tái),交換平臺(tái)不僅僅為大數(shù)據(jù)服務(wù),負(fù)責(zé)上游生產(chǎn)和下游數(shù)據(jù)消費(fèi)系統(tǒng)總分行之間、總行各應(yīng)用系統(tǒng)間數(shù)據(jù)交互的平臺(tái)。第二,數(shù)據(jù)處理層,淡黃色指關(guān)系型的數(shù)據(jù)庫(kù),也就是MPP架構(gòu)數(shù)據(jù)庫(kù)。操作數(shù)據(jù)區(qū)、非結(jié)構(gòu)化數(shù)據(jù)區(qū)、歷史數(shù)據(jù)平臺(tái)、流計(jì)算,流計(jì)算用Hadoop Stam架構(gòu)。下面是Hadoop的東西。我們?cè)谡麄€(gè)大數(shù)據(jù)平臺(tái)的結(jié)構(gòu)化主庫(kù)里分了基礎(chǔ)數(shù)據(jù)庫(kù)、共性加工區(qū)和指標(biāo)區(qū),非結(jié)構(gòu)化有操作數(shù)據(jù)區(qū)、非結(jié)構(gòu)化處理和歷史數(shù)據(jù)平臺(tái)。影像那部分早期已經(jīng)建好了,為了減少網(wǎng)絡(luò)壓力基本上存在分行。
跟傳統(tǒng)不一樣的是大數(shù)據(jù)平臺(tái)的日加工時(shí)間目前在七八個(gè)小時(shí),早期批量一個(gè)是優(yōu)化不到位,一個(gè)是處理的分層,所以用了Hadoop把ETL和操作數(shù)據(jù)區(qū)都放在Hadoop里,因?yàn)榭梢怨?jié)點(diǎn)多、計(jì)算能力強(qiáng),完成了ET的過(guò)程,上游來(lái)的全量數(shù)據(jù)在這里做了歸類(lèi),生成了一個(gè)純層量的數(shù)據(jù),減少了一天的批量時(shí)間幾個(gè)小時(shí),提升33%的性能。數(shù)據(jù)集市層,現(xiàn)在規(guī)劃8個(gè)數(shù)據(jù)集市,跟其他行沒(méi)有太多區(qū)別,客戶營(yíng)銷(xiāo)、風(fēng)險(xiǎn)管控、外部監(jiān)管,對(duì)分行服務(wù)的集市,各行服務(wù)的對(duì)象都是一樣的。底下研了數(shù)據(jù)提取平臺(tái),外部監(jiān)管和數(shù)據(jù)提取任務(wù)特別重,早期都得到生產(chǎn)去導(dǎo)帶生成,現(xiàn)在我們通過(guò)單獨(dú)建一個(gè)環(huán)境,把一些數(shù)據(jù)預(yù)加工好,基本以寬表的模式,以前做加法的事情變成了做減法,至少80%的提出需求都在我的環(huán)境里直接提取,大大減輕了人力。底下是分析挖掘平臺(tái),ODM、SaaS都是農(nóng)行已有的云,大數(shù)據(jù)只是它的用戶而已,我們?cè)贖adoop分裝了應(yīng)用,為全行的分期挖掘提供服務(wù)支撐。
對(duì)上層應(yīng)用的服務(wù)有直接訪問(wèn),數(shù)據(jù)文件和外部服務(wù)和數(shù)據(jù)快速?gòu)?fù)制等技術(shù)和應(yīng)用進(jìn)行連接。應(yīng)用主要是對(duì)資產(chǎn)負(fù)債領(lǐng)域、電子銀行領(lǐng)域、信用卡和個(gè)人金融領(lǐng)域、風(fēng)險(xiǎn)和財(cái)務(wù)提供了一些支撐,大數(shù)據(jù)平臺(tái)和集市,我們建成了4個(gè)集市,有3個(gè)集市在建的過(guò)程中,今年分行下半年要搞分行集市的試點(diǎn)。應(yīng)用,我們提供統(tǒng)一的數(shù)據(jù)展示和服務(wù)。展示服務(wù)一個(gè)是對(duì)所有全行業(yè)的用戶,對(duì)所有行業(yè)監(jiān)管的各種報(bào)送,因?yàn)楦鞣N報(bào)送比較零亂,點(diǎn)也比較多,趨向不同部署也不一樣,底層做了統(tǒng)一調(diào)度、統(tǒng)一監(jiān)控和ETL,對(duì)全行描述類(lèi)數(shù)據(jù)進(jìn)行了統(tǒng)一管理,包括我們的數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量管理都在這里統(tǒng)一進(jìn)行。
這是硬件的環(huán)境,在Gbase而方面,56是生產(chǎn)環(huán)境,現(xiàn)在實(shí)現(xiàn)了56環(huán)境的雙活,這兩個(gè)56環(huán)境同時(shí)在工作,一個(gè)做T+1當(dāng)天的數(shù)據(jù)加工,一個(gè)做隔一天的連級(jí)服務(wù),這樣的話連級(jí)服務(wù)的能力,按實(shí)側(cè)的話會(huì)比以前做TD的測(cè)試中更強(qiáng)一點(diǎn),另外個(gè)人客戶集市、資產(chǎn)負(fù)債集市,還做了數(shù)據(jù)挖掘?qū)哟?,Gbase集成了WODM和SaaS。Hadoop的生產(chǎn)環(huán)境是92個(gè)datanode和2個(gè)namenode。我們現(xiàn)在Gbase有236個(gè)節(jié)點(diǎn),庫(kù)內(nèi)主副本的整個(gè)容量有5.2PB數(shù)據(jù),Hadoop的集群是150個(gè)節(jié)點(diǎn),容量是4.3PB。
56+8是56個(gè)數(shù)據(jù)計(jì)算環(huán)境,8個(gè)是加載機(jī),56個(gè)環(huán)境每個(gè)節(jié)點(diǎn)是12塊3T的硬盤(pán),有2塊做Read1,是存放操作系統(tǒng)和重要的參數(shù)信息和數(shù)據(jù)庫(kù)環(huán)境,其他10個(gè)環(huán)境是Read5來(lái)存放數(shù)據(jù),一個(gè)節(jié)點(diǎn)存放有效數(shù)據(jù)10幾個(gè)T,56的環(huán)境里有效數(shù)據(jù)將近300個(gè)T,Gbase有5到10的壓縮比,各個(gè)字段可以選擇壓縮去,300個(gè)TB的數(shù)據(jù)換算成倉(cāng)外的文本量,就算簡(jiǎn)單乘以300T也是1.5PB以上,現(xiàn)在折算成1.8PB左右,是PB級(jí)的。我們跟Gbase從這個(gè)時(shí)候開(kāi)始合作,我們?cè)诎朔矫娓麄児餐隽艘恍﹥?yōu)化工作,跟Gbase做了大量?jī)?yōu)化,有近百個(gè)優(yōu)化的細(xì)項(xiàng)。MPP數(shù)據(jù)庫(kù),我們搭建了雙活機(jī)制,兩個(gè)庫(kù)之間的同步加驗(yàn)證現(xiàn)在每天大概是22TB的數(shù)據(jù),僅需要3小時(shí)。早期在給主庫(kù)做備份的時(shí)候,100TB的數(shù)據(jù)有小40個(gè)小時(shí),后來(lái)我們用了Hadoop做備份,100TB用了不到10小時(shí),大家用TB備份一直是比較難的事情,在Hadoop方面我們做了大量基礎(chǔ)性的工作,非結(jié)構(gòu)化的數(shù)據(jù)、文件的服務(wù)、數(shù)據(jù)的備份等等。
我們做了MPP和Hadoop的交互,有些應(yīng)用要交互,我們做了非結(jié)構(gòu)化MPP和HDFS之間的融合。后來(lái)啟用了MPP和Hadoop之間的備份,大大提高了效率,300T也需要將近20個(gè)小時(shí),所以我們做了雙活,如果雙活穩(wěn)定的話我們就不用備份數(shù)據(jù)了。開(kāi)發(fā)的基礎(chǔ)工具包括ETL工具、批量調(diào)度、整個(gè)的監(jiān)控和統(tǒng)一訪問(wèn)層,監(jiān)控這塊我們還做了健康檢查,通過(guò)SaaS把半年的日志交過(guò)去,最后生成一些模型,給我預(yù)測(cè)整個(gè)系統(tǒng)運(yùn)行的安全狀況。數(shù)據(jù)混搭的模型設(shè)計(jì),我們有一套完整的方法論,能保證數(shù)據(jù)的準(zhǔn)確、穩(wěn)定、完整和可用。同時(shí)我們?cè)诜椒ㄕ?、開(kāi)發(fā)規(guī)范、數(shù)據(jù)規(guī)范和流程規(guī)范都積攢了一系列文檔。整個(gè)模型是分層的,操作數(shù)據(jù)區(qū)、基礎(chǔ)數(shù)據(jù)區(qū)、共性加工區(qū)、指標(biāo)層和集市層,完成了客戶的統(tǒng)一試圖、產(chǎn)品的統(tǒng)一管理和客戶的精準(zhǔn)營(yíng)銷(xiāo)和風(fēng)險(xiǎn)管控等等。