中國(guó)IDC圈4月28日?qǐng)?bào)道,互聯(lián)網(wǎng)的發(fā)展使得大數(shù)據(jù)引起人們廣泛關(guān)注。現(xiàn)如今大數(shù)據(jù)技術(shù)早已滲透到金融、通訊等行業(yè)以及生物學(xué)、物理學(xué)等領(lǐng)域。大數(shù)據(jù)在容量、多樣性和高增速方面的爆炸式增長(zhǎng)全面考驗(yàn)著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力,與此同時(shí)也為各個(gè)行業(yè)帶來(lái)了準(zhǔn)確洞察市場(chǎng)行為的機(jī)會(huì)。迄今為止大數(shù)據(jù)技術(shù)與產(chǎn)品有哪些創(chuàng)新,工業(yè)大數(shù)據(jù)應(yīng)用面臨哪些挑戰(zhàn),金融行業(yè)大數(shù)據(jù)應(yīng)用現(xiàn)狀如何等。圍繞這一系列問(wèn)題,4月27日至28日,由工業(yè)和信息化部指導(dǎo)、中國(guó)信息通信研究院主辦的"2016大數(shù)據(jù)產(chǎn)業(yè)峰會(huì)"在北京國(guó)際會(huì)議中心盛大召開(kāi)。28日上午大數(shù)據(jù)推動(dòng)金融創(chuàng)新分論壇中國(guó)農(nóng)業(yè)銀行軟件開(kāi)發(fā)中心的專家趙維平凱做了主題演講。
中國(guó)農(nóng)業(yè)銀行軟件開(kāi)發(fā)中心的專家趙維平
以下是趙維平演講實(shí)錄:
趙維平:首先感謝主辦方能選擇這么時(shí)尚的話題,同時(shí)也感謝主辦方能在一上午的時(shí)間把工農(nóng)中建都搞到一起來(lái),分享大數(shù)據(jù)的話題,大數(shù)據(jù)建設(shè)和運(yùn)用,各金融領(lǐng)域有共性,只是大家在實(shí)現(xiàn)模式上略有差異而已,大家對(duì)業(yè)務(wù)的支撐有很多是共性的。我今天跟大家分享的是農(nóng)業(yè)銀行在自主可控上做的一點(diǎn)工作,大家再走這條路的時(shí)候能有所借鑒,少走彎路,為你們的順利實(shí)施提供一點(diǎn)點(diǎn)可借鑒的東西,那我今天就沒(méi)有白講。
金融大數(shù)據(jù)的應(yīng)用場(chǎng)景,工行和建行都講過(guò),隨著互聯(lián)網(wǎng)+時(shí)代的到來(lái),這些年數(shù)據(jù)的膨脹呈指數(shù)增長(zhǎng),分兩類,一類是結(jié)構(gòu)化數(shù)據(jù),這部分增長(zhǎng)基本可控,隨著業(yè)務(wù)的增長(zhǎng)是一個(gè)線性關(guān)系。而對(duì)非結(jié)構(gòu)化數(shù)據(jù),尤其語(yǔ)音、圖像,優(yōu)酷上的視頻,一天產(chǎn)生的視頻可能一輩子都看不完?,F(xiàn)在應(yīng)用潛力巨大,精準(zhǔn)營(yíng)銷、風(fēng)險(xiǎn)控制、運(yùn)營(yíng)等等都對(duì)各業(yè)務(wù),對(duì)大數(shù)據(jù)的應(yīng)用提出更高的要求。深層次講,現(xiàn)在隨著大數(shù)據(jù)時(shí)代到來(lái),我們處理大數(shù)據(jù)的技術(shù)手段和成本的下降都提供了對(duì)大數(shù)據(jù)的可能,不管是MPP還是Hadoop都是最近幾年來(lái)風(fēng)起云涌的,在技術(shù)上也是成長(zhǎng)最快的一部分。應(yīng)用的領(lǐng)域,大家基本相似,不細(xì)說(shuō)了。
我們?cè)?003年初開(kāi)始搞大數(shù)據(jù),當(dāng)時(shí)有很多困惑,首先感覺(jué)到大數(shù)據(jù)到來(lái)了,現(xiàn)在各個(gè)行業(yè),中央臺(tái)什么東西都用大數(shù)據(jù)說(shuō)話,我們?cè)阢y行業(yè)我們能做什么呢?早期在十幾年前我們大家做數(shù)據(jù)倉(cāng)庫(kù)的時(shí)候,大家可能選擇面都很窄,四大行除了我們沒(méi)用TD其他都是用TD做的數(shù)據(jù)倉(cāng)庫(kù)。我們當(dāng)時(shí)用SbaseIQ(音)也很痛苦,計(jì)算資源可以擴(kuò),但I(xiàn)O能力就在那里。當(dāng)時(shí)覺(jué)得列存儲(chǔ)帶來(lái)很大的優(yōu)勢(shì),處理通用的數(shù)據(jù)量減少了很多IO。平臺(tái)選用什么?還用傳統(tǒng)的嗎?新型的怎么樣?金融在有些技術(shù)的選擇上還是相對(duì)比較保守的,我們不會(huì)用最新的技術(shù),不會(huì)用最新的版本,這也因?yàn)榻鹑诠の蛧?guó)家人民銀行對(duì)于我們的連續(xù)服務(wù)要求特別高,一旦出了事情領(lǐng)導(dǎo)交不了差。大數(shù)據(jù)在哪些領(lǐng)域能優(yōu)先創(chuàng)造價(jià)值?你做了那么多大數(shù)據(jù),領(lǐng)導(dǎo)說(shuō)你能給我?guī)?lái)什么,不管你用什么技術(shù)積攢了多少數(shù)據(jù),采用什么樣的管控機(jī)制保證數(shù)據(jù)安全,另外又用什么運(yùn)維保證機(jī)制保證業(yè)務(wù)的連續(xù)性。
農(nóng)業(yè)銀行對(duì)大數(shù)據(jù)的預(yù)言2003年就開(kāi)始了,2004年的行長(zhǎng)會(huì)上就明確了農(nóng)業(yè)銀行的大數(shù)據(jù)建設(shè)。我們?cè)诮ㄔO(shè)過(guò)程中,這20字就是我們工作的出發(fā)點(diǎn),夯實(shí)基礎(chǔ)、拓展服務(wù)、提升應(yīng)用、深入挖掘、推動(dòng)治理。目標(biāo)是促進(jìn)全行的業(yè)務(wù)創(chuàng)新、管理創(chuàng)新、營(yíng)銷創(chuàng)新和服務(wù)創(chuàng)新。我們實(shí)施的路徑基本就是統(tǒng)籌規(guī)劃、頂層設(shè)計(jì)、共享復(fù)用、分步實(shí)施。
自主可控方面,我們從幾方面,硬件方面采用華為的RH2288系列,2C、docore、256內(nèi)存、12 4T硬盤(pán),不同時(shí)期買的硬盤(pán)的容量是不一樣的,后來(lái)是4T,之前是3T?;A(chǔ)軟件方面我們引進(jìn)了國(guó)產(chǎn)的南大通用做的MPP架構(gòu)數(shù)據(jù)庫(kù),我們?cè)谠卧囘\(yùn)行階段從2013年圓形環(huán)境開(kāi)始投產(chǎn),采用28個(gè)數(shù)據(jù)節(jié)點(diǎn),2014年3月份把它擴(kuò)到56個(gè)節(jié)點(diǎn)。非結(jié)構(gòu)化,結(jié)構(gòu)化的數(shù)據(jù)上游生產(chǎn)數(shù)據(jù)基本都是放在MPV架構(gòu)數(shù)據(jù)庫(kù)里,使用起來(lái)技術(shù)上更流暢,效率更好。Hadoop方面,非結(jié)構(gòu)方面目前使用的是CDH開(kāi)源版,大概有100個(gè)左右的Datanode。數(shù)據(jù)模型方面我們結(jié)合先進(jìn)的建模理論,我們?nèi)诤狭朔妒胶途S度的思路。我們?cè)谥鲙?kù)核心層面基本是范式建模減少重復(fù)。維度方面由業(yè)務(wù)驅(qū)動(dòng)的方式建立維度模型為主。自主可控在基礎(chǔ)的工具上,大家知道有ETL、批量調(diào)度、源數(shù)據(jù)的管理,這些東西都是我們自主開(kāi)發(fā)的。我們制定了一套比較完備的規(guī)范、制度、方法、標(biāo)準(zhǔn)。