中國IDC圈4月28日報道,互聯(lián)網(wǎng)的發(fā)展使得大數(shù)據(jù)引起人們廣泛關(guān)注?,F(xiàn)如今大數(shù)據(jù)技術(shù)早已滲透到金融、通訊等行業(yè)以及生物學、物理學等領(lǐng)域。大數(shù)據(jù)在容量、多樣性和高增速方面的爆炸式增長全面考驗著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力,與此同時也為各個行業(yè)帶來了準確洞察市場行為的機會。迄今為止大數(shù)據(jù)技術(shù)與產(chǎn)品有哪些創(chuàng)新,工業(yè)大數(shù)據(jù)應(yīng)用面臨哪些挑戰(zhàn),金融行業(yè)大數(shù)據(jù)應(yīng)用現(xiàn)狀如何等。圍繞這一系列問題,4月27日至28日,由工業(yè)和信息化部指導、中國信息通信研究院主辦的"2016大數(shù)據(jù)產(chǎn)業(yè)峰會"在北京國際會議中心盛大召開。28日上午大數(shù)據(jù)推動金融創(chuàng)新分論壇中國工商銀行軟件開發(fā)中心信息科技專家王曉平做了主題演講。
中國工商銀行軟件開發(fā)中心信息科技專家王曉平
以下是王曉平演講實錄:
王曉平:謝謝李司,聽了建行同事的發(fā)言我比較受啟發(fā)。接下來我介紹一下工商銀行在大數(shù)據(jù)方面的建設(shè)情況。大數(shù)據(jù)的時代已經(jīng)到來了,數(shù)據(jù)的增長像通訊技術(shù)一樣,有個摩爾定律,增長非???。在互聯(lián)網(wǎng)時代,大家很多行為、很多交易都是通過網(wǎng)上進行,很多多媒體和音頻技術(shù)也在發(fā)展,造成數(shù)據(jù)的存儲量有非常大幅的增長。根據(jù)統(tǒng)計,數(shù)據(jù)量每兩年會翻一番。
工行面臨的大數(shù)據(jù)的挑戰(zhàn),首先是外部環(huán)境造成的全行的數(shù)據(jù)量的快速增長,包括我們現(xiàn)在工行每天的交易量,外部互聯(lián)網(wǎng)金融,工行的三大互聯(lián)網(wǎng)平臺造成用戶的交易數(shù)據(jù)和行為數(shù)據(jù)有大幅的增長。如何處理大幅數(shù)據(jù)量的增長對我們提出了挑戰(zhàn)。工行從2000年開始建立數(shù)據(jù)倉庫以來,擁有了龐大的歷史數(shù)據(jù)資產(chǎn),在新的環(huán)境下怎么能夠快速地智能分析,對我們提出了更高的挑戰(zhàn)。在數(shù)據(jù)源方面,現(xiàn)在隨著互聯(lián)網(wǎng)金融的發(fā)展,各行各業(yè)已經(jīng)不單單是局限在本單位自己擁有的數(shù)據(jù),更多的還是需要采納外部的數(shù)據(jù)來配合我們進行相關(guān)的分析。工行已經(jīng)引入了征信數(shù)據(jù)、稅務(wù)數(shù)據(jù)等各方面的數(shù)據(jù),怎么做到比較全的數(shù)據(jù)去描繪我行的客戶特征,這是作為我們的一個新的課題。
工行整個的戰(zhàn)略思路是通過我們行的兩庫一司的建設(shè)來完善大數(shù)據(jù)體系。兩庫是信息庫和數(shù)據(jù)倉庫,數(shù)據(jù)倉庫在工行的建設(shè)和銀行的建設(shè)中都是比較傳統(tǒng)的,主要是應(yīng)對我們之前的銀行交易數(shù)據(jù)、賬戶數(shù)據(jù),采用結(jié)構(gòu)化的數(shù)據(jù)存儲來進行相關(guān)的處理。前兩年的時候工行啟動了信息庫的建設(shè),隨著互聯(lián)網(wǎng)金融,隨著新媒體的發(fā)展,大量的音頻、網(wǎng)頁、文本相關(guān)數(shù)據(jù)的發(fā)展,我們覺得需要將非結(jié)構(gòu)的數(shù)據(jù)進行統(tǒng)一的管理和快速的檢索,所以我們提出了建立信息庫的概念。通過兩庫的建設(shè),我們需要一支分析師隊伍,能夠?qū)@些龐大的數(shù)據(jù)進行相關(guān)業(yè)務(wù)的加工處理和分析,所以我們在全行上下建立了分析師機制,從二級分行到總行都有專業(yè)的分析人員,會針對我行的結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)進行加工和分析。
工行大數(shù)據(jù)的發(fā)展歷程可以分幾個階段,從TB級已經(jīng)進入了PB級的建設(shè)階段,接下去在可預見的幾年內(nèi)會進入EB級的龐大體量。最早工行是2000年初,那個時候大數(shù)據(jù)的領(lǐng)域更多的還是應(yīng)用在一些報表的快速展現(xiàn),所以那個時候我們是基于比較傳統(tǒng)的Oracle和SaaS,做了T+1的動態(tài)報表,行領(lǐng)導和管理層能夠在第二天上班前看到我們行昨天的經(jīng)營數(shù)據(jù),這是最早建立的。同時我們基于SaaS平臺進行數(shù)據(jù)倉庫的探索工作,但是當時只是基于特定的主題,基于SaaS做一些探索。2007年工行基于當時最先進的企業(yè)級的數(shù)據(jù)倉庫的體系架構(gòu)啟動了工行的企業(yè)級數(shù)據(jù)體系的建設(shè),做了全行統(tǒng)一的管理數(shù)據(jù)的大集中。2010年基于我們的數(shù)據(jù)倉庫的數(shù)據(jù)支持,我們推出了工行的MOVA管理會計系統(tǒng),做了全行績效考核的管理系統(tǒng)。2013年隨著外部形勢的發(fā)展,大量數(shù)據(jù)爆發(fā)式的出現(xiàn),我們引進了大數(shù)據(jù)領(lǐng)域在業(yè)界最流行的Hadoop技術(shù),在Hadoop基礎(chǔ)上搭建了信息庫,發(fā)展是非常快的。2014年工行基于大數(shù)據(jù),原來的大數(shù)據(jù)采用連機異部批量的方式,通過文件存儲的方式,不管是數(shù)據(jù)倉庫還是信息庫,在時效上相對來說比較慢,所以自主研發(fā)了一個流數(shù)據(jù)平臺,能夠提供實時或者準實時的流數(shù)據(jù)處理。2015年下半年和今年正在推動分布式數(shù)據(jù)庫的落地工作,會和企業(yè)級數(shù)據(jù)倉庫做一個互補。這是大數(shù)據(jù)的主要技術(shù)演進。