數(shù)據(jù)交換的合規(guī)性。客戶在使用互聯(lián)網(wǎng)服務(wù)期的行為信息、購物記錄、健康信息等數(shù)據(jù)理應(yīng)屬于隱私數(shù)據(jù),客戶在注冊期間簽署的網(wǎng)絡(luò)服務(wù)協(xié)議是否能夠有效支持互聯(lián)網(wǎng)企業(yè)采集、商用并交換,尚屬法律空白。因此,商業(yè)銀行在引進(jìn)外部數(shù)據(jù)之前,應(yīng)首先做好合規(guī)工作。
可見,對于商業(yè)銀行而言,合規(guī)合理地引入外部數(shù)據(jù),有助于提升自身數(shù)據(jù)的多樣性、細(xì)化數(shù)據(jù)粒度,并可通過數(shù)據(jù)交換提升自身大數(shù)據(jù)體系的兼容性與可用性。但是也應(yīng)充分認(rèn)識到,商業(yè)銀行多年積累的業(yè)務(wù)數(shù)據(jù)的價值還遠(yuǎn)未完全發(fā)揮,尚待深鉆、分析和應(yīng)用,應(yīng)將基于內(nèi)部數(shù)據(jù)的分析應(yīng)用作為當(dāng)前自建大數(shù)據(jù)能力的核心;與此同時,也要及時開展預(yù)研預(yù)估,做好外部數(shù)據(jù)交換的合規(guī)準(zhǔn)備工作,為“內(nèi)外兼修”的大數(shù)據(jù)平臺建設(shè)做好準(zhǔn)備。
大數(shù)據(jù)是否等同于非結(jié)構(gòu)化數(shù)據(jù)?
“非結(jié)構(gòu)化數(shù)據(jù)”是在大數(shù)據(jù)的“4V”定義中作為數(shù)據(jù)多樣性的一個典型例子而被提出的,因此受到了普遍關(guān)注,在眾多關(guān)于大數(shù)據(jù)的文獻(xiàn)中,“非結(jié)構(gòu)化數(shù)據(jù)”也占據(jù)著比較重要的地位。那么,商業(yè)銀行是否也應(yīng)將“非結(jié)構(gòu)化數(shù)據(jù)”的處理作為現(xiàn)階段自建大數(shù)據(jù)體系的重點?
對于這一問題,要結(jié)合“非結(jié)構(gòu)化數(shù)據(jù)”的特性進(jìn)行分析。非結(jié)構(gòu)化數(shù)據(jù)的本質(zhì)特性是所包含信息的豐富、復(fù)雜程度遠(yuǎn)遠(yuǎn)高于結(jié)構(gòu)化數(shù)據(jù)。典型的“非結(jié)構(gòu)化數(shù)據(jù)”包括文本、音樂、語音、圖像、視頻等類型的數(shù)據(jù),這些數(shù)據(jù)所包含的信息極其豐富,不能使用數(shù)據(jù)表進(jìn)行無損耗轉(zhuǎn)化。因此,非結(jié)構(gòu)化數(shù)據(jù)無法使用數(shù)據(jù)表或者類似的結(jié)構(gòu)化的方式進(jìn)行無損轉(zhuǎn)化,所以只能以數(shù)據(jù)包、文件集的方式進(jìn)行存儲,也無法使用與結(jié)構(gòu)化數(shù)據(jù)相同的數(shù)據(jù)分析方法進(jìn)行統(tǒng)計、分析、建模,往往需要通過專門設(shè)計的預(yù)處理算法將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。這就增加了數(shù)據(jù)管理和分析的難度,也提高了對數(shù)據(jù)存儲、計算資源的需求。對于非結(jié)構(gòu)化數(shù)據(jù)的分析,至今仍是學(xué)術(shù)界的研究熱點,在學(xué)術(shù)領(lǐng)域尚屬“進(jìn)行時”,在商用領(lǐng)域的應(yīng)用則更是鳳毛麟角。
可見,現(xiàn)階段自建大數(shù)據(jù)體系,對于非結(jié)構(gòu)化數(shù)據(jù)應(yīng)按照“量體裁衣”的原則,根據(jù)自身IT架構(gòu)的存儲、計算資源和技術(shù)人員投入分步實施。對于資源緊張的商業(yè)銀行,可采取“存儲—外購預(yù)處理模塊—自行研發(fā)”三步走的路徑積累非結(jié)構(gòu)化數(shù)據(jù)的分析能力;對于資源較豐富的商業(yè)銀行,則可按照“預(yù)研一批、實用一批、儲備一批”的策略,采用“外購預(yù)處理模塊+產(chǎn)學(xué)研合作+自行研發(fā)”的方式進(jìn)行嘗試,緊跟技術(shù)前沿,適時引入成熟的非結(jié)構(gòu)化處理技術(shù)(例如語音識別技術(shù)、基于詞頻統(tǒng)計的自然語音理解技術(shù)等),但也應(yīng)注意資源配比,不應(yīng)將非結(jié)構(gòu)化數(shù)據(jù)作為現(xiàn)階段自建大數(shù)據(jù)體系的重點。
大數(shù)據(jù)等同于數(shù)據(jù)倉庫嗎?
如前所述,商業(yè)銀行是否具備大數(shù)據(jù)能力,應(yīng)依據(jù)數(shù)據(jù)及數(shù)據(jù)分析系統(tǒng)所發(fā)揮的具體效用來判斷。以“顯著提升數(shù)據(jù)分析和商業(yè)決策的效率”,“顯著提高對客戶的理解與認(rèn)知能力”,“低成本、批量地實現(xiàn)較高水準(zhǔn)的個性化客戶服務(wù)”三條標(biāo)準(zhǔn)來衡量,目前商業(yè)銀行數(shù)據(jù)倉庫建設(shè)還需在以下幾個方面加以強(qiáng)化。
建設(shè)異構(gòu)的數(shù)據(jù)倉庫平臺。多年來,商業(yè)銀行的數(shù)據(jù)倉庫以存儲業(yè)務(wù)、交易數(shù)據(jù)為主,因此采購了存儲成本較高的專業(yè)數(shù)據(jù)倉庫服務(wù),數(shù)據(jù)在進(jìn)入倉庫之前的ETL規(guī)則相對比較嚴(yán)格,并采用了“時間換空間”的策略進(jìn)行主題拆分以節(jié)約存儲空間,這就導(dǎo)致在執(zhí)行諸如交易鏈恢復(fù)、交易場景還原等分析任務(wù)時消耗較高的計算資源,降低整體的分析效率。與用戶行為數(shù)據(jù)緊密相關(guān)的日志數(shù)據(jù),具有典型的“數(shù)據(jù)量大、頻度高但價值密度低”的特點,可針對這一需求,搭建低成本的PC集群、內(nèi)存數(shù)據(jù)庫等,與既有的數(shù)據(jù)倉庫融合起來,構(gòu)成對數(shù)據(jù)源和分析端透明的異構(gòu)數(shù)據(jù)倉庫,提高其響應(yīng)速度和處理能力。
搭建業(yè)務(wù)指標(biāo)提取邏輯的共享平臺。目前商業(yè)銀行基礎(chǔ)數(shù)據(jù)的標(biāo)準(zhǔn)化工作已經(jīng)取得了長足的進(jìn)展,但在實際應(yīng)用中,尚存在“業(yè)務(wù)邏輯信息孤島”現(xiàn)象(即由于缺乏一個共享平臺,而造成不同的分析師之間無法互通業(yè)務(wù)指標(biāo)的提取邏輯,每個分析師、每個數(shù)據(jù)分析部門就形成了一座座孤島)。這一現(xiàn)象不僅造成業(yè)務(wù)指標(biāo)“多態(tài)”問題,也誘發(fā)了數(shù)據(jù)倉庫訪問請求的重復(fù)提交,影響數(shù)據(jù)分析的效率和準(zhǔn)確性,因此需盡快搭建權(quán)限控制合理的業(yè)務(wù)指標(biāo)提取邏輯分享平臺,解決“業(yè)務(wù)邏輯信息孤島”問題。