(一)“分析”和“算法”
在互聯(lián)網(wǎng)中,“分析”和“算法”,分得非常開,對(duì)應(yīng)著“數(shù)據(jù)分析師”和“算法工程師”兩種角色。前者更多側(cè)重?cái)?shù)據(jù)提取、加工、處理、運(yùn)用成熟的算法包,開發(fā)模型,探索數(shù)據(jù)中的模式和規(guī)律。后者更多的是,自己寫算法代碼,通過C或python部署到生產(chǎn)系統(tǒng),實(shí)時(shí)運(yùn)算和應(yīng)用。
在銀行領(lǐng)域,基本上,只能看到第一種角色。數(shù)據(jù)基本上來源于倉(cāng)庫(kù)系統(tǒng),然后運(yùn)用SQL、SAS、R,提取、加工、建模和分析。
(二)數(shù)據(jù)類型
數(shù)據(jù)類型,主要包括“結(jié)構(gòu)化”和“非結(jié)構(gòu)化”兩類數(shù)據(jù)。前者就是傳統(tǒng)的二維表結(jié)構(gòu)。一行一條記錄,一列一個(gè)變量。后者包括文本、圖像、音頻、視頻等。
銀行里面的數(shù)據(jù),更多的是結(jié)構(gòu)化數(shù)據(jù),也有少量的非結(jié)構(gòu)化數(shù)據(jù)(投訴文本、貸款審批文本等)。業(yè)務(wù)部門對(duì)非結(jié)構(gòu)化數(shù)據(jù)的分析需求比較少。因此,在非結(jié)構(gòu)化數(shù)據(jù)的分析建模方面,稍顯不足。
互聯(lián)網(wǎng),更多的是網(wǎng)絡(luò)日志數(shù)據(jù),以文本等非結(jié)構(gòu)化數(shù)據(jù)為主,然后通過一定的工具將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù),進(jìn)一步加工和分析。