在銀行做了兩年的數(shù)據(jù)分析和挖掘工作,較少接觸互聯(lián)網(wǎng)的應(yīng)用場景,因此,一直都在思考一個問題,“互聯(lián)網(wǎng)和金融,在數(shù)據(jù)挖掘上,究竟存在什么樣的區(qū)別”。在對這個問題的摸索和理解過程中,發(fā)現(xiàn)數(shù)據(jù)挖掘本身包含很多層次。并且模型本身也是存在傳統(tǒng)和時髦之分的。本文就想聊聊這些話題。
一、數(shù)據(jù)挖掘的層次
一直想整理下對數(shù)據(jù)挖掘不同層次的理解,這也是這兩年多的時間里面,和很多金融領(lǐng)域、互聯(lián)網(wǎng)做數(shù)據(jù)相關(guān)工作的小伙伴,聊天交流的一些整理和歸納。大概可以分為四類。
(一)純粹的數(shù)據(jù)加工
側(cè)重于變量加工和預(yù)處理,從源系統(tǒng)或數(shù)據(jù)倉庫,對相關(guān)數(shù)據(jù)進行提取、加工、衍生處理,生成各種業(yè)務(wù)表。然后,以客戶號為主鍵,把這些業(yè)務(wù)表整合匯總,最終可以拉出一張大寬表,這張寬表就可以稱之為“客戶畫像”。即,有關(guān)客戶的很多變量和特征的集合。
在這個階段,主要的數(shù)據(jù)加工工具為SQL和SAS base。
(二)傻瓜式的挖掘工具
較為典型的就是SAS EM和clementine,里面嵌入很多較為傳統(tǒng)成熟的算法、模塊和節(jié)點(例如邏輯回歸、決策樹、SVM、神經(jīng)網(wǎng)絡(luò)、KNN、聚類等)。通過鼠標的托拉拽,流程式的節(jié)點,基本上就可以實現(xiàn)你挖掘數(shù)據(jù)的需求。