3 數(shù)據(jù)類型選擇
數(shù)據(jù)類型分為連續(xù)型和離散型,建模分析時需要確定數(shù)據(jù)類型。進行業(yè)務收入趨勢分析、銷售額預測分析、RFM分析時,一般采用連續(xù)型變量。信用評級、分類預測時一般采用離散變量。
4 缺失值處理
數(shù)據(jù)分析過程中會面對很多缺失值,其產(chǎn)生原因不同,有的是由于隱私的原因,故意隱去。有的是變量本身就沒有數(shù)值,有的是數(shù)據(jù)合并時不當操作產(chǎn)生的數(shù)據(jù)缺失。
缺失值處理可以采用替代法(估值法),利用已知經(jīng)驗值代替缺失值,維持缺失值不變和刪除缺失值等方法。具體方法將參考變量和自變量的關系以及樣本量的多少來決定。
5 異常值檢測和處理
異常值對于某些數(shù)據(jù)分析結果影響很大,例如聚類分析、線性回歸(邏輯回歸)。但是對決策樹、神經(jīng)網(wǎng)絡、SVM支持向量機影響較小。
一般異常值是指明顯偏離觀測值的平均值,例如年齡為200歲,平均收入為10萬元時,有個異常值為300萬元。第一個異常值為無效異常值,需要刪掉,但是第二個異常值可能屬于有效異常值,可以根據(jù)經(jīng)驗來決定是否保留或刪掉。
6 數(shù)據(jù)標準化
數(shù)據(jù)標準化的目的是將不同性質(zhì)、不同量級的數(shù)據(jù)進行指數(shù)化處理,調(diào)整到可以類比的范圍。例如在建立邏輯回歸模型時,性別的取值是0或以,但是收入取值可能就是0-100萬,跨度較大,需要進行標準化。
一般可以采用最佳/最大標準化(Min-Max 標準化法)將數(shù)值定在0和1之間,便于計算。Z分數(shù)法和小數(shù)定標標準化法也可以采用。
7 數(shù)據(jù)粗分類(Categorization)處理
歸類和分類的目的是減少樣本的變量,常有的方法由等間距分類,等頻數(shù)分類??梢砸罁?jù)經(jīng)驗將自變量分成幾類,分類的方法可以不同,建議采用卡方檢驗來決定采用哪種分類方法。連續(xù)型變量可以用WOE變化方法來簡化模型,但降低了模型的可解釋性。
8 變量選擇
數(shù)據(jù)分析過程中會面對成百上千的變量,一般情況下只有少數(shù)變量同目標變量有關,有助于提高預測精度。通常建模分析時,有意義的變量不會超過10-15個,稱他們?yōu)閺娤嚓P變量(聰明變量)??梢岳米兞窟^濾器的方法來選擇變量。常見的變量過濾器應用場景如下。
一般IV值大于0.3代表變量的預測力較強,可以采用。
三 數(shù)據(jù)分析過程 向業(yè)務部門進行調(diào)研,了解業(yè)務需要解決的問題,將業(yè)務問題映射成數(shù)據(jù)分析工作和任務 調(diào)研企業(yè)內(nèi)外部數(shù)據(jù),找到分析需要的數(shù)據(jù),將數(shù)據(jù)匯聚到一個特定的區(qū)域,數(shù)據(jù)集市或數(shù)據(jù)倉庫,探索性分析 數(shù)據(jù)清洗,包括檢查數(shù)據(jù)的一致性,處理異常值和缺失值,刪除重復數(shù)據(jù)等 數(shù)據(jù)轉(zhuǎn)換,例如數(shù)據(jù)分箱(Binning),將字符型變量轉(zhuǎn)化為數(shù)字型變量,按照數(shù)據(jù)所需維度進行匯總 建立模型,按照業(yè)務需求建立不同模型(例如客戶流失預警、欺詐檢測、購物籃分析、營銷響應等) 模型結果解釋和評估,業(yè)務專家進行業(yè)務解釋和結果評價 四 大數(shù)據(jù)分析場景和模型應用
數(shù)據(jù)分析建模需要先明確業(yè)務需求,然后選擇是描述型分析還是預測型分析。如果分析的目的是描述客戶行為模式,就采用描述型數(shù)據(jù)分析,描述型分析就考慮關聯(lián)規(guī)則、序列規(guī)則、聚類等模型。
預測型數(shù)據(jù)分析就是量化未來一段時間內(nèi),某個事件的發(fā)生概率。有兩大預測分析模型,分類預測和回歸預測。常見的分類預測模型中,目標變量通常都是二元分類變量例如欺詐與否,流失與否,信用好壞等?;貧w預測模型中,目標變量通常都是連續(xù)型變量,常見的有股票價格預測、違約損失率預測(LGD)等。
生存分析聚焦于將事件的結果和出現(xiàn)這一結果所經(jīng)歷的時間進行分析,源于醫(yī)療領域,研究患者治療后的存活時間。生存分析可也可以用于預測客戶流失時間,客戶下次購買時間,客戶違約時間,客戶提前償還貸款時間,客戶下次訪問網(wǎng)站時間等。
常見的數(shù)據(jù)分析應用場景如下:
1 市場營銷
營銷響應分析建模(邏輯回歸,決策樹) 凈提升度分析建模(關聯(lián)規(guī)則) 客戶保有分析建模(卡普蘭梅爾分析,神經(jīng)網(wǎng)絡) 購物藍分析(關聯(lián)分析Apriori) 自動推薦系統(tǒng)(協(xié)同過濾推薦,基于內(nèi)容推薦,基于人口統(tǒng)計推薦,基于知識推薦,組合推薦,關聯(lián)規(guī)則) 客戶細分(聚類) 流失預測(邏輯回歸)