什么是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘要解決什么問題?大家都知道數(shù)據(jù)挖掘最花時間就是在變量清洗上,如何清洗變量?如何將挖掘成果很好的展示給用戶?這些問題也許通過下面這些問答你可以找到自己的答案。

1.如何定位挖掘目標?
答:數(shù)據(jù)挖掘的目的是為了解決所提出的業(yè)務(wù)問題,因此,只要把所要解決的業(yè)務(wù)問題加以清晰化,應(yīng)該不難將之轉(zhuǎn)化為相應(yīng)的挖掘目標。
2.確定目標后如何選擇算法?
答:確立了數(shù)據(jù)挖掘的目標,就可以基本上明確需要建立什么樣的數(shù)據(jù)挖掘模型了。不同的模型,使用的挖掘算法不同,客戶分群常用聚類分析(最常用的是K- means),分類預(yù)測模型(如客戶流失、客戶響應(yīng),欺詐檢測)則使用決策樹、Logistic回歸以及神經(jīng)網(wǎng)絡(luò)等算法,關(guān)聯(lián)分析(如交叉銷售)一般使用 經(jīng)典的Apriori算法。另外,數(shù)據(jù)本身對挖掘算法的選用有一定的影響,例如K-means算法就對異常值很敏感。
3.算法選擇后如何確定變量?
答:我個人認為,變量的選取,特別是衍生變量,需要一定的業(yè)務(wù)知識,以及對挖掘問題的一個準確的把握。
通常我們研究分析的對象都是客戶(或手機號、帳號),所獲得的數(shù)據(jù)大體上有客戶基本屬性、客戶行為數(shù)據(jù)、客戶交易數(shù)據(jù)等等。一般都需要根據(jù)這些數(shù)據(jù)衍生出 新的變量,以支持建模。創(chuàng)建衍生變量,通常依據(jù)業(yè)務(wù)實際情況以及經(jīng)驗判斷。目前,使用較廣的一種衍生變量的方法是RFM分析。
在建模之前所確定的變量,并不一定是模型最終用來訓(xùn)練的變量,也就是說,并不一定是對模型顯著的變量??梢圆扇∫恍┓椒▌h除一些不顯著的變量,例如變量聚 類、主成分分析、相關(guān)性分析等。當然,也可能會手動刪除變量,如看到缺失值占大部分或只有一個值的變量,就可刪除該變量。
4.變量確定后如何對挖掘結(jié)果進行展示?也就是如何讓客戶理解挖掘的結(jié)果?
答:在建模之后很重要的一步就是結(jié)果解釋,也就是說,需要將模型結(jié)果翻譯成讓業(yè)務(wù)人員明白的結(jié)果。就SAS軟件來說,不同模型得到的模型結(jié)果一般不同,就Logistic回歸模型來說,模型結(jié)果包括:模型參數(shù),以及ROC等幾種評估曲線對應(yīng)原始寬表,得到新的數(shù)據(jù)表,其中包含目標變量的預(yù)測值。就聚類模型來說,模型結(jié)果包括:
模型參數(shù)分成幾類,各類的特征,以及相應(yīng)的可視化結(jié)果對應(yīng)原始寬表,得到新的數(shù)據(jù)表,其中包含模型得出的類標號
5.采樣的目的是什么,如何進行模型的數(shù)據(jù)采樣?
答:當可用的數(shù)據(jù)量非常龐大時,模型訓(xùn)練的效率就會降低,甚至機器崩潰。這時,抽取有代表性的樣本來建模是很有必要的。
一般是根據(jù)目標變量值的情況來選擇,通常使用隨機抽樣。當然也有系統(tǒng)抽樣、欠抽樣、過抽樣等等。
例如,在不均衡分類模型(如客戶流失),一般所感興趣的目標變量值(即為1,流失)僅占總體的5%左右,這時,可采取過抽樣的方法來抽取樣本,抽樣之后, 值為0的個數(shù)與值為1的個數(shù)之比為1:1,這樣就均衡了,建模效果會好一些。當然,一般抽取總體的多少來做樣本進行建模,不同行業(yè)可能有不同的標準,更多 的還是依據(jù)過往經(jīng)驗來決定。
6.采樣是否是為了得到變量值(連續(xù)變量、分類變量)?
答:抽樣是為了提高建模效率,并不是為了得到變量值。
7.什么是模型訓(xùn)練?模型訓(xùn)練的結(jié)果是否就是得到變量值?
答:在建模過程中,通常采取交叉驗證的方法,將數(shù)據(jù)挖掘?qū)挶聿鸱殖蓛蓚€(或三個)部分,一個是用來擬合初步的模型,稱為訓(xùn)練集,另一個是用來驗證模型的準 確性,也可用來調(diào)整模型;還可以分為三部分,除前面兩個數(shù)據(jù)集之外,還有一個測試集,它是針對模型的錯誤率的,可以用來得到最終的無偏估計。
一般分為兩部分。
所謂模型訓(xùn)練,就是使用訓(xùn)練集的數(shù)據(jù)來擬合得到一個初步的模型,但這個模型并未經(jīng)過驗證評估。
模型訓(xùn)練的結(jié)果,準確來說,是一個模型,一些模型規(guī)則。
更多詳細信息,請您微信關(guān)注“計算網(wǎng)”公眾號: