4.2創(chuàng)建一個(gè)平衡的樣本
在標(biāo)準(zhǔn)的統(tǒng)計(jì)分析中,一種常見的做法是拋棄離群點(diǎn)——遠(yuǎn)遠(yuǎn)超出正常范圍的觀測(cè)值。然而在數(shù)據(jù)挖掘的過程中,這些利群點(diǎn)可能正是你要找的?;蛟S他們帶有欺詐行為,可能是你的業(yè)務(wù)中的一些錯(cuò)誤,或一些利潤(rùn)驚人的市場(chǎng)商機(jī)。在這種情況下,我們不希望拋出離群點(diǎn),認(rèn)識(shí)和了解他們。
知識(shí)發(fā)現(xiàn)算法需通過實(shí)例來進(jìn)行學(xué)習(xí)。如果沒有足夠數(shù)量的關(guān)于某個(gè)特定類或行為模型的例子,數(shù)據(jù)挖掘工具無法得出一個(gè)預(yù)測(cè)該類或模式的模型。在這種情況下,利用罕見事件的例子豐富該模型集,提高建模中該事件的概率。如果比較罕見,有兩種方法可以平衡樣本:一、分層抽樣。二、權(quán)重。
例如:銀行要建立一個(gè)模型,以確定哪些客戶是私人銀行計(jì)劃的潛在客戶。這些計(jì)劃只針對(duì)非常富有的客戶,他們?cè)谝粋€(gè)相當(dāng)大的銀行客戶樣本中也是非常稀少的。如何構(gòu)建一個(gè)能發(fā)現(xiàn)這類用戶的模型,該模型集可能需要有50%的私人銀行的客戶,即使他們代表所有支票份額中還不到1%。另外私人銀行客戶可能被賦予一個(gè)值為1的權(quán)重,其他客戶的權(quán)重為0.01,所以浙西專有客戶的總權(quán)重等于其余客戶的總權(quán)重。通過增加一些孤立點(diǎn)客戶的權(quán)重,從而達(dá)到模型對(duì)數(shù)據(jù)的合理梳理。
4.3時(shí)間幀
基于一個(gè)時(shí)間段內(nèi)的數(shù)據(jù)建立模型會(huì)增加風(fēng)險(xiǎn),即學(xué)習(xí)的知識(shí)不真實(shí)。結(jié)合模型集中的多個(gè)時(shí)間幀可以消除季節(jié)性因素的影響。由于季節(jié)性影響如此重要,因此應(yīng)該把它們明確地添加到客戶簽名中。還有假日購(gòu)物模式也非常重要。把客戶的信息按照時(shí)間細(xì)分,或是在相應(yīng)的數(shù)據(jù)上打上標(biāo)簽。
4.4創(chuàng)建一個(gè)預(yù)測(cè)模型
當(dāng)模型集用來預(yù)測(cè)時(shí),另一個(gè)問題,模型集應(yīng)包含多長(zhǎng)時(shí)間,時(shí)間段該如何劃分。任何客戶標(biāo)簽在預(yù)測(cè)變量和目標(biāo)變量之間都應(yīng)該有一個(gè)時(shí)間差。時(shí)間可分為,過去、現(xiàn)在、將來。當(dāng)然所有數(shù)據(jù)都來自過去,過去又分為三個(gè)時(shí)期:遙遠(yuǎn)的過去、不太遙遠(yuǎn)的過去和最近。預(yù)測(cè)模型就是要發(fā)現(xiàn)遙遠(yuǎn)的過去的模型,用來解釋最近的輸出。當(dāng)部署模型時(shí),它能夠使用最近的數(shù)據(jù)預(yù)測(cè)未來。如果構(gòu)建一個(gè)模型來利用6月份(不太遙遠(yuǎn)的過去)的數(shù)據(jù)對(duì)7月份(最近)進(jìn)行預(yù)測(cè),那么在8月份之前的數(shù)據(jù)是可用的,但它不能用來對(duì)9月份進(jìn)行預(yù)測(cè)。但是8月份的數(shù)據(jù)是可用的嗎?肯定不是,因?yàn)檫@時(shí),數(shù)據(jù)仍在產(chǎn)生數(shù)據(jù)。也不會(huì)是9月份的第一周,因?yàn)檫@些數(shù)據(jù)需要被收集、清洗、加載、測(cè)試和認(rèn)可。8月份的數(shù)據(jù)可能要懂啊9月份中旬或10月才能用,到這個(gè)時(shí)候,沒人會(huì)擔(dān)心9月份的預(yù)測(cè)了。解決的辦法是在模型集中跳過1個(gè)月。
4.5創(chuàng)建一個(gè)剖析模型集
剖析模型集與測(cè)試模型相似,但有一點(diǎn):目標(biāo)的時(shí)間幀與輸入的時(shí)間幀重疊。看微小的差別對(duì)建模工作的影響卻很大。因?yàn)檩斎肟赡軙?huì)“污染”目標(biāo)模式。例如:銀行,擁有投資賬戶的客戶在儲(chǔ)蓄賬戶中往往有非常低的結(jié)余——因?yàn)樗麄兡軓耐顿Y賬戶中得到更好的回報(bào)。這是否意味著銀行要為了投資賬戶而識(shí)別低存儲(chǔ)賬戶余額的客戶呢?可能不需要,因?yàn)檫@些客戶的資產(chǎn)很少。
解決這個(gè)問題的一種方法是非常仔細(xì)得選擇剖析模型的輸入。把所有賬戶余額組合到“儲(chǔ)蓄”,“貸款”兩組。儲(chǔ)蓄組包括所有類型的儲(chǔ)蓄和投資。這種方法非常有效,事實(shí)證明模型是穩(wěn)定的。一個(gè)更好的辦法:開通投資賬戶之前對(duì)賬戶產(chǎn)生一個(gè)模型。一個(gè)并發(fā)的問題是:由于每一個(gè)客戶的時(shí)間幀都取決于客戶開通賬戶的時(shí)間,建立這樣一個(gè)模型集面臨更多的困難。
當(dāng)目標(biāo)變量的時(shí)間幀與輸入變量的時(shí)間幀相同時(shí),那么該模型是一個(gè)剖析模型,并且這個(gè)輸入可能會(huì)引入一些似是而非的模式,而這些模式可能會(huì)混淆數(shù)據(jù)挖掘技術(shù)。你需要非常小心地選擇輸入或者重建模型集來產(chǎn)生預(yù)測(cè)模型。
4.6劃分模型集
當(dāng)你從適當(dāng)?shù)臅r(shí)間幀中獲得預(yù)分好的數(shù)據(jù)后,有指導(dǎo)數(shù)據(jù)挖掘房峰輝把它分為三個(gè)部分。一、訓(xùn)練集,用戶建立初始模型。二、驗(yàn)證集,用于調(diào)整初始模型,減少其與訓(xùn)練集特性的額綁定,從而更具一般性。三、測(cè)試集,用來衡量吧模型應(yīng)用與未知的數(shù)據(jù)時(shí)可能產(chǎn)生的效果。三個(gè)數(shù)據(jù)集是必要的,因?yàn)槿裟硞€(gè)數(shù)據(jù)已在此過程中的某一步使用過,那么它包含的信息就已經(jīng)成為模型的一部分。因此,它不能用來修正或判斷模型。