模型之前的數(shù)據(jù)準(zhǔn)備都基本完成了,最后添加一個(gè)類型節(jié)點(diǎn)。
我們先研究的是下月登陸流失,所以現(xiàn)將下月充值流失角色設(shè)為無(wú),下月登陸流失設(shè)為目標(biāo),接下來(lái)就是選擇需要預(yù)測(cè)的模型。這里選擇了貝葉斯與C5.0的算法。
貝葉斯這里運(yùn)用了三種方法:TAN、Markov、Markov_FS
分別添加三個(gè)貝葉斯節(jié)點(diǎn),名字分別命名:TAN、Markov、Markov_FS(方便辨識(shí))。
TAN設(shè)置結(jié)構(gòu)類型為TAN;Markov設(shè)置結(jié)構(gòu)類型為Markov Blanket;Markov_FS設(shè)置結(jié)構(gòu)類型為Markov Blanket并且勾選“包括特征選擇預(yù)處理步驟”。分別運(yùn)行得到3個(gè)模型,最后連接一個(gè)“分析”節(jié)點(diǎn),默認(rèn)狀態(tài)下按運(yùn)行。
分析節(jié)點(diǎn)運(yùn)行結(jié)果:
大家可以明顯發(fā)現(xiàn),運(yùn)用貝葉斯的三種方法的準(zhǔn)確率基本都為83%,這說(shuō)明三種方法差別并不大。其實(shí)在一般預(yù)測(cè)來(lái)說(shuō),80%以上已經(jīng)算比較好的結(jié)果了。但是這里將進(jìn)一步采用C5.0的算法與其比較。
添加C5.0算法節(jié)點(diǎn),默認(rèn)狀態(tài)下按運(yùn)行,得到C5.0的模型,點(diǎn)擊C5.0模型節(jié)點(diǎn)
可以看到每一個(gè)變量的重要性,而“活躍度”這個(gè)變量的重要性是最高的。(這也說(shuō)明了一些衍生字段對(duì)后期分析的重要性)
接下來(lái)再添加“分析”節(jié)點(diǎn)發(fā)現(xiàn)準(zhǔn)確率達(dá)到85%,比貝葉斯要稍微好點(diǎn)。(有一些情況對(duì)決策樹使用boosting方法或者進(jìn)行截枝修剪嚴(yán)重性會(huì)得到更好的效果)
我們?cè)儆肅5.0模型進(jìn)一步進(jìn)行流失分析,添加“直方圖”節(jié)點(diǎn):
選擇字段level OR 注冊(cè)時(shí)間,交疊字段顏色選擇我們通過(guò)C5.0預(yù)測(cè)出來(lái)的“$C-下月登陸流失”字段,點(diǎn)擊運(yùn)行。
用這個(gè)方法可以進(jìn)一步預(yù)測(cè)分析下月流失的等級(jí)分布,或者注冊(cè)時(shí)間分布,或者更多有關(guān)玩家的信息,原理一樣在這里不再做拓展。到這里流失預(yù)測(cè)模型已經(jīng)建好可以投入使用了。接上我們需要預(yù)測(cè)1月份的數(shù)據(jù),我們可以進(jìn)一步看到這個(gè)預(yù)測(cè)模型在下個(gè)月的準(zhǔn)確性仍可以保持在85%左右,說(shuō)明預(yù)測(cè)的效果還是不錯(cuò)的,之后可以直接進(jìn)行一系列的分析。(在這里說(shuō)明一下,一般預(yù)測(cè)模型會(huì)隨著時(shí)間的推移慢慢減低準(zhǔn)確性,所以建議在做預(yù)測(cè)之前都用前一個(gè)月的數(shù)據(jù)來(lái)訓(xùn)練一次模型,從而能讓模型保持一定的準(zhǔn)確性)
附加一個(gè)12月份付費(fèi)用戶在1月份流失的注冊(cè)時(shí)間分布圖,大家看有沒(méi)有發(fā)現(xiàn)什么有意思的東西~
VIA:石_頭
更多詳細(xì)信息,請(qǐng)您微信關(guān)注“計(jì)算網(wǎng)”公眾號(hào):