- 特征工程(包括各種離散化、組合、選擇)
- 模型選擇、模型融合(即ensemble)
能把這兩點(diǎn)做好,實(shí)屬不易,但其實(shí)在工業(yè)界,特征工程和模型融合是否需要做到極致,是要看具體問(wèn)題的。有些業(yè)務(wù)的數(shù)據(jù)維度本身就很稀少,并不足以支撐龐大的特征體系;有些業(yè)務(wù)需要很強(qiáng)的可解釋性(比如金融領(lǐng)域),于是很多模型不能直接用;有些業(yè)務(wù)則要系統(tǒng)的實(shí)時(shí)性和穩(wěn)定性,過(guò)于復(fù)雜的ensemble雖然能提升一點(diǎn)指標(biāo),但也許得不償失。
上圖當(dāng)中的粉色部分是最常用的一些步驟,簡(jiǎn)單梳理一下:先確定DM問(wèn)題的類(lèi)型,然后對(duì)數(shù)據(jù)集劃分,接著對(duì)常見(jiàn)的數(shù)值變量和類(lèi)別變量做相應(yīng)處理,可以進(jìn)行特征選擇,最后選擇合適的模型做預(yù)測(cè),評(píng)估模型并輸出結(jié)果。下面將詳細(xì)展開(kāi)。
4.1. 問(wèn)題定義
首先搞清楚要解決的問(wèn)題屬于哪一類(lèi),結(jié)合上節(jié)所講,我們一般通過(guò)觀(guān)察y標(biāo)簽類(lèi)來(lái)定義DM問(wèn)題的類(lèi)型。
4.2. 數(shù)據(jù)集劃分
在明確了問(wèn)題的分類(lèi)后,我們將對(duì)數(shù)據(jù)集劃分成訓(xùn)練集(Training Data)和驗(yàn)證集(Validation Data)(補(bǔ)充:很多時(shí)候還要?jiǎng)澐殖鰷y(cè)試集(Test Data),先用訓(xùn)練集驗(yàn)證集的交叉驗(yàn)證來(lái)尋找模型的最優(yōu)超參數(shù),模型調(diào)優(yōu)完畢后,最終用測(cè)試集來(lái)評(píng)估模型最終效果,具體參考我之前在公眾號(hào)發(fā)布的『新手?jǐn)?shù)據(jù)挖掘中的幾個(gè)常見(jiàn)誤區(qū)』第二節(jié))。劃分方式如下: