Step1.是整個(gè)流程中最耗時(shí)的,這點(diǎn)想必大家早有耳聞,DM界有句名言 garbage in ,garbage out ,可見清洗數(shù)據(jù)非常重要。從我的經(jīng)驗(yàn)看,這部分工作跟實(shí)際處理的業(yè)務(wù)問題關(guān)系很大,比較dirty,也沒有統(tǒng)一流程,所以本文重點(diǎn)放在Step2.
3. 前期準(zhǔn)備
3.1. 數(shù)據(jù)變換
先把原始數(shù)據(jù)通過一定變換,變成通用的多列數(shù)據(jù)類型,作為ML模型的輸入,也就是上面的Step1。用X代表樣本及其特征集合,y代表樣本標(biāo)簽集合,整個(gè)流程如下:

3.2. 問題分類
根據(jù)標(biāo)簽y的不同,可以把DM問題分為以下幾類: