- 二分類問題(這種問題在工業(yè)界最為常見,比如廣告點(diǎn)擊率預(yù)估、推薦系統(tǒng)購買行為預(yù)測),此時y只有一維,取值只有兩個(比如0-1),每個樣本有唯一的標(biāo)簽。比如預(yù)測廣告是否會被用戶點(diǎn)擊;用戶是否會購買某種商品
- 多分類問題(比如微博用戶情感分析、用戶對理財(cái)產(chǎn)品偏好性分析),通常此時y有多維,每維代表一個類標(biāo)簽,取值只有兩個(比如0-1),每個樣本有唯一的標(biāo)簽;當(dāng)然,y也可以只有一維,取值有多個,每個值代表一個類標(biāo)簽。比如通過微博分析出用戶情感屬于喜怒哀樂等哪類;將理財(cái)產(chǎn)品的用戶群體分為偏好型/溫和型/厭惡型
- 多標(biāo)簽問題(比如音樂的標(biāo)簽劃分),y有多維,跟多分類的區(qū)別在于,樣本可以同時屬于多個標(biāo)簽。作為一枚鋼琴愛好者,這里以鋼琴作品舉例,假設(shè)標(biāo)簽集合為{獨(dú)奏,協(xié)奏,浪漫主義,印象主義},最愛之一的德彪西「月光」無疑屬于{獨(dú)奏,印象主義},朗總成名作柴一則可歸為{協(xié)奏,浪漫主義},云迪家喻戶曉的肖邦夜曲是{獨(dú)奏,浪漫主義},而中國特色的「保衛(wèi)黃河」可歸為{協(xié)奏}
- 單回歸問題(比如股價(jià)預(yù)測),y只有一維,取值為連續(xù)值。比如預(yù)測阿里明天的股價(jià)
- 多回歸問題(比如天氣預(yù)測),y有多維,取值連續(xù)。比如預(yù)測明天的氣溫、空氣濕度、降雨量
3.3. 評價(jià)指標(biāo)
預(yù)測結(jié)果的好壞需要用一些指標(biāo)來衡量,通常不同類型的DM問題有不同的評價(jià)指標(biāo)。對于二分類問題,很多時候類別本身不均衡(比如正樣本很多負(fù)樣本極少),所以我們通常用AUC值——即ROC曲線下的面積——來評價(jià)二分類結(jié)果;在多分類或者多標(biāo)簽問題中,我們通常選取評價(jià)指標(biāo)為交叉熵(cross-entropy)或者log損失(log loss);對于回歸問題,則可以選用MSE(mean square error)
3.4. 工具
我跟原博客作者一樣,提倡使用python解決DM問題,因?yàn)閜ython的第三方庫非常齊全,以下是常見的、用于DM問題的python庫: