1. 前言
Kaggle上有篇名為「Approaching (Almost) Any Machine Learning Problem」的博客(點擊底部閱讀原文),作者是Kaggle比賽的專業(yè)戶,博客是他參加Kaggle比賽的經(jīng)驗總結(jié)。在進入正題前隨便扯幾句:
- 本文并非原博客的翻譯版,而是90%的原創(chuàng),是在原博客基礎(chǔ)上融合自己的經(jīng)驗,重寫了大部分章節(jié)和代碼。所以當(dāng)你看到本文跟原博客差別很大時,請不要懷疑人生 ;-P
- 原博客題目直譯過來是『解決(幾乎)任一機器學(xué)習(xí)問題的方法』,但原博客內(nèi)容更偏數(shù)據(jù)挖掘之『術(shù)』而非機器學(xué)習(xí)之『道』,因為講解了很多實際操作的trick和代碼,所以我給本文取名為『數(shù)據(jù)挖掘比賽通用框架』。為簡化描述,后續(xù)用ML指代機器學(xué)習(xí),DM指代數(shù)據(jù)挖掘
- 本文可以看做是一篇科普性質(zhì)的文章,內(nèi)容簡單基礎(chǔ),關(guān)鍵在于結(jié)合實際實踐這些想法,所謂 practice makes perfect.
- 本人連續(xù)多天利用數(shù)個晚上寫成此文,請尊重原創(chuàng),轉(zhuǎn)載請注明。也希望本文能給各位帶來收獲,如有疏漏,望積極指正,先行謝過
2. 背景
DM流程通常分兩個階段