4.3. 特征工程
毫不夸張地說,特征工程是DM重要的一環(huán),也是決定DM比賽的關(guān)鍵因素??v觀DM比賽,幾年間已由追求模型是否fancy轉(zhuǎn)向無盡的特征工程,主要得益于越來越標(biāo)準(zhǔn)化的ML模型,以及更好的計算能力。
特征工程可以做的很復(fù)雜很龐大,但受限于本人目前的水平,這里只結(jié)合原博客內(nèi)容講解一些最基本(也是最經(jīng)典)的處理方法。
4.3.1. 處理類別變量
類別變量(categorial data)是一種常見的變量,在我之前寫的『新手?jǐn)?shù)據(jù)挖掘中的幾個常見誤區(qū)』 一文的第三節(jié)中討論過 為何要對類別變量編碼
在toy_data當(dāng)中,字段Continent, Country, Product, Brand, TreeID, Industry, Saler都可以看做是類別變量。處理類別變量一般是先標(biāo)簽化,然后再二值化編碼。標(biāo)簽化的目的是將字段的原始值(如字符串、不連續(xù)的數(shù)字等)轉(zhuǎn)換成連續(xù)的整數(shù)值,再對整數(shù)值二值化編碼,如果原始值是整數(shù),則直接二值化即可
我們拿