
最后一個字段Label就是我們要預測的y,在我的數(shù)據(jù)集里取值0或1,所以是一個二分類問題。
對于分類問題,要根據(jù)標簽來劃分數(shù)據(jù)集,比如每種標簽采樣多少,這樣才能保證訓練集跟驗證集的樣本標簽分布接近,另外采樣方式也不限于隨機采樣,可以根據(jù)實際業(yè)務問題選擇合適的采樣方式。這里我們可以借助scikit-learn來實現(xiàn)分層的K折交叉驗證,代碼如下
X = df.ix[:,0:-1]
y = df.ix[:,-1]
from sklearn.cross_validation import StratifiedKFold
kf = StratifiedKFold(y,3) # 三折交叉驗證
用以下代碼驗證一下訓練集和驗證集中的正樣本的占比: