圖 5 SVM核函數(shù)的作用原理圖
SVM如何規(guī)避過擬合
過擬合(Overfitting)表現(xiàn)為在訓(xùn)練數(shù)據(jù)上模型的預(yù)測錯誤很低,在未知數(shù)據(jù)上預(yù)測錯誤卻很高。圖6的藍(lán)色曲線代表訓(xùn)練錯誤,紅色曲線代表真實錯誤,可以看到隨著模型復(fù)雜度的升高,模型對訓(xùn)練數(shù)據(jù)的擬合程度越好(訓(xùn)練錯誤越低),但到了一定程度之后真實錯誤反而上升,即為過擬合。
圖 6 過擬合
過擬合主要源于我們采集的訓(xùn)練樣本帶有噪聲,有部分樣本嚴(yán)重偏離其正常位置,統(tǒng)計學(xué)上稱之為outlier。前面已經(jīng)提到,決定SVM最優(yōu)分類面的只是占少數(shù)的支持向量,如果碰巧這些支持向量中存在outlier,而我們又要求SVM盡可能完美的去擬合這樣的數(shù)據(jù),得到的分類面可能就會有問題。如圖7所示,黑色加粗虛線代表最優(yōu)分類面,帶黑圈的藍(lán)色數(shù)據(jù)點代表outlier??梢钥吹給utlier嚴(yán)重偏離了正常藍(lán)色數(shù)據(jù)點的位置,所在位置又恰巧使其成為了支持向量,導(dǎo)致了最終的分類面(深紅色實線)嚴(yán)重偏離最優(yōu)分類面。