圖 2 回歸分析示意圖
統(tǒng)計(jì)分類——被廣泛應(yīng)用的機(jī)器學(xué)習(xí)方法
統(tǒng)計(jì)分類要解決的問題是,如何將一個(gè)樣本點(diǎn)分到類別集合中的一個(gè)或多個(gè)類,比如圖3所表示的就是將數(shù)據(jù)分為3個(gè)類。
圖 3 統(tǒng)計(jì)分類示意圖
現(xiàn)實(shí)場(chǎng)景中我們往往需要把數(shù)據(jù)分成不同的類別,以方便我們分析和使用,因而統(tǒng)計(jì)分類方法具有廣闊的應(yīng)用范圍。達(dá)觀數(shù)據(jù)團(tuán)隊(duì)開發(fā)的用戶建模、內(nèi)容審核系統(tǒng)、反作弊系統(tǒng)等都使用到了統(tǒng)計(jì)分類模型。比如反作弊系統(tǒng),目的是區(qū)分用戶行為是否作弊,抽象出來(lái)就是個(gè)分類問題:輸入是用戶的各種行為數(shù)據(jù)經(jīng)過處理后得到的特征,輸出只有兩個(gè)類別——“作弊”和“非作弊”。接下來(lái)我就簡(jiǎn)單介紹一下最具代表性的分類算法——支持向量機(jī)(Support Vector Machine, SVM),一窺機(jī)器學(xué)習(xí)的工作原理。SVM絕不是入門級(jí)的機(jī)器學(xué)習(xí)算法,選擇介紹它是因?yàn)?,機(jī)器學(xué)習(xí)需要解決的數(shù)據(jù)線性不可分、過擬合等問題,SVM都給出了比較可靠的解決方案,借此我們也可以對(duì)機(jī)器學(xué)習(xí)有個(gè)大概的認(rèn)識(shí)。
理想情況下SVM的理論模型