圖 4 一個(gè)簡(jiǎn)單的決策樹(shù)
接下來(lái)就是ML領(lǐng)域最重要的一個(gè)突破——支持向量機(jī)(SVM)。SVM由大師Vapnik and Cortes[10] 在1995年提出,它有很強(qiáng)的理論論證和實(shí)證結(jié)果。自此之后,ML社區(qū)就楚河漢界劃分為NN和SVM兩派。2000年左右,隨著核方法的提出,SVM大占上風(fēng),在很多領(lǐng)域上都超過(guò)了NN模型。除此之外,SVM還發(fā)展了一系列的針對(duì)NN模型的基礎(chǔ)理論,包括凸優(yōu)化、泛化間隔理論和核方法??梢哉f(shuō),在這個(gè)時(shí)段,SVM的發(fā)展無(wú)論是理論還是實(shí)踐都占盡天時(shí)地利,因而發(fā)展速度極快。

圖 5 From Vapnik and Cortes [10]
不僅在外部遭到了巨大的挑戰(zhàn),NN內(nèi)部也發(fā)生了問(wèn)題。1991年的Hochreiter[40]和2001年的Hochreiter[11]的工作,都表明在使用BP算法時(shí),NN單元飽和之后會(huì)發(fā)生梯度損失。簡(jiǎn)單來(lái)說(shuō),訓(xùn)練NN模型時(shí),超過(guò)一定的迭代次數(shù)后,再迭代NN模型就很容易過(guò)擬合。
再往前一點(diǎn)點(diǎn),另一個(gè)堅(jiān)實(shí)的ML模型AdaBoost在1997被Freund和Schapire提出,該算法最大的特點(diǎn)在于組合弱分類器形成強(qiáng)分類器。這個(gè)成果為它的作者贏得了Godel獎(jiǎng)。Adaboost通過(guò)給那些難的樣例更高的權(quán)重來(lái)對(duì)那些容易訓(xùn)練的分類器進(jìn)行訓(xùn)練。該模型在臉部識(shí)別和檢測(cè)方面應(yīng)用的很廣。它還是PAC(概率近似正確理論)的一種實(shí)現(xiàn)。通常來(lái)說(shuō),所謂的弱分類器都被Adaboost用來(lái)當(dāng)樹(shù)樁——即單個(gè)的決策樹(shù)節(jié)點(diǎn)。他們這樣來(lái)描述Adaboost:
作為一個(gè)良好的在線預(yù)測(cè)模型的抽象擴(kuò)展,Adaboost可以被解釋為一個(gè)通用的決策理論設(shè)置…[11]
另外一個(gè)可以將多個(gè)決策樹(shù)組合起來(lái)的模型在2001年被Breiman[12]提出。該模型被稱為隨機(jī)森林(RF),因?yàn)樗拿總€(gè)組成節(jié)點(diǎn)都是隨機(jī)的選擇一組示例和一組特征。RF也擁有理論上和實(shí)驗(yàn)上的抗過(guò)擬合的證據(jù)。甚至有些數(shù)據(jù)Adaboost都不能很好的克服過(guò)擬合和離群點(diǎn)的時(shí)候,RF都能有很好的魯棒性。RF在很多其他不同領(lǐng)域比如Kaggle比賽上都有很成功的表現(xiàn)。
隨機(jī)森林是一個(gè)樹(shù)預(yù)測(cè)器的組合體,每棵樹(shù)都取決于一個(gè)獨(dú)立同分布的隨機(jī)向量。因而整個(gè)森林的泛化誤差隨著森林?jǐn)?shù)目的增多而收斂[12]。
時(shí)間終于走到了當(dāng)下,一個(gè)新的NN領(lǐng)域——深度學(xué)習(xí)出現(xiàn)了。在這個(gè)階段,NN模型可以擁有多層。3層的NN模型在2005年被Hinton,LeCun, Bengio, Andrew Ng等諸多大師一一實(shí)現(xiàn)。下面列舉了一些深度學(xué)習(xí)上的重要概念:
Ø GPU programming
Ø Convolutional NNs [18][20][40]
Ø Deconvolutional Networks [21]
Ø Optimization algorithms
Ø Stochastic Gradient Descent [19][22]
Ø BFGS and L-BFGS [23]
Ø Conjugate Gradient Descent [24]
Ø Backpropagation [40][19]
Ø Rectifier Units
Ø Sparsity [15][16]
Ø Dropout Nets [26]
Ø Maxout Nets [25]
Ø Unsupervised NN models [14]
Ø Deep Belief Networks [13]
Ø Stacked Auto-Encoders [16][39]
Ø Denoising NN models [17]
將上面列舉的這些技術(shù)和想法綜合到一起,NN模型迎來(lái)了又一個(gè)春天,在物體識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等方面,均擊敗之前的最高水平的技術(shù)。但重要的事,這并不意味著其他ML流派的終結(jié),即使現(xiàn)在深度學(xué)習(xí)的成功故事還在一個(gè)接一個(gè)的上演,仍然有著參數(shù)眾多、訓(xùn)練花費(fèi)巨大的缺陷。而且,SVM由于其簡(jiǎn)單性仍然被廣泛使用。
在結(jié)束之前,我們?cè)俳榻B一個(gè)相對(duì)年輕的ML趨勢(shì),隨著www和社會(huì)媒體的發(fā)展,大數(shù)據(jù)出現(xiàn)且影響了很多ML的研究。因?yàn)榇髷?shù)據(jù)中的問(wèn)題數(shù)據(jù)量都極大,很多強(qiáng)大的ML算法在機(jī)器性能的限制下都變得有些無(wú)用(對(duì)大公司來(lái)說(shuō)自然不是這樣)。因此,研究人員提出了一套簡(jiǎn)單模型——dubbed Bandit Algorithms[27-38],這些算法都是在線學(xué)習(xí)算法,都能適應(yīng)大規(guī)模問(wèn)題。
這只是一個(gè)簡(jiǎn)單的ML歷史的介紹,若有問(wèn)題,歡迎指出。