如何學(xué)習(xí)?
關(guān)鍵性質(zhì):假設(shè)我們對(duì) 權(quán)重w做了微小變動(dòng),我們希望輸出的結(jié)果也會(huì)有微小變動(dòng)。

學(xué)習(xí)的過程則是反過來 我們通過 輸出的結(jié)果與實(shí)際值的偏差 來調(diào)整參數(shù)(w,b)以達(dá)到訓(xùn)練模型,最終輸出正確結(jié)果。
例如:網(wǎng)絡(luò)把一張照片分類為數(shù)字 “8”,而它實(shí)際上是數(shù)字“9”。我們通過這個(gè)識(shí)別偏差去調(diào)整參數(shù)(w,b)讓感知機(jī)網(wǎng)絡(luò)更接近于 識(shí)別該照片為數(shù)字“9”。
用大量的訓(xùn)練數(shù)據(jù)不斷重復(fù)這一步驟(輸出結(jié)果有誤差->調(diào)整參數(shù)減小誤差)就是在不斷進(jìn)行學(xué)習(xí)的過程。
但是 感知機(jī) 并不滿足上述性質(zhì)(對(duì)權(quán)值的微小改動(dòng)產(chǎn)生微小的輸出變化),可能會(huì)出現(xiàn)對(duì)單個(gè)神經(jīng)元參數(shù)的一點(diǎn)點(diǎn)微調(diào)就會(huì)導(dǎo)致輸出結(jié)果完全反轉(zhuǎn),這會(huì)導(dǎo)致后面與其連接的網(wǎng)絡(luò)的行為完全改變。這使得 逐漸修改權(quán)值讓網(wǎng)絡(luò)逼近目標(biāo)結(jié)果的想法 完全落空。
本質(zhì)上是因?yàn)?激活函數(shù) 不連續(xù) 在閾值點(diǎn)處產(chǎn)生值突變所導(dǎo)致的。

為了解決這個(gè)問題,我們引入一種新的神經(jīng)元 sigmoid neuron. ,它和感知機(jī)神經(jīng)元基本一致,只是換了激活函數(shù) 為

, 具備了 微小改動(dòng)產(chǎn)生微小輸出變化 這一關(guān)鍵性質(zhì)。 使得它可以進(jìn)行漸進(jìn)學(xué)習(xí)。

圖2:

仍然用下圖表示 sigmoid神經(jīng)元 不過激活函數(shù)已經(jīng)變成了


圖3 sigmoid神經(jīng)元
它的輸出output變成了:

由于 激活函數(shù)的光滑性它現(xiàn)在擁有了性質(zhì): (根據(jù)微分知識(shí))

Δoutput 是關(guān)于 Δwj 和 Δb 的線性函數(shù), 這種線性關(guān)系使得 Δwj 和 Δb 的微小改變會(huì)導(dǎo)致 output的微小改變。
實(shí)際上我們也可以使用其它的激活函數(shù)(例如后文會(huì)提到的 LeRU, tanh等) 各個(gè)激活函數(shù)之間的主要差異在于 上式 偏導(dǎo)數(shù)部分一些值會(huì)改變。當(dāng)我們?cè)谇蠼馄珜?dǎo)數(shù)的時(shí)候 函數(shù)將會(huì)簡化代數(shù)運(yùn)算,因?yàn)橹笖?shù)具有良好的求導(dǎo)性質(zhì)。