在軸突末端與相鄰樹(shù)突形成的突出間隙中,擴(kuò)散著一種叫做神經(jīng)傳遞素的化學(xué)物質(zhì),他實(shí)現(xiàn)了神經(jīng)傳遞。神經(jīng)中最關(guān)鍵的部分,是神經(jīng)通過(guò)樹(shù)突接收到刺激,處理后,通過(guò)軸突末梢傳輸出去。在末梢處會(huì)經(jīng)過(guò)突觸間隙,然后到達(dá)許多接受神經(jīng)的樹(shù)突。 該過(guò)程將重復(fù)進(jìn)行。
4.感知機(jī)
感知機(jī)是一個(gè)簡(jiǎn)單的線形二進(jìn)制分類(lèi)器。它接收輸入和與其相連的權(quán)重(表示輸入變量的相對(duì)重要性),將它們結(jié)合來(lái)產(chǎn)生輸出。輸出接下來(lái)被用于分類(lèi)。感知機(jī)已經(jīng)存在很長(zhǎng)一段時(shí)間了,最早的使用可追溯到1950年代,其中一個(gè)也是應(yīng)用到早期的人工神經(jīng)網(wǎng)絡(luò)中。
5.多層感知機(jī)
一個(gè)多層感知機(jī)(MLP)是由幾個(gè)含有全鄰接層的感知機(jī)組成,形成一個(gè)簡(jiǎn)單的前饋神經(jīng)網(wǎng)絡(luò)(見(jiàn)下)。這個(gè)多層感知器在非線性激活函數(shù)上有許多好處,這些都是單層感知器不具備的。
6.前饋神經(jīng)網(wǎng)絡(luò)
在非周期性連接的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,前饋神經(jīng)網(wǎng)絡(luò)是最簡(jiǎn)單的形式。最初的人工神經(jīng)網(wǎng)絡(luò)中,前饋網(wǎng)絡(luò)中的信息從輸入節(jié)點(diǎn)單方向前進(jìn),而后通過(guò)所有隱藏層,到達(dá)輸出節(jié)點(diǎn),不存在任何周期。前饋網(wǎng)絡(luò)不同于之后的連接構(gòu)成有向循環(huán)的周期性網(wǎng)絡(luò)架構(gòu)(見(jiàn)下文)。
7.循環(huán)神經(jīng)網(wǎng)絡(luò)
和上文所提到的前饋神經(jīng)網(wǎng)絡(luò)不同,循環(huán)神經(jīng)網(wǎng)絡(luò)的連接構(gòu)成有向循環(huán)。這種雙向流動(dòng)允許內(nèi)部時(shí)間狀態(tài)表示,繼而允許序列處理。并且值得注意的是,它提供了用于識(shí)別語(yǔ)音和手寫(xiě)的必要能力。
8.激活函數(shù)
在神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)通過(guò)組合網(wǎng)絡(luò)的加權(quán)輸入來(lái)產(chǎn)生判定邊界輸出結(jié)果。激活函數(shù)的范圍從標(biāo)識(shí)(線性)到Sigmoid函數(shù)(邏輯或軟步長(zhǎng)),雙曲線(正切)和超越。為了采用反向傳播(見(jiàn)下文),神經(jīng)網(wǎng)絡(luò)必須使用可微的激活函數(shù)。
9.反向傳播
我所見(jiàn)過(guò)的對(duì)反向傳播的定義中,最基本、簡(jiǎn)潔的定義是數(shù)據(jù)科學(xué)家Mikio L. Braun在Quora上給出的答案 。我在此列出原文,以防破壞這份答案簡(jiǎn)潔的完美。

反向傳播只是在個(gè)別錯(cuò)誤上進(jìn)行梯度下降。通過(guò)比較對(duì)神經(jīng)網(wǎng)絡(luò)預(yù)期輸出的預(yù)測(cè),而后計(jì)算相對(duì)于神經(jīng)網(wǎng)絡(luò)的權(quán)重的誤差梯度。然后得出了權(quán)值空間中減小誤差的方向。
我將它列在這里。
10.成本函數(shù)
在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),必須評(píng)估網(wǎng)絡(luò)輸出的正確性。眾所周知,預(yù)期上正確的訓(xùn)練輸出數(shù)據(jù)和實(shí)際的訓(xùn)練輸出是可比擬的。成本函數(shù)便能測(cè)量實(shí)際和訓(xùn)練輸出之間的差異。實(shí)際和預(yù)期輸出之間的零成本將意味著訓(xùn)練神經(jīng)網(wǎng)絡(luò)成為可能。但這顯然是理想化的。
所以,通過(guò)什么機(jī)制來(lái)調(diào)整成本函數(shù),以實(shí)現(xiàn)將其最小化的目標(biāo)呢?
11.梯度下降
梯度下降法是求函數(shù)局部極小值的一個(gè)優(yōu)化算法。雖然它不能保證全定義域內(nèi)的最小值,但梯度下降對(duì)于難以通過(guò)分析 (例如通過(guò)將導(dǎo)數(shù)取0獲得最優(yōu)解)求得精確解的問(wèn)題十分有用。

正如上文所述,在神經(jīng)網(wǎng)絡(luò)的情況中,隨機(jī)梯度下降用于對(duì)網(wǎng)絡(luò)參數(shù)做出知情調(diào)整,以達(dá)到使成本函數(shù)最小化的目標(biāo),從而使網(wǎng)絡(luò)的實(shí)際輸出迭代性地愈加接近在培訓(xùn)期間的預(yù)期輸出。這種迭代最小化采用微積分,即微分。在訓(xùn)練步驟之后,網(wǎng)絡(luò)權(quán)重根據(jù)成本函數(shù)的梯度和網(wǎng)絡(luò)的當(dāng)前權(quán)重接收更新,使得下一個(gè)訓(xùn)練步驟的結(jié)果可以更加接近正確值(通過(guò)更小的成本函數(shù)測(cè)量)。反向傳播(關(guān)于錯(cuò)誤的反向傳播)便用于將這些更新以小份的形式送到網(wǎng)絡(luò)。
12.梯度消失問(wèn)題
由于反向傳播使用鏈?zhǔn)揭?guī)則來(lái)計(jì)算梯度(通過(guò)微分),朝向n層神經(jīng)網(wǎng)絡(luò)的“前”(輸入)層將使其修改的梯度以一個(gè)較小的值乘以n次方,然后再更新之前的固定值。這意味著梯度將指數(shù)性減小。 n越大,網(wǎng)絡(luò)將需要越來(lái)越多的時(shí)間來(lái)有效地訓(xùn)練。
13.卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)通常與計(jì)算機(jī)視覺(jué)和圖像識(shí)別相關(guān)聯(lián),并采用卷積的數(shù)學(xué)概念來(lái)模仿生物視覺(jué)皮層的神經(jīng)連接網(wǎng)格。
首先,正如 Denny Britz 所描述一樣,卷積可以被認(rèn)為是在圖像的矩陣表示之上的滑動(dòng)窗口(見(jiàn)下文)。
