在本文中我們首先提出了 在三種代表性數(shù)據(jù)集上 最流行的深度學(xué)習(xí)方法的表現(xiàn)。
這些包括幾個典型的應(yīng)用情境,如控制手勢、重復(fù)動作和帕金森疾病中的醫(yī)學(xué)運(yùn)用。對三種模型的比較如下。為了探索每種方法的適用性我們選取了一系列合理范圍的超參數(shù),同時隨機(jī)模型配置。
為了探討每一種方法的適用性,我們?yōu)槊恳粋€超參數(shù)和隨機(jī)樣本模型配置都選擇了合理的范圍。并且,通過上千次的實(shí)驗(yàn)對它的性能做出報告,同時分析超參數(shù)對每種方法的影響。
3.1深度前饋網(wǎng)絡(luò)(DNN)
我們使用了深度前饋網(wǎng)絡(luò),它相當(dāng)于五個有著softmax-group的隱層的神經(jīng)網(wǎng)絡(luò)。DNN代表網(wǎng)絡(luò)輸入數(shù)據(jù)的一個非線性轉(zhuǎn)換序列。我們遵循規(guī)則,并提出了一個有著N個隱層的網(wǎng)絡(luò)作為N層網(wǎng)絡(luò)。每個隱層都包含有,相同的數(shù)量的單元,對應(yīng)的線性轉(zhuǎn)換,和一個激活函數(shù)(ReLU)。我們使用了兩個不同規(guī)范技術(shù):(i)Dropout:在訓(xùn)練期間,每一個隱層的每個單元都通過一個概率Pdrop設(shè)置成0,而在推斷時,每一個單元的輸出都通過1/pdrop進(jìn)行縮放(所有實(shí)驗(yàn)的dropout率都是固定值0.5)。(ii)Max-in準(zhǔn)則:每個批梯度下降之后,網(wǎng)絡(luò)中每個單元的輸入量都被放縮到一個最大歐式長度din。對于限制方法中超參數(shù)的數(shù)量,我們選擇不去進(jìn)行任何生成的預(yù)訓(xùn)練,并且只依靠監(jiān)督學(xué)習(xí)的方法。輸入到網(wǎng)絡(luò)中的輸入數(shù)據(jù)相當(dāng)于每個移動數(shù)據(jù)的幀。每個幀都由Rd中不同數(shù)量的s樣本組成,也就是簡單地連接到一個單一的向量FtRs*d。圖1(d)中對模型進(jìn)行了說明。
DNN是用批梯度下降的方法進(jìn)行訓(xùn)練的,其中每一個批梯度下降包含64個幀,并且它是根據(jù)測試集中的階級分層進(jìn)行分層的。我們使用隨機(jī)梯度下降的方法,盡量減小陰性似然。
3.2卷積網(wǎng)絡(luò)(CNN)
卷積網(wǎng)絡(luò)的目標(biāo)是在輸入數(shù)據(jù)的模式匹配中引入一個位置,并且確保每個有運(yùn)動數(shù)據(jù)幀的模式的精確位置,的平移不變性(例如,發(fā)生的時間)。我們研究了卷積網(wǎng)絡(luò)的性能,遵循了[Srivastava等人,2014]在結(jié)構(gòu)方面的建議,并且規(guī)范化了技術(shù)。圖1(c)說明CNN的整體結(jié)構(gòu)。每個CNN包含至少一個暫存的卷積層,一個pooling層,和一個完整的連接層——在最高等級Softmax-group之前。暫存的卷積層相當(dāng)于有著nf種不同特征圖——寬度為Kw,的輸入序列的卷積。最后的max-pooling,即是尋找寬度為mw范圍中最大值,并對應(yīng)一個子采樣,向系統(tǒng)引入平移不變性。整個實(shí)驗(yàn)中max-pooling的寬度為固定值2。每個max-pooling層的輸出都通過一個激活函數(shù)進(jìn)行轉(zhuǎn)換。隨后的完全連接的部分有效地對應(yīng)一個DNN并且遵循上述相同的架構(gòu)。
對于規(guī)則化,我們應(yīng)用了每一個max-pooling層/完全連接層的dropout,在整個實(shí)驗(yàn)中可能的dropout Pidrop在i層中是固定值(p1drop=0.1,p2drop=0.25,pi>2drop=0.5)。類似于DNN我們同樣使用了max-in準(zhǔn)則。輸入到CNN的輸入數(shù)據(jù),如DNN中一樣,對應(yīng)移動數(shù)據(jù)的幀
。然而,并非連接不同的輸入維度,矩陣結(jié)構(gòu)被保留(FtRsxRd)。CNN的訓(xùn)練,使用了批梯度下降法(64幀)和隨機(jī)梯度下降法,以盡量減少陰性似然。
3.3遞歸網(wǎng)絡(luò)
為了研究移動數(shù)據(jù)的時序依賴,我們使用了遞歸數(shù)據(jù)網(wǎng)絡(luò),它基于vanilla變型(不包括peephole聯(lián)系)的LSTM單元。當(dāng)網(wǎng)絡(luò)中的一些連接形成定向循環(huán)時,該結(jié)構(gòu)是遞歸的,其中當(dāng)前的時間t會考慮到前面時間t-1的網(wǎng)絡(luò)狀態(tài)。當(dāng)錯誤的衍生物通過遞歸網(wǎng)絡(luò)中的很多層“通過時間”進(jìn)行反向傳播時,LSTM單元用于抑制梯度下降。每一個LSTM單元(聯(lián)合)都會持續(xù)追蹤代表他“記憶”的內(nèi)部狀態(tài)(the constant error carousel)。隨著時間的推移,該單元學(xué)會,輸出,覆蓋,或者基于當(dāng)前的輸出和過去的內(nèi)部狀態(tài)清空他們的內(nèi)存,從而使一個系統(tǒng)保留數(shù)百個時間步長的信息。
我們實(shí)現(xiàn)了兩個有特色的LSTM遞歸網(wǎng)絡(luò):(i)深度前饋LSTMs,它包含多種遞歸單元層,并及時聯(lián)系“前饋”(見圖1(a));(ii)雙向LSTMs,它包含了兩個平行的遞歸層,在一個連接了它們在時間步長t時內(nèi)部狀態(tài)的層之后(見圖1(b)),延伸到當(dāng)前時間步長的未來和過去中。
實(shí)際上這兩種特色的LSTM,在他們的應(yīng)用要求方面有著很大不同。前饋LSTM聯(lián)系當(dāng)前的時間步長,是基于它看到了過去,并且,在推理時,“未來”還不知道的情況下,它本質(zhì)上適合于實(shí)時應(yīng)用。另一方面雙向LSTMs利用了未來和過去的上下文,去解釋時間t時的輸入,這使得它更適合于離線分析場合。