圖10:NYU手勢數(shù)據(jù)庫。左圖為深度圖像樣本;右圖為處理后的合成圖像。
定性描述:圖11顯示了“生成對抗網(wǎng)絡(luò)”( SimGAN)對手勢數(shù)據(jù)庫的計算結(jié)果。由圖可知,真實深度圖像的噪聲已經(jīng)邊緣化,且分布不連續(xù)。SimGAN能夠有效對原有圖像噪聲進行學習并模擬,從而產(chǎn)生出更加真實精細的合成圖像,且不需要在真實圖像上做出任何標記或注釋。
圖11: NYU手勢數(shù)據(jù)庫的精細測試圖像示例。左圖為真實圖像實像,右圖上為合成圖像,右圖下為來自蘋果生成對抗網(wǎng)絡(luò)的相應精細化輸出圖像。
實際圖像中的主要噪聲源是非平滑的邊緣噪聲。 學習網(wǎng)絡(luò)能夠?qū)W習模擬真實圖像中存在的噪聲,重要的是不需要任何標記和注釋。
定量分析:
我們采用一種類似于Stacked Hourglass人體姿態(tài)算法的CNN仿真算法應用于真實圖像、合成圖像以及精細化合成圖像處理,與NYU手勢數(shù)據(jù)庫中的測試樣本進行對比。通過對其中14個手關(guān)節(jié)變換進行算法訓練。為了避免偏差,我們用單層神經(jīng)網(wǎng)絡(luò)來分析算法對合成圖像的改進效果。圖12和表4顯示了關(guān)于算法對手勢數(shù)據(jù)庫進行處理的定量結(jié)果。其中由SimGAN輸出的精細化合成圖像顯著優(yōu)于基于真實圖像進行訓練而產(chǎn)生的圖像,其更為逼真,比標準合成圖像高出了8.8%,其中仿真 模擬輸出的注釋成本為零。同時要注意的是,3X代表圖像訓練選取了所有角度。
圖12:手勢估計的定量結(jié)果,關(guān)于NYU手勢測試集的真實深度圖像。
圖表顯示圖像與背景之間函數(shù)的累積曲線??梢?,SimGAN輸出的精細化合成圖像顯著優(yōu)于基于真實圖像進行訓練而產(chǎn)生的圖像,其更為逼真,比標準合成圖像高出了8.8%。 重要的是,我們的學習網(wǎng)絡(luò)不需要對真實圖像進行標記。
表4:通過訓練生成各種手勢圖像的相似度。
Synthetic Data為一般網(wǎng)絡(luò)訓練產(chǎn)生的合成圖像,Real Data為真實圖像,Refined Synthetic Data為生成對抗網(wǎng)絡(luò)SimGAN輸出的精細化合成圖像。3X表示對真實圖像進行多角度模擬。
實現(xiàn)細節(jié):關(guān)于手勢圖像判別的架構(gòu)與眼睛圖像相同,但輸入圖像分辨率為224*224,濾波器大小為7*7,殘差網(wǎng)絡(luò)值為10。判別網(wǎng)絡(luò)D如下:
(1)Conv7x7,stride=4, feature maps=96, (2) Conv5x5, stride=2, feature maps=64, (3) MaxPool3x3, stride=2, (4) Conv3x3,stride=2, feature maps=32, (5) Conv1x1, stride=1, feature maps=32, (6) Conv1x1, stride=1, feature maps=2,(7) Softmax。
首先,我們會對R網(wǎng)絡(luò)進行自我規(guī)則化訓練500次,隨后引入D網(wǎng)絡(luò)訓練200次;隨后,每更新一次D網(wǎng)絡(luò),就相應將R網(wǎng)絡(luò)進行兩次更新。在手勢估計中,我們采用Stacked Hourglass Net人體姿態(tài)算法輸出大小為64*64的熱點圖。我們在網(wǎng)絡(luò)學習中引入[-20,20]的隨機數(shù)據(jù)集來對不同角度的圖像進行訓練。直至驗證誤差有效收斂時,網(wǎng)絡(luò)訓練結(jié)束。
3.3對抗訓練的修正分析
首先我們比較了本地化對抗訓練以及全局對抗訓練的圖像偏差。在全局對抗中,判別網(wǎng)絡(luò)使用了完全連接層,從而使整個圖像相對于更加精細。而本地化對抗訓練則使得生成的圖像更為真實,如圖8所示。
圖8:左為全局對抗訓練結(jié)果,右為本地化對抗訓練結(jié)果。
顯示了全局對抗訓練與本地化對抗訓練的結(jié)果偏差。左圖生成的圖像更精細但不真實,右圖生成的圖像相對真實度更高。
接下來,在圖9中,顯示了使用反復訓練的歷史精細化圖像對判別網(wǎng)絡(luò)進行更新,并將其與標準對抗生成的合成圖像進行比較的結(jié)果。如圖所示,使用反復訓練的歷史精細化圖像刻產(chǎn)生更為真實的陰影,譬如在標準對抗訓練中,眼睛角落里沒有陰影。