(表1:采用真實(shí)圖像和合成圖像進(jìn)行的“視覺(jué)圖靈測(cè)試”。平均人類(lèi)分類(lèi)精度為51.7%,表明自動(dòng)生成的精細(xì)圖像在視覺(jué)上已經(jīng)達(dá)到以假亂真的程度。)
(圖7:使用MPIIGaze實(shí)拍樣本進(jìn)行的眼睛注視估計(jì)的定量結(jié)果。曲線描述了不同測(cè)試數(shù)量下系統(tǒng)預(yù)估的誤差。圖示中使用精細(xì)圖像而不是合成圖像能顯著提高系統(tǒng)表現(xiàn)。)
定量結(jié)果:我們訓(xùn)練了一個(gè)與[43]類(lèi)似的簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)對(duì)眼睛的注視方向進(jìn)行預(yù)測(cè)。我們?cè)赨nityEyes上訓(xùn)練,并在MPIIGaze上進(jìn)行測(cè)試。圖7和表2比較了CNN分別使用合成數(shù)據(jù)以及SimGAN生成的精細(xì)數(shù)據(jù)的不同表現(xiàn)。我們觀察到SimGAN輸出訓(xùn)練的表現(xiàn)有很大的提高,絕對(duì)百分比提高了22.3%。我們還發(fā)現(xiàn)訓(xùn)練結(jié)果和訓(xùn)練數(shù)據(jù)呈正相關(guān)此處的4x指的是培訓(xùn)數(shù)據(jù)集的100%。定量評(píng)估證實(shí)了圖5中觀察到的定性改進(jìn)的價(jià)值,并且表明使用SimGAN能使機(jī)器學(xué)習(xí)模型有更好的表現(xiàn)。表3展示了同現(xiàn)有技術(shù)的比較,在精細(xì)圖像上訓(xùn)練CNN的表現(xiàn)優(yōu)于MPIGaze上的現(xiàn)有技術(shù),相對(duì)改善了21%。這個(gè)巨大的改進(jìn)顯示了我們的方法在許多HCI任務(wù)中的實(shí)際價(jià)值。
實(shí)施細(xì)節(jié):精煉網(wǎng)絡(luò)Rθ是一個(gè)殘差網(wǎng)絡(luò) (ResNet) 。每個(gè)ResNet塊由兩個(gè)卷積層組成,包含63個(gè)特征圖,如圖6所示。大小為55×35的輸入圖像和3×3的過(guò)濾器進(jìn)行卷積,輸出64個(gè)特征圖。輸出通過(guò)4個(gè)ResNet塊傳遞。最后ResNet塊的輸出被傳遞到1×1卷積層,產(chǎn)生對(duì)應(yīng)于精細(xì)合成圖像的1個(gè)特征圖。
(表2: 使用合成數(shù)據(jù)和SimGAN輸出進(jìn)行訓(xùn)練的比較。在無(wú)需監(jiān)督真實(shí)數(shù)據(jù)的情況下,使用SimGAN輸出的圖像進(jìn)行訓(xùn)練表現(xiàn)出22.3%的優(yōu)勢(shì)。)
(表3: SimGAN與MPIIGaze現(xiàn)有技術(shù)進(jìn)行比較。R=真實(shí)圖像,S=合成圖像。誤差是以度為單位的平均眼睛注視估計(jì)誤差。對(duì)精細(xì)圖像的訓(xùn)練帶來(lái)了2.1度的改進(jìn),相對(duì)現(xiàn)有技術(shù)提高了21%。)
鑒別器器網(wǎng)絡(luò)Dφ包含5個(gè)擴(kuò)展層和2個(gè)最大合并層,分別為:(1)Conv3x3,stride = 2,特征映射= 96,(2)Conv3x3,stride = 2,特征映射= 64,( 3)MaxPool3x3,stride = 1,(4)Conv3x3,stride = 1,特征映射= 32,(5)Conv1x1,stride = 1,特征映射= 32,(6)Conv1x1,stride = 2,(7)Softmax。
我們的對(duì)抗網(wǎng)絡(luò)是完全卷積的,并且已經(jīng)被設(shè)計(jì)為使Rθ和Dφ中的最后層神經(jīng)元的接受域是相似的。我們首先對(duì)Rθ網(wǎng)絡(luò)進(jìn)行1000步的自正則化損失訓(xùn)練,Dφ為200步。然后對(duì)于Dφ的每次更新,對(duì)應(yīng)在算法中更新Rθ兩次。即Kd被設(shè)置為1,Kg被設(shè)置為50。
眼睛注視估計(jì)網(wǎng)絡(luò)同[43]類(lèi)似,不過(guò)略作修改以使其更好地利用我們的大型合成數(shù)據(jù)集。輸入是35×55的灰度圖,通過(guò)5個(gè)卷積層,然后是3個(gè)完全連接的層,最后一個(gè)編碼三維注視向量:(1)Conv3x3,特征圖= 32,(2)Conv3x3 ,特征映射= 32,(3)Conv3×3,特征映射= 64,(4)Max- Pool3x3,stride = 2,(5)Conv3x3,特征映射= 80,(6)Conv3x3, MaxPool2x2,stride = 2,(8)FC9600,(9)FC1000,(10)FC3,(11)Eu- clidean loss。所有網(wǎng)絡(luò)都使用恒定的0.001學(xué)習(xí)速率和512批量大小進(jìn)行訓(xùn)練,直到驗(yàn)證錯(cuò)誤收斂。
3.2關(guān)于深度圖像的手勢(shì)圖像模擬
下一步,我們將用這宗方法對(duì)各種手勢(shì)的深度圖像進(jìn)行模擬。在研究中,主要使用了紐約大學(xué)所提供的NYU手勢(shì)數(shù)據(jù)庫(kù),其中包含72757個(gè)訓(xùn)練樣本以及使用3臺(tái)Kinect相機(jī)所采集的8251個(gè)測(cè)試樣本,其中每個(gè)測(cè)試樣本包括一個(gè)正面手勢(shì)圖像以及兩個(gè)側(cè)面手勢(shì)圖像。而每一個(gè)深度圖像樣本都對(duì)手勢(shì)信息進(jìn)行了標(biāo)記,從而生成了合成圖像。圖10展示了手勢(shì)數(shù)據(jù)庫(kù)中的一個(gè)樣本。我們對(duì)數(shù)據(jù)庫(kù)樣本進(jìn)行了預(yù)處理,利用合成圖像從真實(shí)圖像中提取了相應(yīng)的像素點(diǎn)位。在使用深度學(xué)習(xí)網(wǎng)絡(luò)ConvNet進(jìn)行處理之前,每個(gè)圖像樣本的分辨率大小被統(tǒng)一調(diào)整為224*224,背景值設(shè)置為零,前景值設(shè)置為原始深度值減2000。(此時(shí)假設(shè)背景分辨率為2000)。