在我們的執(zhí)行中,我們將鑒別器器D設(shè)計(jì)成一個(gè)完全卷積網(wǎng)絡(luò),輸出偽類(lèi)w × h概率圖。在后者中w × h是圖像中本地補(bǔ)丁的數(shù)量。在訓(xùn)練精煉網(wǎng)絡(luò)時(shí),我們將w×h本地補(bǔ)丁的交叉熵?fù)p失值求和,如圖3所示。
2.3使用精化圖像的歷史記錄更新鑒別器器
對(duì)抗訓(xùn)練的對(duì)抗訓(xùn)練的另一個(gè)問(wèn)題是鑒別器器網(wǎng)絡(luò)只關(guān)注最新的精細(xì)圖像。 這可能導(dǎo)致(i)與對(duì)抗訓(xùn)練分歧,以及(ii)精煉網(wǎng)絡(luò)重新引入鑒別器已經(jīng)忘記的工件。在整個(gè)訓(xùn)練過(guò)程中的任何時(shí)間由精煉網(wǎng)絡(luò)生成的任何精細(xì)圖像對(duì)于鑒別器器來(lái)說(shuō)都是偽造的圖像。因此,鑒別器應(yīng)該有能力將這些圖像識(shí)別為假。基于這一觀察,我們引入了一種方法,通過(guò)使用精細(xì)圖像的歷史來(lái)提高對(duì)抗訓(xùn)練的穩(wěn)定性,而不僅僅是在當(dāng)前小批次中小修小改。我們對(duì)算法1稍作改進(jìn),增加對(duì)先前網(wǎng)絡(luò)產(chǎn)生的精細(xì)圖像的緩沖。設(shè)B為此緩沖的大小,設(shè)b為算法1中使用的迷你批次大校
(圖5:SimGAN輸出的圖像示例。左為MPIIGaze采集的實(shí)拍圖像,右為優(yōu)化后的UnityEye合成圖像。從圖中可以看出精細(xì)合成圖像中的皮膚紋理和虹膜區(qū)都更近似真實(shí)而非合成圖像。)
(圖6:帶有兩個(gè)nxn卷積層的ResNet塊,每個(gè)都都具有f特征圖。)
在鑒別器器訓(xùn)練的每次迭代中,我們通過(guò)對(duì)來(lái)自當(dāng)前精煉網(wǎng)絡(luò)的b/2圖像進(jìn)行采樣,以及從緩沖區(qū)采集額外b/2圖像,從而更新參數(shù)φ。保持緩沖區(qū)B大小固定,在每次迭代之后,我們使用新產(chǎn)生的精細(xì)圖像隨機(jī)替換緩沖區(qū)中的b/2樣本。該過(guò)程在圖4中標(biāo)示出。
3.實(shí)驗(yàn)
我們使用MPIIGaze [40,43]上的外貌估計(jì)數(shù)據(jù)集和紐約大學(xué)的手勢(shì)數(shù)據(jù)集 [35]來(lái)評(píng)估我們的方法。我們?cè)谒袑?shí)驗(yàn)中使用完全卷積的精煉網(wǎng)絡(luò)與ResNet塊(圖6)。
3.1基于外貌的注視估計(jì)
注視估計(jì)是許多人機(jī)交互(HCI)任務(wù)的關(guān)鍵因素。然而,直接由眼睛圖像進(jìn)行估計(jì)是有挑戰(zhàn)性的,特別是在圖像質(zhì)量不佳時(shí)。例如智能手機(jī)或筆記本電腦前置攝像頭采集到的眼睛圖像。因此,為了生成大量注釋數(shù)據(jù),最近幾次方法[40,43]用大量合成數(shù)據(jù)訓(xùn)練它們的模型。在這里,我們展示使用SimGAN生成的精細(xì)合成圖像訓(xùn)練顯著提高了任務(wù)的表現(xiàn)。
注視估計(jì)數(shù)據(jù)集包括使用眼睛注視合成器UnityEyes生成的1200萬(wàn)樣本,以及來(lái)自MPIIGaze數(shù)據(jù)集的21,000實(shí)拍樣本。MPIIGaze的圖像樣本都是在各種照明條件不理想情況下捕捉到的圖像。而UnityEyes圖像都是在同一渲染環(huán)境下生成。
定性結(jié)果:圖5展示了合成生成的眼睛注視圖像以及經(jīng)過(guò)處理的實(shí)拍圖像。如圖所示,我們觀察到合成圖像的顯著質(zhì)量改進(jìn):SimGAN成功捕獲皮膚紋理,傳感器噪點(diǎn)以及虹膜區(qū)的外觀。請(qǐng)注意,我們的方法在改善真實(shí)性的同時(shí)保留了注釋信息(注視方向)。
‘視覺(jué)圖靈測(cè)試’:為了定量評(píng)估精細(xì)圖像的視覺(jué)質(zhì)量,我們?cè)O(shè)計(jì)了一個(gè)簡(jiǎn)單的用戶(hù)研究,要求受試者對(duì)圖像是屬于實(shí)拍或是合成進(jìn)行區(qū)分。每個(gè)受試者被展示50張實(shí)拍圖像和50張合成圖像。在試驗(yàn)中,受試者不斷觀看20個(gè)真假混雜的圖像,最終受試者很難分辨真實(shí)圖像和精細(xì)圖像之間的差異。在我們的總體分析中,10個(gè)受試者在1000次試驗(yàn)中正確率只有517次(p=0.148),跟隨機(jī)選差不多。表1展示了混淆矩陣。相比之下,當(dāng)使用原始圖像和實(shí)拍圖像進(jìn)行測(cè)試時(shí),我們給每個(gè)受試者展示10個(gè)實(shí)拍和10個(gè)合成圖像,這種情況下受試者在200此實(shí)驗(yàn)中選對(duì)了162次(p≤10-8),結(jié)果明顯優(yōu)于隨機(jī)選擇。
(表1:采用真實(shí)圖像和合成圖像進(jìn)行的“視覺(jué)圖靈測(cè)試”。平均人類(lèi)分類(lèi)精度為51.7%,表明自動(dòng)生成的精細(xì)圖像在視覺(jué)上已經(jīng)達(dá)到以假亂真的程度。)