第三,GAN框架要求訓(xùn)練2個神經(jīng)網(wǎng)絡(luò)進(jìn)行對抗,它們的目標(biāo)往往不夠穩(wěn)定,傾向于產(chǎn)生偽影。為了避免漂移和產(chǎn)生更強(qiáng)的偽影,導(dǎo)致甄別更困難,我們需要限定鑒別器的接收區(qū)域?yàn)榫植拷邮?,而非整張圖片接收,這導(dǎo)致每張圖像都會產(chǎn)生多個局部對抗性損失。此外,我們還引入提高訓(xùn)練穩(wěn)定性的方法,即通過使用精煉圖像而非當(dāng)前“精煉器網(wǎng)絡(luò)”中的現(xiàn)有圖像升級鑒別器。
1.1相關(guān)工作
GAN框架需要2個神經(jīng)網(wǎng)絡(luò)競爭損失,即生成器與鑒別器。其中,生成器網(wǎng)絡(luò)的目標(biāo)是在真實(shí)圖像上繪制隨機(jī)向量,而鑒別器網(wǎng)絡(luò)的目標(biāo)則是區(qū)分生成圖像與真實(shí)圖像。GAN網(wǎng)絡(luò)是由古德弗羅(I. Goodfellow)等人首先引入的,它可以幫助生成逼真的視覺圖像。自從那以來,GAN已經(jīng)有了許多改進(jìn),并被投入到有趣的應(yīng)用中。
(圖2:SimGAN概觀:我們利用“精煉器網(wǎng)絡(luò)”提煉模擬器產(chǎn)生的輸出圖像,并最大限度地減少局部對抗性損失,并進(jìn)行自正則化。對抗性損失可以欺騙鑒別器網(wǎng)絡(luò),從而令其將合成圖像誤認(rèn)為真實(shí)圖像。而自正則化則會最大限度減少合成圖像與真實(shí)圖像的差異,包括保留注釋信息,并讓精煉圖像被用于訓(xùn)練機(jī)器學(xué)習(xí)模型。“精煉器網(wǎng)絡(luò)”與鑒別器網(wǎng)絡(luò)也會交替升級。)
王(X. Wang)與古普塔(A. Gupta)利用結(jié)構(gòu)化GAN學(xué)習(xí)表面法線,然后將其與Style GAN相結(jié)合,以生成天然的室內(nèi)場景。我們提議使用對抗性訓(xùn)練進(jìn)行遞歸生成模型(recurrent generative model)訓(xùn)練。此外,最近推出的iGAN能夠幫助用戶以交互模式改變圖像。劉(M.-Y. Liu)等人開發(fā)的CoGAN結(jié)合GAN可多模態(tài)聯(lián)合分布圖像,無需要求應(yīng)對圖像的元組,這有利于開發(fā)出聯(lián)合發(fā)布解決方案。而陳(X. Chen)等人開發(fā)的InfoGAN是GAN信息理論的擴(kuò)展,允許有意義的陳述學(xué)習(xí)。
恩杰爾·圖澤爾(Oncel Tuzel)等人利用GAN解決人臉圖像超高分辨率問題。李(C. Li)和王(M. Wand)提議Markovian GAN進(jìn)行有效的紋理合成。洛特爾(W. Lotter)等人在LSTM網(wǎng)絡(luò)中利用對抗性損失進(jìn)行視覺序列預(yù)測。于(L. Yu)等人提議SeqGAN框架,利用GAN強(qiáng)化學(xué)習(xí)。許多近來的問題都顯示出與生成模型領(lǐng)域相關(guān)的問題,比如PixelRNN可利用RNN的softmax損失預(yù)測像素順序。生成網(wǎng)絡(luò)側(cè)重于使用隨機(jī)噪聲矢量生成圖像,與我們的模型相比,其生成的圖像沒有任何標(biāo)注信息,因此也無法用于訓(xùn)練機(jī)器學(xué)習(xí)模型。
許多努力都在探索使用合成數(shù)據(jù)進(jìn)行各種預(yù)測任務(wù),包括視線評估、RGB圖像文本檢測與分類、字體識別、對象檢測、深度圖像中手部姿態(tài)評估、RGB-D場景識別、城市場景語義分割以及人體姿態(tài)評估等。蓋伊登(A. Gaidon)等人的研究表明,利用合成數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),可以提高其表現(xiàn)。我們的工作是對這些方法的補(bǔ)充,我們使用未標(biāo)記真實(shí)數(shù)據(jù)提高了模擬器的真實(shí)性。
嘉寧(Y. Ganin)與萊姆皮茨基(V. Lempitsky)在數(shù)據(jù)域適應(yīng)設(shè)置中利用合成數(shù)據(jù),了解合成圖像與真實(shí)圖像域的變化過程中保持不變的特征。王(Z. Wang)等人利用合成和真實(shí)數(shù)據(jù)訓(xùn)練層疊卷積碼自動編碼器,以便了解其字體檢測器ConvNet的低級表示形式。張(X. Zhang)等人學(xué)習(xí)多通道編碼,以便減少真實(shí)數(shù)據(jù)與合成數(shù)據(jù)的域的轉(zhuǎn)變。與經(jīng)典域適應(yīng)方法相反,它采用與特定的特征以便適應(yīng)具體的預(yù)測任務(wù),而我們可通過對抗性訓(xùn)練,彌合圖像分布之間的差距。這種方法使我們能夠生成非常逼真的圖像,可以用于訓(xùn)練任何機(jī)器學(xué)習(xí)模型,并執(zhí)行潛在的更多任務(wù)。
2“模擬+無監(jiān)督”學(xué)習(xí)
模擬+無監(jiān)督學(xué)習(xí)的目標(biāo)是使用一組未標(biāo)記的真實(shí)圖像yi ∈ Y,學(xué)習(xí)可提煉合成圖像X的refiner Rθ(x),其中θ屬于函數(shù)參數(shù)。讓我們用X?表示精煉圖像,然后會得出X?:θ= R(X)。在“模擬+無監(jiān)督”學(xué)習(xí)中,最關(guān)鍵的要求就是精煉圖像X?,以便于其看起來更像真實(shí)圖像,同時保留來自模擬器的注釋信息。為此,我們建議通過最大化減少兩個損失的組合來學(xué)習(xí):