2. “模擬+無(wú)監(jiān)督”學(xué)習(xí)
模擬+無(wú)監(jiān)督學(xué)習(xí)的目標(biāo)是使用一組未標(biāo)記的真實(shí)圖像yi Y,學(xué)習(xí)可提煉合成圖像X的refiner Rθ(x),其中θ屬于函數(shù)參數(shù)。讓我們用X?表示精煉圖像,然后會(huì)得出X?:θ= R(X)。在“模擬+無(wú)監(jiān)督”學(xué)習(xí)中,最關(guān)鍵的要求就是精煉圖像X?,以便于其看起來(lái)更像真實(shí)圖像,同時(shí)保留來(lái)自模擬器的注釋信息。為此,我們建議通過(guò)最大化減少兩個(gè)損失的組合來(lái)學(xué)習(xí):
其中,xi是e ith合成訓(xùn)練圖像,X是相應(yīng)的精煉圖像。第一部分是真實(shí)性成本,即向合成圖像中增加真實(shí)性的成本。第二部分則代表著通過(guò)最小化合成圖像精煉圖像的差異保存注釋信息的成本。在下面的章節(jié)中,我們會(huì)展開(kāi)這個(gè)公式,并提供優(yōu)化θ的算法。
2.1 對(duì)抗性損失
為了向合成圖像中添加真實(shí)性,我們需要在合成圖形和真實(shí)圖像的分部之間建立起聯(lián)系。在理想情況下,精煉機(jī)可能無(wú)法將給定的圖像分類為真實(shí)圖像還是高度精煉圖像。這就需要使用對(duì)抗性的鑒頻器,網(wǎng)絡(luò)Dφ,它可訓(xùn)練分辨圖像到底是真實(shí)圖像還是精煉圖像,而φ是鑒別器網(wǎng)絡(luò)參數(shù)。對(duì)抗性損失訓(xùn)練refiner networkR,它負(fù)責(zé)欺騙D網(wǎng)絡(luò),令其將精煉圖像誤認(rèn)為是真實(shí)圖像。利用GAN方法,我們建造了2個(gè)神經(jīng)網(wǎng)絡(luò)參與的極限博弈模型,并升級(jí)“精煉器網(wǎng)絡(luò)”Rθ和鑒別器網(wǎng)絡(luò)Dφ。接下來(lái),我們更精確地描述這種模型。鑒別器網(wǎng)絡(luò)通過(guò)最大限度地減少以下?lián)p失來(lái)更新參數(shù):
這相當(dāng)于兩級(jí)分類問(wèn)題產(chǎn)生的交叉熵誤差,其中Dφ(.)輸入的是合成圖像,而1 ? Dφ(.)則是真實(shí)圖像。至此,我們實(shí)現(xiàn)了Dφ作為ConvNet的最后輸出層,樣本很可能是精煉圖像。為了訓(xùn)練這個(gè)網(wǎng)絡(luò),每個(gè)小批量隨機(jī)抽取的樣本都由精煉合成圖像和真實(shí)圖像組成。對(duì)于每個(gè)yj來(lái)說(shuō),交叉熵的目標(biāo)標(biāo)簽損耗層為0,而每個(gè)x?i都對(duì)應(yīng)1。然后通過(guò)隨機(jī)梯度下降(SGD)方式,φ會(huì)隨著小批量梯度損失而升級(jí)。在我們的實(shí)踐中,真實(shí)性損失函數(shù)使用訓(xùn)練有素的鑒別器網(wǎng)路D如下:
通過(guò)最小化減小損失函數(shù),“精煉器網(wǎng)絡(luò)”的力量促使鑒別器無(wú)法分辨出精煉圖像就是合成圖像。除了產(chǎn)生逼真的圖像外,“精煉器網(wǎng)絡(luò)”應(yīng)該保存模擬器的注釋信息。舉例來(lái)說(shuō),用于評(píng)估視線的學(xué)習(xí)轉(zhuǎn)變不該改變凝視的方向,手部姿勢(shì)評(píng)估不應(yīng)該改變肘部的位置。這是訓(xùn)練機(jī)器學(xué)習(xí)模型使用配有模擬器注釋信息的精煉圖像的必要組成部分。為了實(shí)現(xiàn)這個(gè)目標(biāo),我們建議使用自正則化,它可以最大限度地減少合成圖像與精煉圖像之間的差異。
(算法1)
(圖3:局部對(duì)抗性損失的圖示。鑒別器網(wǎng)絡(luò)輸出wxh概率圖。對(duì)抗損失函數(shù)是局部塊上的交叉熵?fù)p失的總和。)
因此在我們的執(zhí)行中,整體精煉損失函數(shù)(1)為:
(4)在||.||1是L1常模時(shí),我們將Rθ作為一個(gè)完全卷積的神經(jīng)網(wǎng)絡(luò),而無(wú)需躍進(jìn)或池化。在像素級(jí)別上修改合成圖像,而不是整體地修改圖像內(nèi)容。例如在完全連接地編碼器網(wǎng)絡(luò)中便會(huì)如此,保留全局結(jié)構(gòu)合注釋。我們通過(guò)交替地最小化LR(θ) 和LD(φ)來(lái)學(xué)習(xí)精化器和鑒別器參數(shù)。在更新Rθ的參數(shù)時(shí),我們保持φ固定不變,而在更新Dφ時(shí),則要保持θ不變。我們?cè)谒惴?中描述了整個(gè)訓(xùn)練過(guò)程。