日前,蘋果發(fā)布了其首份關(guān)于人工智能(AI)的學(xué)術(shù)論文——“通過對(duì)抗網(wǎng)絡(luò)使用模擬和非監(jiān)督圖像訓(xùn)練”(Learning from Simulated and Unsupervised Images through Adversarial Training),其中主要描述了在計(jì)算機(jī)視覺系統(tǒng)中提高圖像識(shí)別的方法,而這或許也標(biāo)志著蘋果公司研究的新方向。
下面就是這篇報(bào)告的全文:
摘要
隨著圖形技術(shù)不斷進(jìn)步,利用合成圖像訓(xùn)練機(jī)器學(xué)習(xí)模型變得越來越容易,這可以幫助避免注釋圖像的昂貴支出。然而,通過合成圖像訓(xùn)練機(jī)器學(xué)習(xí)模型可能無法達(dá)到令人滿意的效果,因?yàn)楹铣蓤D像與真實(shí)圖像之間畢竟存在區(qū)別。為了減少這種差異,我們提出“模擬+無監(jiān)督”學(xué)習(xí)方法,即通過計(jì)算機(jī)生成圖像或合成圖像來訓(xùn)練算法的圖像識(shí)別能力。
事實(shí)上,這種“模擬+無監(jiān)督”學(xué)習(xí)需要將無標(biāo)注的真實(shí)圖像數(shù)據(jù)與已經(jīng)注釋的合成圖像相結(jié)合。在很大程度上,它需要依賴生成式對(duì)抗網(wǎng)絡(luò)(GAN)的新機(jī)器學(xué)習(xí)技術(shù),它可通過兩個(gè)神經(jīng)網(wǎng)絡(luò)相互對(duì)抗以生成更加真實(shí)的圖像。我們對(duì)標(biāo)準(zhǔn)GAN算法進(jìn)行了多處關(guān)鍵性修改,以保留注釋、避免偽影以及穩(wěn)定性訓(xùn)練:自正則化(self-regularization)-局部對(duì)抗性損失-使用精煉圖像升級(jí)鑒別器。
我們發(fā)現(xiàn),這個(gè)過程可以產(chǎn)生高度逼真的圖像,在質(zhì)量上和用戶研究方面都已經(jīng)獲得證實(shí)。我們已經(jīng)通過訓(xùn)練模型評(píng)估視線水平和手勢(shì)姿態(tài),對(duì)計(jì)算機(jī)生成圖像進(jìn)行定量評(píng)估。通過使用合成圖像,我們的圖像識(shí)別算法已經(jīng)取得了巨大進(jìn)步。在沒有使用任何標(biāo)準(zhǔn)真實(shí)數(shù)據(jù)的情況下,我們?cè)贛PIIGaze數(shù)據(jù)集中獲得了最高水平的結(jié)果。
引言
隨著最近高容量深度神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)的崛起,大規(guī)模標(biāo)注訓(xùn)練數(shù)據(jù)集正變得日益重要??墒?,標(biāo)準(zhǔn)數(shù)量龐大的數(shù)據(jù)集成本非常高,而且相當(dāng)耗費(fèi)時(shí)間。為此,使用合成圖像而非真實(shí)圖像訓(xùn)練算法的想法開始出現(xiàn),因?yàn)樽⑨屢呀?jīng)可實(shí)現(xiàn)自動(dòng)化。利用XBOX360外設(shè)Kinect評(píng)估人體姿勢(shì)以及其他任務(wù),都是使用合成數(shù)據(jù)完成的。
(圖1:“模擬+無監(jiān)督”學(xué)習(xí):通過計(jì)算機(jī)生成圖像或合成圖像來訓(xùn)練算法的圖像識(shí)別能力)
然而,由于合成圖像與真實(shí)圖像之間存在差距,使用合成圖像訓(xùn)練算法可能產(chǎn)生很多問題。因?yàn)楹铣蓤D像通常不夠真實(shí),導(dǎo)致神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)僅僅能夠了解到合成圖像中的細(xì)節(jié),并不能完整地識(shí)別出真實(shí)圖像,進(jìn)而也無法為算法提供精確的學(xué)習(xí)。一種解決方案就是改進(jìn)模擬器,可是增加真實(shí)性的計(jì)算往往非常昂貴,渲染器的設(shè)計(jì)也更加困難。此外,即使最頂級(jí)的渲染器可能也無法模仿真實(shí)圖像中的所有特征。因此,缺少真實(shí)性可能導(dǎo)致算法過度擬合合成圖像中不真實(shí)的細(xì)節(jié)。
在這篇論文中,我們提出“模擬+無監(jiān)督”學(xué)習(xí)的方法,其目的就是使用未標(biāo)注真實(shí)數(shù)據(jù)的模擬器提高合成圖像的真實(shí)性。提高真實(shí)性可更好地幫助訓(xùn)練機(jī)器學(xué)習(xí)模型,而且無需收集任何數(shù)據(jù),也無需人類繼續(xù)標(biāo)注圖像。除了增加真實(shí)性,“模擬+無監(jiān)督”學(xué)習(xí)還應(yīng)該保留注釋信息以用于訓(xùn)練機(jī)器學(xué)習(xí)模型,比如圖一中的注視方向應(yīng)被保留下來。此外,由于機(jī)器學(xué)習(xí)模型對(duì)合成數(shù)據(jù)中的偽影非常敏感,“模擬+無監(jiān)督”學(xué)習(xí)也應(yīng)該產(chǎn)生沒有偽影的圖像。
我們?yōu)?ldquo;模擬+無監(jiān)督”學(xué)習(xí)開發(fā)出新的方法,我們稱之為SimGAN,它可以利用我們稱之為“精煉器網(wǎng)絡(luò)(refiner network)”的神經(jīng)網(wǎng)絡(luò)從模擬器中提煉合成圖像。圖二中展示了這種方法的概述:第一,黑盒子模擬器中生成合成圖像,然后利用“精煉器網(wǎng)絡(luò)”對(duì)其進(jìn)行提煉。為了增加真實(shí)性,也就是“模擬+無監(jiān)督”學(xué)習(xí)算法的首要需求,我們需要利用類似生成式對(duì)抗網(wǎng)絡(luò)(GAN)來訓(xùn)練“精煉器網(wǎng)絡(luò)”,進(jìn)而產(chǎn)生判別網(wǎng)絡(luò)無法區(qū)分真假的精煉圖像。
第二,為了保留合成圖像上的注釋信息,我們需要利用“自正則化損失”彌補(bǔ)對(duì)抗性損失,在合成圖像和精煉圖像之間進(jìn)行修改。此外,我們還利用完全卷積神經(jīng)網(wǎng)絡(luò),在像素水平方面進(jìn)行操作,并保留全局結(jié)構(gòu),而非整體修改圖像的內(nèi)容。