蘋果允許自己的AI研發(fā)人員公布自己的論文研究成果,并積極加入到AI學術(shù)圈的討論當中。這篇算是一個開頭。
報告來源:蘋果公司
編譯:網(wǎng)易科技編譯
智東西(公眾號:zhidxcom)授權(quán)轉(zhuǎn)載
日前,蘋果發(fā)布了其首份關(guān)于人工智能(AI)的學術(shù)論文“通過對抗網(wǎng)絡(luò)使用模擬和非監(jiān)督圖像訓練”(Learning from Simulated and Unsupervised Images through Adversarial Training),其中主要描述了在計算機視覺系統(tǒng)中提高圖像識別的方法,而這或許也標志著蘋果公司研究的新方向。
查看這篇論文的英文原版,請在智東西(公眾號:zhidxcom)回復(fù)“
蘋果AI論文”下載。
下面就是這篇報告的全文:
摘 要
隨著圖形技術(shù)不斷進步,利用合成圖像訓練機器學習模型變得越來越容易,這可以幫助避免注釋圖像的昂貴支出。然而,通過合成圖像訓練機器學習模型可能無法達到令人滿意的效果,因為合成圖像與真實圖像之間畢竟存在區(qū)別。為了減少這種差異,我們提出“模擬+無監(jiān)督”學習方法,即通過計算機生成圖像或合成圖像來訓練算法的圖像識別能力。
事實上,這種“模擬+無監(jiān)督”學習需要將無標注的真實圖像數(shù)據(jù)與已經(jīng)注釋的合成圖像相結(jié)合。在很大程度上,它需要依賴生成式對抗網(wǎng)絡(luò)(GAN)的新機器學習技術(shù),它可通過兩個神經(jīng)網(wǎng)絡(luò)相互對抗以生成更加真實的圖像。我們對標準GAN算法進行了多處關(guān)鍵性修改,以保留注釋、避免偽影以及穩(wěn)定性訓練:自正則化(self-regularization)-局部對抗性損失-使用精煉圖像升級鑒別器。
我們發(fā)現(xiàn),這個過程可以產(chǎn)生高度逼真的圖像,在質(zhì)量上和用戶研究方面都已經(jīng)獲得證實。我們已經(jīng)通過訓練模型評估視線水平和手勢姿態(tài),對計算機生成圖像進行定量評估。通過使用合成圖像,我們的圖像識別算法已經(jīng)取得了巨大進步。在沒有使用任何標準真實數(shù)據(jù)的情況下,我們在MPIIGaze數(shù)據(jù)集中獲得了最高水平的結(jié)果。
引 言
隨著最近高容量深度神經(jīng)學習網(wǎng)絡(luò)的崛起,大規(guī)模標注訓練數(shù)據(jù)集正變得日益重要。可是,標準數(shù)量龐大的數(shù)據(jù)集成本非常高,而且相當耗費時間。為此,使用合成圖像而非真實圖像訓練算法的想法開始出現(xiàn),因為注釋已經(jīng)可實現(xiàn)自動化。利用XBOX360外設(shè)Kinect評估人體姿勢以及其他任務(wù),都是使用合成數(shù)據(jù)完成的。
(圖1:“模擬+無監(jiān)督”學習:通過計算機生成圖像或合成圖像來訓練算法的圖像識別能力)
然而,由于合成圖像與真實圖像之間存在差距,使用合成圖像訓練算法可能產(chǎn)生很多問題。因為合成圖像通常不夠真實,導(dǎo)致神經(jīng)網(wǎng)絡(luò)學習僅僅能夠了解到合成圖像中的細節(jié),并不能完整地識別出真實圖像,進而也無法為算法提供精確的學習。一種解決方案就是改進模擬器,可是增加真實性的計算往往非常昂貴,渲染器的設(shè)計也更加困難。此外,即使最頂級的渲染器可能也無法模仿真實圖像中的所有特征。因此,缺少真實性可能導(dǎo)致算法過度擬合合成圖像中不真實的細節(jié)。
在這篇論文中,我們提出“模擬+無監(jiān)督”學習的方法,其目的就是使用未標注真實數(shù)據(jù)的模擬器提高合成圖像的真實性。提高真實性可更好地幫助訓練機器學習模型,而且無需收集任何數(shù)據(jù),也無需人類繼續(xù)標注圖像。除了增加真實性,“模擬+無監(jiān)督”學習還應(yīng)該保留注釋信息以用于訓練機器學習模型,比如圖一中的注視方向應(yīng)被保留下來。此外,由于機器學習模型對合成數(shù)據(jù)中的偽影非常敏感,“模擬+無監(jiān)督”學習也應(yīng)該產(chǎn)生沒有偽影的圖像。