這里推薦一篇2017年初Ian GoodFellow結(jié)合他在NIPS2016的演講寫(xiě)出的綜述性論文NIPS 2016 Tutorial: Generative Adversarial Networks 圖9 生成對(duì)抗網(wǎng)絡(luò)生成的一些圖片,最后邊一列是與訓(xùn)練集中圖片最相近的生產(chǎn)圖片
3.1條件生成對(duì)抗網(wǎng)絡(luò)(Conditional Generative Adversarial Nets,CGAN)
生成對(duì)抗網(wǎng)絡(luò)一般是根據(jù)隨機(jī)噪聲來(lái)生成特定類(lèi)型的圖像等實(shí)例,條件生成對(duì)抗網(wǎng)絡(luò)則是根據(jù)一定的輸入來(lái)限定輸出,例如根據(jù)幾個(gè)描述名詞來(lái)生成特定的實(shí)例,這有點(diǎn)類(lèi)似1.5節(jié)介紹的由文字生成圖像,下圖是Conditioanal Generative Adversarial Nets論文中的一張圖片,根據(jù)特定的名詞描述來(lái)生成圖片。(注意:左邊的一列圖片的描述文字是訓(xùn)練集中不存在的,也就是說(shuō)是模型根據(jù)沒(méi)有見(jiàn)過(guò)的描述來(lái)生成的圖片,右邊的一列圖片的描述是訓(xùn)練集中存在的) 圖10. 根據(jù)文字來(lái)生成圖片
條件生成對(duì)抗網(wǎng)絡(luò)的另一篇有意思的論文是圖像到圖像的翻譯,該論文提出的模型能夠根據(jù)一張輸入圖片,然后給出模型生成的圖片,下圖是論文中的一張圖,其中左上角第一對(duì)非常有意思,模型輸入圖像分割的結(jié)果,給出了生成的真實(shí)場(chǎng)景的結(jié)果,這類(lèi)似于圖像分割的反向工程。 圖11. 根據(jù)特定輸入來(lái)生成一些有意思的輸出圖片
生成對(duì)抗網(wǎng)絡(luò)也用在了圖像超分辨率上,2016年有人提出SRGAN模型,它把原高清圖下采樣后,試圖用生成對(duì)抗網(wǎng)絡(luò)模型來(lái)還原圖片來(lái)生成更為自然的,更逼近原圖像的圖像。下圖中最右邊是原圖,把他降采樣后采用三次差值(Bicubic Interpolation)得到的圖像比較模糊,采用殘差網(wǎng)絡(luò)的版本(SRResNet)已經(jīng)干凈了很多,我們可以看到SRGAN生成的圖片更為真實(shí)一些。
圖12.生成對(duì)抗網(wǎng)絡(luò)做超分辨率的例子,最右邊是原始圖像
生成對(duì)抗網(wǎng)絡(luò)的另一篇有影響力的論文是深度卷積生成對(duì)抗網(wǎng)絡(luò)DCGAN,作者把卷積神經(jīng)網(wǎng)絡(luò)和生成對(duì)抗網(wǎng)絡(luò)結(jié)合起來(lái),作者指出該框架可以很好的學(xué)習(xí)事物的特征,論文在圖像生成和圖像操作上給出了很有意思的結(jié)果,例如圖13,帶眼睛的男人-不戴眼鏡的男人+不帶眼睛的女人=帶眼睛的女人,該模型給出了圖片的類(lèi)似向量化操作。 圖13. DCGAN論文中的例圖
生成對(duì)抗網(wǎng)絡(luò)的發(fā)展是在是太火爆,一篇文章難以羅列完全,對(duì)此感興趣的朋友們可以自己在網(wǎng)絡(luò)搜素相關(guān)論文來(lái)研究
openAI的一篇描述生成對(duì)抗網(wǎng)絡(luò)的博客非常棒,因?yàn)镮an Goodfellow就在OpenAI工作,所以這篇博客的質(zhì)量還是相當(dāng)有保障的。鏈接為:Open AI 生成對(duì)抗網(wǎng)絡(luò)博客
3.2 視頻預(yù)測(cè)
該方向是筆者自己最感興趣的方向,Yann LeCun也提出,“用預(yù)測(cè)學(xué)習(xí)來(lái)替代無(wú)監(jiān)督學(xué)習(xí)”,預(yù)測(cè)學(xué)習(xí)通過(guò)觀察和理解這個(gè)世界是如何運(yùn)作的,然后對(duì)世界的變化做出預(yù)測(cè),機(jī)器學(xué)會(huì)了感知世界的變化,然后對(duì)世界的狀態(tài)進(jìn)行了推斷。