
1.5 圖像生成–文字轉(zhuǎn)圖像(Image Generator)
圖片標(biāo)注任務(wù)本來(lái)是一個(gè)半圓,既然我們可以從圖片產(chǎn)生描述文字,那么我們也能從文字來(lái)生成圖片。如圖6所示,第一列“一架大客機(jī)在藍(lán)天飛翔”,模型自動(dòng)根據(jù)文字生成了16張圖片,第三列比較有意思,“一群大象在干燥草地行走”(這個(gè)有點(diǎn)違背常識(shí),因?yàn)榇笙笠话阍谟炅?,不?huì)在干燥草地上行走),模型也相應(yīng)的生成了對(duì)應(yīng)圖片,雖然生成的質(zhì)量還不算太好,但也已經(jīng)中規(guī)中矩。 圖6.根據(jù)文字生成圖片
2.強(qiáng)化學(xué)習(xí)(Reinforcement Learning)
在監(jiān)督學(xué)習(xí)任務(wù)中,我們都是給定樣本一個(gè)固定標(biāo)簽,然后去訓(xùn)練模型,可是,在真實(shí)環(huán)境中,我們很難給出所有樣本的標(biāo)簽,這時(shí)候,強(qiáng)化學(xué)習(xí)就派上了用場(chǎng)。簡(jiǎn)單來(lái)說(shuō),我們給定一些獎(jiǎng)勵(lì)或懲罰,強(qiáng)化學(xué)習(xí)就是讓模型自己去試錯(cuò),模型自己去優(yōu)化怎么才能得到更多的分?jǐn)?shù)。2016年大火的AlphaGo就是利用了強(qiáng)化學(xué)習(xí)去訓(xùn)練,它在不斷的自我試錯(cuò)和博弈中掌握了最優(yōu)的策略。利用強(qiáng)化學(xué)習(xí)去玩flyppy bird,已經(jīng)能夠玩到幾萬(wàn)分了。 圖7. 強(qiáng)化學(xué)習(xí)玩flappy bird
谷歌DeepMind發(fā)表的使用增強(qiáng)學(xué)習(xí)來(lái)玩Atari游戲,其中一個(gè)經(jīng)典的游戲是打磚塊(breakout),DeepMind提出的模型僅僅使用像素作為輸入,沒(méi)有任何其他先驗(yàn)知識(shí),換句話說(shuō),模型并不認(rèn)識(shí)球是什么,它玩的是什么,令人驚訝的是,在經(jīng)過(guò)240分鐘的訓(xùn)練后,它不光學(xué)會(huì)了正確的接球,擊打磚塊,它甚至學(xué)會(huì)了持續(xù)擊打同一個(gè)位置,游戲就勝利的越快(它的獎(jiǎng)勵(lì)也越高)。視頻鏈接:Youtbe(需翻墻),優(yōu)酷
圖8.使用深度增強(qiáng)學(xué)習(xí)來(lái)玩Atari Breakout
強(qiáng)化學(xué)習(xí)在機(jī)器人領(lǐng)域和自動(dòng)駕駛領(lǐng)域有極大的應(yīng)用價(jià)值,當(dāng)前arxiv上基本上每隔幾天就會(huì)有相應(yīng)的論文出現(xiàn)。機(jī)器人去學(xué)習(xí)試錯(cuò)來(lái)學(xué)習(xí)最優(yōu)的表現(xiàn),這或許是人工智能進(jìn)化的最優(yōu)途徑,估計(jì)也是通向強(qiáng)人工智能的必經(jīng)之路。
3深度無(wú)監(jiān)督學(xué)習(xí)(Deep Unsupervised Learning)–預(yù)測(cè)學(xué)習(xí)
相比有限的監(jiān)督學(xué)習(xí)數(shù)據(jù),自然界有無(wú)窮無(wú)盡的未標(biāo)注數(shù)據(jù)。試想,如果人工智能可以從龐大的自然界自動(dòng)去學(xué)習(xí),那豈不是開(kāi)啟了一個(gè)新紀(jì)元?當(dāng)前,最有前景的研究領(lǐng)域或許應(yīng)屬無(wú)監(jiān)督學(xué)習(xí),這也正是Yann Lecun教授把無(wú)監(jiān)督學(xué)習(xí)比喻成人工智能大蛋糕的原因吧。
深度學(xué)習(xí)牛人Ian Goodfellow在2014年提出生成對(duì)抗網(wǎng)絡(luò)后,該領(lǐng)域越來(lái)越火,成為16年研究最火熱的一個(gè)領(lǐng)域之一。大牛Yann LeCun曾說(shuō):“對(duì)抗網(wǎng)絡(luò)是切片面包發(fā)明以來(lái)最令人激動(dòng)的事情。”大牛這句話足以說(shuō)明生成對(duì)抗網(wǎng)絡(luò)有多重要。
生成對(duì)抗網(wǎng)絡(luò)的一個(gè)簡(jiǎn)單解釋如下:假設(shè)有兩個(gè)模型,一個(gè)是生成模型(Generative Model,下文簡(jiǎn)寫(xiě)為G),一個(gè)是判別模型(Discriminative Model,下文簡(jiǎn)寫(xiě)為D),判別模型(D)的任務(wù)就是判斷一個(gè)實(shí)例是真實(shí)的還是由模型生成的,生成模型(G)的任務(wù)是生成一個(gè)實(shí)例來(lái)騙過(guò)判別模型(D),兩個(gè)模型互相對(duì)抗,發(fā)展下去就會(huì)達(dá)到一個(gè)平衡,生成模型生成的實(shí)例與真實(shí)的沒(méi)有區(qū)別,判別模型無(wú)法區(qū)分自然的還是模型生成的。以贗品商人為例,贗品商人(生成模型)制作出假的畢加索畫(huà)作來(lái)欺騙行家(判別模型D),贗品商人一直提升他的高仿水平來(lái)區(qū)分行家,行家也一直學(xué)習(xí)真的假的畢加索畫(huà)作來(lái)提升自己的辨識(shí)能力,兩個(gè)人一直博弈,最后贗品商人高仿的畢加索畫(huà)作達(dá)到了以假亂真的水平,行家最后也很難區(qū)分正品和贗品了。下圖是Goodfellow在發(fā)表生成對(duì)抗網(wǎng)絡(luò)論文中的一些生成圖片,可以看出,模型生成的模型與真實(shí)的還是有大差別,但這是14年的論文了,16年這個(gè)領(lǐng)域進(jìn)展非常快,相繼出現(xiàn)了條件生成對(duì)抗網(wǎng)絡(luò)(Conditional Generative Adversarial Nets)和信息生成對(duì)抗網(wǎng)絡(luò)(InfoGAN),深度卷積生成對(duì)抗網(wǎng)絡(luò)(Deep Convolutional Generative Adversarial Network, DCGAN),