今年的NIPS上,MIT的學(xué)者Vondrick等人發(fā)表了一篇名為Generating Videos with Scene Dynamics的論文,該論文提出了基于一幅靜態(tài)的圖片,模型自動(dòng)推測(cè)接下來(lái)的場(chǎng)景,例如給出一張人站在沙灘的圖片,模型自動(dòng)給出一段接下來(lái)的海浪涌動(dòng)的小視頻。該模型是以無(wú)監(jiān)督的方式,在大量的視頻上訓(xùn)練而來(lái)的。該模型表明它可以自動(dòng)學(xué)習(xí)到視頻中有用的特征。下圖是作者的官方主頁(yè)上給出的圖,是動(dòng)態(tài)圖,如果無(wú)法正常查看,請(qǐng)轉(zhuǎn)入官方網(wǎng)站
視頻生成例子,下圖的視頻是模型自動(dòng)生成的,我們可以看到圖片不太完美,但已經(jīng)能相當(dāng)好的表示一個(gè)場(chǎng)景了。


條件視頻生成,下圖是輸入一張靜態(tài)圖,模型自動(dòng)推演出一段小視頻。
圖15.根據(jù)一張草地靜態(tài)圖,模型自動(dòng)推測(cè)人的移動(dòng)場(chǎng)景,該圖為動(dòng)圖,如果無(wú)法查看,請(qǐng)?jiān)L問(wèn)
圖16.給出一張鐵道圖,模型自動(dòng)推測(cè)火車(chē)跑過(guò)的樣子,該圖為動(dòng)圖,如果無(wú)法查看,請(qǐng)?jiān)L問(wèn)
MIT的CSAIL實(shí)驗(yàn)室也放出了一篇博客,題目是《教會(huì)機(jī)器去預(yù)測(cè)未來(lái)》,該模型在youtube視頻和電視劇上(例如The Office和《絕望主婦》)訓(xùn)練,訓(xùn)練好以后,如果你給該模型一個(gè)親吻之前的圖片,該模型能自動(dòng)推測(cè)出加下來(lái)?yè)肀вH吻的動(dòng)作,具體的例子見(jiàn)下圖。 圖17. 給出一張靜態(tài)圖,模型自動(dòng)推測(cè)接下來(lái)的動(dòng)作
哈佛大學(xué)的Lotter等人提出了PredNet,該模型也是在KITTI數(shù)據(jù)集上訓(xùn)練,然后該模型就可以根據(jù)前面的視頻,預(yù)測(cè)行車(chē)記錄儀接下來(lái)幾幀的圖像,模型是用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)訓(xùn)練得到的。具體例子見(jiàn)下圖,給出行車(chē)記錄儀前幾張的圖片,自動(dòng)預(yù)測(cè)接下來(lái)的五幀場(chǎng)景,模型輸入幾幀圖像后,預(yù)測(cè)接下來(lái)的5幀,由圖可知,越往后,模型預(yù)測(cè)的越是模糊,但模型已經(jīng)可以給出有參加價(jià)值的預(yù)測(cè)結(jié)果了。圖片是動(dòng)圖,如果無(wú)法正常查看,請(qǐng)?jiān)L問(wèn)論文作者的博客
圖18. 給出行車(chē)記錄儀前幾張的圖片,自動(dòng)預(yù)測(cè)接下來(lái)的五幀場(chǎng)景,該圖為動(dòng)圖,如果無(wú)法查看,請(qǐng)?jiān)L問(wèn)
4 總結(jié)
生成對(duì)抗網(wǎng)絡(luò),無(wú)監(jiān)督學(xué)習(xí)視頻預(yù)測(cè)的論文實(shí)在是太多,本人精力實(shí)在有限,對(duì)此感興趣的讀者可以每天刷一下arxiv的計(jì)算機(jī)視覺(jué)版塊的計(jì)算機(jī)視覺(jué)和模型識(shí)別,神經(jīng)網(wǎng)絡(luò)和進(jìn)化計(jì)算和人工智能等相應(yīng)版塊,基本上每天都有這方面新論文出現(xiàn)。圖像檢測(cè)和分割,增強(qiáng)學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),預(yù)測(cè)學(xué)習(xí)都是人工智能發(fā)展火熱的方向,希望對(duì)深度學(xué)習(xí)感興趣的我們?cè)谶@方面能做出來(lái)點(diǎn)成果。謝謝朋友們的閱讀,對(duì)深度無(wú)監(jiān)督學(xué)習(xí)感興趣的朋友,歡迎一起學(xué)習(xí)交流,請(qǐng)私信我。
5 參考文獻(xiàn)
在寫(xiě)本文的過(guò)程中,我盡量把論文網(wǎng)址以鏈接的形式附著在正文中.本文參考的大部分博客和論文整理如下,方便大家和自己以后研究查看。