這樣,強化學習訓練所需的信息就齊全了,夢境中的訓練,GO!
夢境重現(xiàn)了真實環(huán)境中的必要元素,和真正的VizDoom有著一樣的游戲邏輯、物理規(guī)則和(比較模糊的)3D圖形,也和真實環(huán)境一樣有會扔火球的怪物,AI智能體要學著躲避這些火球。
更cool的是,這個夢境可以增加一些不確定因素,比如說讓火球飛得更沒有規(guī)律。這樣,夢中游戲就比真實環(huán)境更難。
在夢境中訓練之后,AI就可以去真正的VizDoom中一試身手了:
AI在VizDoom中的表現(xiàn)相當不錯,在連續(xù)100次測試中跑過了1100幀,比150幀的基準得分高出不少。
怎么做到的?
他們所用的方法,簡單來說就是RNN和控制器的結合。
這項研究把智能體分為兩類模型:大型的世界模型和小型的控制器模型,用這種方式來訓練一個大型神經網絡來解決強化學習問題。
具體來說,他們先訓練一個大型的神經網絡用無監(jiān)督方式來學習智能體所在世界的模型,然后訓練一個小型控制器使用這個世界模型來學習如何解決任務。
這樣,控制器的訓練算法只需要在很小的搜索空間中專注于信任度分配問題,而大型的世界模型又保障了整個智能體的能力和表達性。
這里的世界模型包括兩部分,一個視覺模型(V),用來將觀察到的高維信息編碼成低維隱藏向量;一個是記憶RNN(M),用來借歷史編碼預測未來狀態(tài)。控制器(C)借助V和M的表征來選擇好的行動。
在我們上面講到的開車、打Doom實驗中,視覺模型V用了一個VAE,變分自編碼器;記憶模型M用的是MDN-RNN,和谷歌大腦讓你畫簡筆畫的SketchRNN一樣;控制器C是一個簡單的單層線性模型。
把這三個模型組裝在一起,就形成了這項研究中智能體從感知到決策的整個流程:
視覺模型V負責處理每個時間步上對環(huán)境的原始觀察信息,然后將這些信息編碼成隱藏向量zt,和記憶模型M在同一時間步上的隱藏狀態(tài)ht串聯(lián)起來,輸入到控制器C,然后C輸出行為向量at。
然后,M根據當前的zt和at,來更新自己的隱藏狀態(tài),生成下一步的ht+1。
這有什么用?
讓AI會“做夢”,還能在“夢境”中學習,其實有很多實際用途。
比如說在教AI打游戲的時候,如果直接在實際環(huán)境里訓練,就要浪費很多計算資源來處理每一幀圖像中的游戲狀態(tài),或者計算那些和游戲并沒有太大關系的物理規(guī)則。用這個“做夢”的方式,就可以在AI自己抽象并預測出來的環(huán)境中,不消耗那么多計算資源,一遍又一遍地訓練它。
在這項研究中,他們還借助了神經科學的成果,主要感知神經元最初出于抑制狀態(tài),在接收到獎勵之后才會釋放,也就是說神經網絡主要學習的是任務相關的特征。
將來,他們還打算給VAE加上非監(jiān)督分割層,來提取更有用、可解釋性更好的特征表示。