論文:預(yù)測器:端到端的學(xué)習(xí)和規(guī)劃(The Predictron: End-To-End Learning and Planning)
摘要
人工智能的主要挑戰(zhàn)之一是在有規(guī)劃的情況下有效地學(xué)習(xí)模型。在本文中,我們介紹了一種叫預(yù)測器(predictron)的架構(gòu)。預(yù)測器包含一個完全抽象的模型,由帶有獎勵的馬爾可夫過程(Markov reward process)表示,可以向前「想象」多個規(guī)劃步驟。預(yù)測器的每個正向傳遞(forward pass)在多個規(guī)劃深度上累積內(nèi)部獎勵(reward)和值。預(yù)測器由端對端的方式訓(xùn)練,以使這些累積值準(zhǔn)確地近似于真實的價值函數(shù)(value function)。我們將預(yù)測器應(yīng)用于程序生成的隨機迷宮(maze)和模擬器游戲池(game of pool)。預(yù)測器產(chǎn)生比常規(guī)深度神經(jīng)網(wǎng)絡(luò)架構(gòu)明顯更準(zhǔn)確的預(yù)測。
導(dǎo)語
基于模型的增強學(xué)習(xí)(reinforcement learning/RL)的核心思想是將 RL 問題分解為兩個子問題:學(xué)習(xí)環(huán)境模型,然后用這個模型進行規(guī)劃。該模型通常由帶有獎勵的馬爾科夫過程(MRP)或決策過程(decision process/MDP)表示。規(guī)劃步驟利用此模型來評估和選擇可能的策略。這通常通過向前推演模型以構(gòu)建估計累積獎勵的價值函數(shù)來實現(xiàn)。之前的研究把模型的訓(xùn)練與使用在規(guī)劃器的范圍內(nèi)基本上獨立分開。因此,訓(xùn)練的模型與 agent 主體的總體目標(biāo)并不匹配。先前的深度強化學(xué)習(xí)方法已經(jīng)成功構(gòu)建了可以實現(xiàn)接近像素級完美呈現(xiàn)(pixel-perfect)的重建模型(Oh 等人 2015;Chiappa 等人 2016)。但在充滿挑戰(zhàn)的 RL 領(lǐng)域,用原始數(shù)據(jù)時,尚未超越最先進的無模型(modelfree method)方法(例如,Mnih 等人 2015;2016;Lillicrap 等人 2016)。
在本文中,我們介紹一種新的架構(gòu),我們稱之為預(yù)測器,它將學(xué)習(xí)和規(guī)劃步驟集成到一個端到端的訓(xùn)練過程中。agent 每進行一步,模型會基于當(dāng)前的內(nèi)部狀態(tài)(internal state)產(chǎn)生下一狀態(tài),估計獎勵(reward)、折扣因子(discount)和該狀態(tài)具有的價值(value)。這個模型是完全抽象的,其唯一的目標(biāo)是構(gòu)建準(zhǔn)確的價值預(yù)測。例如,為了在游戲中有效地計劃,agent 必須能夠預(yù)測得分。如果我們的模型能夠做出準(zhǔn)確的預(yù)測,那么基于這個模型的最佳規(guī)劃也將是全局最佳規(guī)劃——即使該模型使用不同的狀態(tài)空間(state space)(例如,抽象表示的敵人位置,忽略了形狀和顏色)、行動空間(action space)(例如,向遠(yuǎn)離敵人方向移動的高級動作)、獎勵(reward)(例如,單個抽象步驟可以具有比任何真實獎勵更高的值)、甚至?xí)r間步長(timestep)(例如,單個抽象步驟可以讓 agent「跳」到走廊的盡頭)。我們的目的是通過抽象模型的軌跡產(chǎn)生的分?jǐn)?shù)與通過真實環(huán)境的軌跡產(chǎn)生的分?jǐn)?shù)一致。這通過端對端地訓(xùn)練預(yù)測器來實現(xiàn),以使得其值估計盡可能準(zhǔn)確。
理想模型可以推廣到許多不同的預(yù)測任務(wù),而不是過度擬合單個任務(wù);并且可以從豐富多樣的反饋信號(feedback signal)中學(xué)習(xí),而不僅僅是外在獎勵。因此,我們訓(xùn)練預(yù)測器來預(yù)測大量不同的價值函數(shù),這些價值函數(shù)具有不同的擬獎勵函數(shù)(pseudoreward function)和折扣因子(discount factor)。這些擬獎勵可以用于估計 agent 可能碰到的任何事件或環(huán)境,例如,不休眠或進入下一個房間。該模型專注于預(yù)測任務(wù):估計在動力不受控制的 MRP 環(huán)境中的價值函數(shù)。在這種情況下,預(yù)測器可以當(dāng)作具有 MRP 循環(huán)核(recurrent core)的深度神經(jīng)網(wǎng)絡(luò)。預(yù)測器將該循環(huán)核展開為多個步驟,并累積所有獎勵的值作為價值的總體估計。
我們將預(yù)測器應(yīng)用于程序生成的隨機迷宮和模擬器游泳池并直接傳入像素級的輸入數(shù)據(jù)(pixel input)。在這兩種情況下,預(yù)測器顯著優(yōu)于傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的無模型算法(model-free algorithm);并且在諸如深度(depth)等架構(gòu)參數(shù)的選擇上更加魯棒。