論文:預(yù)測(cè)器:端到端的學(xué)習(xí)和規(guī)劃(The Predictron: End-To-End Learning and Planning)
摘要
人工智能的主要挑戰(zhàn)之一是在有規(guī)劃的情況下有效地學(xué)習(xí)模型。在本文中,我們介紹了一種叫預(yù)測(cè)器(predictron)的架構(gòu)。預(yù)測(cè)器包含一個(gè)完全抽象的模型,由帶有獎(jiǎng)勵(lì)的馬爾可夫過程(Markov reward process)表示,可以向前「想象」多個(gè)規(guī)劃步驟。預(yù)測(cè)器的每個(gè)正向傳遞(forward pass)在多個(gè)規(guī)劃深度上累積內(nèi)部獎(jiǎng)勵(lì)(reward)和值。預(yù)測(cè)器由端對(duì)端的方式訓(xùn)練,以使這些累積值準(zhǔn)確地近似于真實(shí)的價(jià)值函數(shù)(value function)。我們將預(yù)測(cè)器應(yīng)用于程序生成的隨機(jī)迷宮(maze)和模擬器游戲池(game of pool)。預(yù)測(cè)器產(chǎn)生比常規(guī)深度神經(jīng)網(wǎng)絡(luò)架構(gòu)明顯更準(zhǔn)確的預(yù)測(cè)。
導(dǎo)語
基于模型的增強(qiáng)學(xué)習(xí)(reinforcement learning/RL)的核心思想是將 RL 問題分解為兩個(gè)子問題:學(xué)習(xí)環(huán)境模型,然后用這個(gè)模型進(jìn)行規(guī)劃。該模型通常由帶有獎(jiǎng)勵(lì)的馬爾科夫過程(MRP)或決策過程(decision process/MDP)表示。規(guī)劃步驟利用此模型來評(píng)估和選擇可能的策略。這通常通過向前推演模型以構(gòu)建估計(jì)累積獎(jiǎng)勵(lì)的價(jià)值函數(shù)來實(shí)現(xiàn)。之前的研究把模型的訓(xùn)練與使用在規(guī)劃器的范圍內(nèi)基本上獨(dú)立分開。因此,訓(xùn)練的模型與 agent 主體的總體目標(biāo)并不匹配。先前的深度強(qiáng)化學(xué)習(xí)方法已經(jīng)成功構(gòu)建了可以實(shí)現(xiàn)接近像素級(jí)完美呈現(xiàn)(pixel-perfect)的重建模型(Oh 等人 2015;Chiappa 等人 2016)。但在充滿挑戰(zhàn)的 RL 領(lǐng)域,用原始數(shù)據(jù)時(shí),尚未超越最先進(jìn)的無模型(modelfree method)方法(例如,Mnih 等人 2015;2016;Lillicrap 等人 2016)。
在本文中,我們介紹一種新的架構(gòu),我們稱之為預(yù)測(cè)器,它將學(xué)習(xí)和規(guī)劃步驟集成到一個(gè)端到端的訓(xùn)練過程中。agent 每進(jìn)行一步,模型會(huì)基于當(dāng)前的內(nèi)部狀態(tài)(internal state)產(chǎn)生下一狀態(tài),估計(jì)獎(jiǎng)勵(lì)(reward)、折扣因子(discount)和該狀態(tài)具有的價(jià)值(value)。這個(gè)模型是完全抽象的,其唯一的目標(biāo)是構(gòu)建準(zhǔn)確的價(jià)值預(yù)測(cè)。例如,為了在游戲中有效地計(jì)劃,agent 必須能夠預(yù)測(cè)得分。如果我們的模型能夠做出準(zhǔn)確的預(yù)測(cè),那么基于這個(gè)模型的最佳規(guī)劃也將是全局最佳規(guī)劃——即使該模型使用不同的狀態(tài)空間(state space)(例如,抽象表示的敵人位置,忽略了形狀和顏色)、行動(dòng)空間(action space)(例如,向遠(yuǎn)離敵人方向移動(dòng)的高級(jí)動(dòng)作)、獎(jiǎng)勵(lì)(reward)(例如,單個(gè)抽象步驟可以具有比任何真實(shí)獎(jiǎng)勵(lì)更高的值)、甚至?xí)r間步長(zhǎng)(timestep)(例如,單個(gè)抽象步驟可以讓 agent「跳」到走廊的盡頭)。我們的目的是通過抽象模型的軌跡產(chǎn)生的分?jǐn)?shù)與通過真實(shí)環(huán)境的軌跡產(chǎn)生的分?jǐn)?shù)一致。這通過端對(duì)端地訓(xùn)練預(yù)測(cè)器來實(shí)現(xiàn),以使得其值估計(jì)盡可能準(zhǔn)確。
理想模型可以推廣到許多不同的預(yù)測(cè)任務(wù),而不是過度擬合單個(gè)任務(wù);并且可以從豐富多樣的反饋信號(hào)(feedback signal)中學(xué)習(xí),而不僅僅是外在獎(jiǎng)勵(lì)。因此,我們訓(xùn)練預(yù)測(cè)器來預(yù)測(cè)大量不同的價(jià)值函數(shù),這些價(jià)值函數(shù)具有不同的擬獎(jiǎng)勵(lì)函數(shù)(pseudoreward function)和折扣因子(discount factor)。這些擬獎(jiǎng)勵(lì)可以用于估計(jì) agent 可能碰到的任何事件或環(huán)境,例如,不休眠或進(jìn)入下一個(gè)房間。該模型專注于預(yù)測(cè)任務(wù):估計(jì)在動(dòng)力不受控制的 MRP 環(huán)境中的價(jià)值函數(shù)。在這種情況下,預(yù)測(cè)器可以當(dāng)作具有 MRP 循環(huán)核(recurrent core)的深度神經(jīng)網(wǎng)絡(luò)。預(yù)測(cè)器將該循環(huán)核展開為多個(gè)步驟,并累積所有獎(jiǎng)勵(lì)的值作為價(jià)值的總體估計(jì)。
我們將預(yù)測(cè)器應(yīng)用于程序生成的隨機(jī)迷宮和模擬器游泳池并直接傳入像素級(jí)的輸入數(shù)據(jù)(pixel input)。在這兩種情況下,預(yù)測(cè)器顯著優(yōu)于傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的無模型算法(model-free algorithm);并且在諸如深度(depth)等架構(gòu)參數(shù)的選擇上更加魯棒。