我們收益函數(shù)的實(shí)現(xiàn)(2):

最后是我們的訓(xùn)練循環(huán)。我們反復(fù)地玩多次游戲,每次都記分,然后調(diào)整參數(shù)——用阿爾法乘以所獲得收益得出學(xué)習(xí)速度。

運(yùn)行上一單元,我們看到訓(xùn)練起作用了!下面例子通過將TRAINNING設(shè)為FALSE跟蹤play_game()方法。這展示了一種智能步驟選擇過程。

這里前五行是游戲盤編碼——每一步都用(11)來填充網(wǎng)絡(luò)。第二至最后一行是所選擇的系列網(wǎng)絡(luò)選擇。最后一行是命中日志。請(qǐng)注意前兩步很好地抽樣了游戲盤不同地區(qū)。此后,所記錄命中為 66。該算法然后智能地選擇 77和 88,它能推斷它們一定是戰(zhàn)艦的最后位置。
下圖進(jìn)一步地描述了學(xué)習(xí)過程的特征。它將游戲平均長度(完全轟炸戰(zhàn)艦所需步驟)與訓(xùn)練時(shí)間進(jìn)行對(duì)照。該程序非常迅速地學(xué)到基礎(chǔ)知識(shí)并隨著時(shí)間推進(jìn)而持續(xù)進(jìn)步。

小結(jié)
在本貼中,我們講到RL的一種——即策略梯度、深度RL方案。該方法一般是當(dāng)前最知名戰(zhàn)略 ,偶爾也從其他方法中取樣,最終實(shí)現(xiàn)策略的迭加改進(jìn)。其兩個(gè)主要成份是策略網(wǎng)絡(luò)和收益函數(shù)。盡管網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)通常是督導(dǎo)學(xué)習(xí)考慮得最多的地方,但在RL的情況下最費(fèi)神的是收益函數(shù)。為了方便訓(xùn)練(依靠長遠(yuǎn)預(yù)測(cè)會(huì)放慢學(xué)習(xí)過程),好的選擇應(yīng)該是時(shí)間上盡可能地靠近。然而,收益函數(shù)常常也會(huì)損害到這一過程的最終目標(biāo)(“贏”這場(chǎng)游戲——鼓勵(lì)側(cè)向追求,而一些側(cè)向追求是不必要的,但如果不加注意會(huì)時(shí)常出現(xiàn))。要在這兩種互相競(jìng)爭(zhēng)的要求間進(jìn)行權(quán)衡并不容易。所以收益函數(shù)設(shè)計(jì)在某種程度上說是一種藝術(shù)。
我們這個(gè)簡(jiǎn)短的介紹只想說明RL實(shí)際上是如何實(shí)行的。更多細(xì)節(jié),我們推薦兩個(gè)來源:Sutton 和Barto的文本書[3]和最近John Schulman的談話[4]。