怎么利用深度增強(qiáng)學(xué)習(xí)解決問題
正如上文的分析,David Silver將深度增強(qiáng)學(xué)習(xí)算法分為如下三大類 [5] 。 下文將先從增強(qiáng)學(xué)習(xí)的角度分析如何做決策,然后從深度學(xué)習(xí)的角度來分析如何學(xué)習(xí)相應(yīng)的策略函數(shù)、估值函數(shù)以及環(huán)境函數(shù)。
Policy-based DRL
下圖展示了利用 Policy Iteration Algorithm
來解決增強(qiáng)學(xué)習(xí)問題的思路。即給定任意初始策略 ,然后利用估值函數(shù) 對(duì)其評(píng)價(jià),基于該估值函數(shù)對(duì)策略進(jìn)一步優(yōu)化得到 。循環(huán)這一過程,直至策略達(dá)到最優(yōu)而不能進(jìn)一步改善。
至于在深度學(xué)習(xí)方面,首先對(duì)policy function進(jìn)行參數(shù)化 ,其中 為神經(jīng)網(wǎng)絡(luò)的參數(shù)。其次,參數(shù)化后的累積期望收益函數(shù)為 。然后,我們就可以得到 策略梯度
(Policy Gradients),在隨機(jī)性策略函數(shù)下為 ,而在確定性策略函數(shù)下為 。最后,便可以利用梯度下降算法來尋找最優(yōu)的神經(jīng)網(wǎng)絡(luò)參數(shù) [6] 。
Value-based DRL
下圖是解決增強(qiáng)學(xué)習(xí)問題的 Value Iteration Algorithm
的偽代碼。即給定任意初始估值函數(shù) ,利用貝爾曼方程遞推得逼近真實(shí)的估值函數(shù)。