
至于深度學(xué)習(xí)方面,類似的,先對value function進(jìn)行參數(shù)化 ,那我們的目的就是找 。然后,就是優(yōu)化損失函數(shù) [7] 。David Silver在這里提到如果樣本之間存在相關(guān)性或者收益函數(shù)非平穩(wěn),容易導(dǎo)致價(jià)值函數(shù)的不收斂,因此需要一些機(jī)制來予以解決。
Model-based DRL
關(guān)于Model-based DRL,David Silver講的比較少,主要舉了Alpha Go的例子,即我們完美知道環(huán)境的信息(走子規(guī)則、勝負(fù)規(guī)則等等)。大致意思還是利用神經(jīng)網(wǎng)絡(luò)來代替真實(shí)的環(huán)境函數(shù),也就是讓Agent有能力預(yù)測環(huán)境下一期的狀態(tài)以及收益等等,基于此來優(yōu)化Agent的決策過程。下圖是網(wǎng)上 [8] 找到的 Model Iteration Algorithm
的偽代碼,基本就是通過對狀態(tài)轉(zhuǎn)移函數(shù)以及獎(jiǎng)懲函數(shù)的搜索,來估計(jì)價(jià)值函數(shù)。
深度增強(qiáng)學(xué)習(xí)有哪些用途
可以看到凡是任務(wù)導(dǎo)向型,并且目標(biāo)可以被獎(jiǎng)懲函數(shù)刻畫的,均可以利用深度增強(qiáng)學(xué)習(xí)來解決,所以其應(yīng)用范圍還是蠻廣的。以下舉了深度增強(qiáng)學(xué)習(xí)的若干應(yīng)用,視頻均來自Youtube,因此需要科學(xué)上網(wǎng)。