Policy function
(策略函數(shù)):從狀態(tài)到?jīng)Q策的映射- Deterministic policy:
- Stochastic policy:
Value function
(價值函數(shù)):從狀態(tài)以及決策到期望累積收益的映射- Bellman equation of
Q-value function
: - Bellman equation of
Optimal value function
:
- Bellman equation of
Model function
(環(huán)境函數(shù)):從狀態(tài)以及決策到環(huán)境決策的映射 [3]- Deterministic environment:
- Stochastic environment:
通過折現(xiàn)因子 的引入,Q-value function一來可以轉(zhuǎn)化為貝爾曼方程并滿足無后效性以及最優(yōu)子結(jié)構(gòu)的特征;并且多期的折現(xiàn)又比單純的one-step lookahead貪婪策略更加具有遠見。 總而言之,求解增強學習問題的核心實際上在于價值函數(shù)的貝爾曼方程,這也是動態(tài)規(guī)劃里標準的狀態(tài)轉(zhuǎn)移方程,即定義好邊界以及該方程后,就可以通過倒推法或者帶記憶的遞歸予以解決。 不過增強學習也可以通過直接搜索最優(yōu)策略或者學習環(huán)境的獎懲套路來解決。 實際上,這三個要素正是強化學習同深度學習結(jié)合的關(guān)鍵。 正如David Silver所說 [4] ,
Reinforcement Learning defines the objective. Deep Learning gives the mechanism. – David Silver
二者的融合
對于復雜的任務以及環(huán)境而言,Q-value function實際上很難窮舉的完的(針對每一個狀態(tài)和決策都要給一個累積期望收益值),因此一般需要通過歷史信息來估計這一函數(shù)。同樣的,對Policy function和Model function也有類似的情況。 所以在給定增強學習三大求解目標(Policy-based, Value-based, Model-based)之后,我們便可以利用深度學習來利用歷史輸入輸出來估計這三大目標函數(shù)。