增強(qiáng)學(xué)習(xí)
強(qiáng)化/增強(qiáng)學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)領(lǐng)域,強(qiáng)調(diào)如何基于環(huán)境而行動(dòng),以取得最大化的預(yù)期利益。其靈感來(lái)源于心理學(xué)中的行為主義理論,即有機(jī)體如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下,逐步形成對(duì)刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。這個(gè)方法具有普適性,因此在其他許多領(lǐng)域都有研究,例如博弈論、控制論、運(yùn)籌學(xué)、信息論、仿真優(yōu)化方法、多主體系統(tǒng)學(xué)習(xí)、群體智能、統(tǒng)計(jì)學(xué)以及遺傳算法。 –維基百科
簡(jiǎn)而言之,增強(qiáng)學(xué)習(xí)是一種基于環(huán)境反饋而做決策的通用框架。具體到機(jī)器學(xué)習(xí)領(lǐng)域,很多人往往知道 監(jiān)督式學(xué)習(xí)
和 非監(jiān)督式學(xué)習(xí)
(甚至半監(jiān)督式學(xué)習(xí)),但卻不知道第三類機(jī)器學(xué)習(xí)方法,即增強(qiáng)學(xué)習(xí)。 因?yàn)樵鰪?qiáng)學(xué)習(xí)強(qiáng)調(diào)與環(huán)境的交互,我認(rèn)為是離普遍意義上的人工智能更接近的一個(gè)領(lǐng)域。 這里『增強(qiáng)』或者『強(qiáng)化』的意思是,根據(jù)不斷試錯(cuò)而得到的獎(jiǎng)懲來(lái)不斷增強(qiáng)對(duì)趨利決策的信念。David Silver下面這張圖很好的總結(jié)了增強(qiáng)學(xué)習(xí)的研究主體,即 Agent
、 Environment
以及 State
。
首先在時(shí)刻, Agent依據(jù)當(dāng)前的狀態(tài)以及歷史信息來(lái)決定下一輪的決策( action
) 。然后給定當(dāng)前的狀態(tài) 以及 Agent的決策 ,Environment決定下一輪 的狀態(tài) 、給Agent的報(bào)酬( reward