強化學(xué)習(xí)
另一個關(guān)鍵的部分是如何模仿一個人(或動物)學(xué)習(xí)。想象一下感知/行為/獎賞周期的非常自然的動物行為。一個人或動物首先會通過感知他或她處于什么狀態(tài)來理解環(huán)境?;谶@一點,他或她會選擇一個"動作"把他或她帶到另一個"狀態(tài)",然后他或她會得到一個"獎勵",如此循環(huán)重復(fù)。
這種學(xué)習(xí)方法(稱為強化學(xué)習(xí))與傳統(tǒng)的有監(jiān)督機器學(xué)習(xí)的曲線擬合方法有很大的不同。特別是,強化學(xué)習(xí)的發(fā)生非常迅速,因為每一個新的反饋(如執(zhí)行一個動作和獲得一個獎勵)立即被發(fā)送來影響隨后的決定。強化學(xué)習(xí)已經(jīng)獲得了巨大的成功在自動駕駛汽車以及AlphaGO(下棋機器人)。
強化學(xué)習(xí)也提供了一個平滑的預(yù)測和優(yōu)化集成,因為它保持一個信念的當(dāng)前狀態(tài)和可能的轉(zhuǎn)移概率時采取不同的行動,然后作出決定,哪些行動會帶來最好的結(jié)果。
深度學(xué)習(xí)+強化學(xué)習(xí)=人工智能
與經(jīng)典機器學(xué)習(xí)技術(shù)相比,深度學(xué)習(xí)提供了一個更強大的預(yù)測模型,通常能產(chǎn)生良好的預(yù)測。與經(jīng)典的優(yōu)化模型相比,強化學(xué)習(xí)提供了更快的學(xué)習(xí)機制,并且更適應(yīng)環(huán)境的變化。
作者:RickyHo