本文是系列文章中的第一篇,是對(duì)深度增強(qiáng)學(xué)習(xí)/深度強(qiáng)化學(xué)習(xí)的基本介紹以及對(duì)實(shí)現(xiàn)通用人工智能的探討。
現(xiàn)在但凡寫人工智能的文章,必提 Alpha Go 。也正是因?yàn)锳lpha Go在圍棋人機(jī)大戰(zhàn)中里程碑式的勝利,人工智能迎來了新的春天。 本文也不免俗套,從Alpha Go說起,但希望能指明一些被忽視的但對(duì)Alpha Go棋力有深遠(yuǎn)影響的技術(shù)。 圍棋人工智能大致可以分為三個(gè)階段 [1] :第一階段以啟發(fā)式算法為主,水平低于業(yè)余初段,代表軟件即以靜態(tài)勢力函數(shù)為強(qiáng)項(xiàng)的 手談 ; 第二階段以 蒙特卡洛樹搜索算法 為代表,水平最高達(dá)到業(yè)余5段,比如說 Zen , Crazy Stone ;第三階段以 深度學(xué)習(xí)
( Deep Learning )以及 增強(qiáng)學(xué)習(xí)
( Reinforcement Learning ,也稱強(qiáng)化學(xué)習(xí))算法為突破,并戰(zhàn)勝了人類職業(yè)九段棋手李世乭,這也就是Alpha Go的故事了。每每提到Alpha Go卓越的能力,往往歸咎于深度學(xué)習(xí)的強(qiáng)大,但實(shí)際上增強(qiáng)學(xué)習(xí)算法也功不可沒。這二者的結(jié)合被稱之為 深度增強(qiáng)學(xué)習(xí)
( Deep Reinforcement Learning ,DRL),最初見于DeepMind在Nature上發(fā)表的 Human-level control through deep reinforcement learning 。 本文試圖從深度增強(qiáng)學(xué)習(xí)的角度來探討通用人工智能的實(shí)現(xiàn),并簡要介紹了深度增強(qiáng)學(xué)習(xí)的基礎(chǔ)知識(shí)、常見算法以及相關(guān)應(yīng)用。
如何解決通用人工智能的難點(diǎn)
三座大山
創(chuàng)造出像你我一樣具有自我意識(shí)和思考的人工智能估計(jì)是人世間最迷人的問題之一了吧,新的存在總是想窺探造物主的秘密。同 P=NP
問題一樣,驗(yàn)證一個(gè)存在是否具有自我意識(shí)的難度(見圖靈測試 以及 中文房間問題 ) 同創(chuàng)造一個(gè)具有自我意識(shí)的存在的難度究竟關(guān)系如何,恐怕可以看做是判斷自我意識(shí)是否能涌現(xiàn)的關(guān)鍵了吧。本文不講那么上層次的人工智能,先來談?wù)?nbsp;通用人工智能
。按照維基百科的解釋,
強(qiáng)人工智能也指通用人工智能(artificial general intelligence,AGI),或具備執(zhí)行一般智慧行為的能力。強(qiáng)人工智能通常把人工智能和意識(shí)、感性、知識(shí)和自覺等人類的特征互相連結(jié)。