5. 總結(jié)
總的來說,這整篇文章是一個系統(tǒng)性的工作,而不是一兩個小點有了突破就能達到的勝利。在成功背后,是作者們,特別是兩位第一作者David Silver和Aja Huang,在博士階段及畢業(yè)以后五年以上的積累,非一朝一夕所能完成的。他們能做出AlphaGo并享有現(xiàn)在的榮譽,是實至名歸的。
從以上分析也可以看出,與之前的圍棋系統(tǒng)相比,AlphaGo較少依賴圍棋的領(lǐng)域知識,但還遠未達到通用系統(tǒng)的程度。職業(yè)棋手可以在看過了寥寥幾局之后明白對手的風格并采取相應(yīng)策略,一位資深游戲玩家也可以在玩一個新游戲幾次后很快上手,但到目前為止,人工智能系統(tǒng)要達到人類水平,還是需要大量樣本的訓練的??梢哉f,沒有千年來眾多棋手在圍棋上的積累,就沒有圍棋AI的今天。
在AlphaGo中,增強學習(Reinforcement Learning)所扮演的角色并沒有想像中那么大。在理想情況下,我們希望人工智能系統(tǒng)能在對局中動態(tài)地適應(yīng)環(huán)境和對手的招式并且找到辦法反制之,但是在AlphaGo中增強學習更多地是用于提供更多質(zhì)量更好的樣本,給有監(jiān)督學習(Supervised Learning)以訓練出更好的模型。在這方面增強學習還有很長的路要走。
另外,據(jù)他們的文章所言,AlphaGo整個系統(tǒng)在單機上已具有了職業(yè)水平,若是谷歌愿意開幾萬臺機器和李世石對決(這對它來說再容易不過了,改個參數(shù)就行),相信比賽會非常精彩。
===========================
一些更新。
問題1:“Alphago的MCTS做rollout的時候,除了使用快速走子,還用了搜索樹的已有部分,看起來像是AMAF/RAVE反過來:AMAF是把快速走子的信息傳導(dǎo)到樹的其它無關(guān)部分,Alphago是把樹的其它無關(guān)部分拿來增強快速走子。我懷疑這是不是它棋力比其它DCNN+MCTS強的原因之一。"
這個辦法在解死活題的文章中出現(xiàn)過,會在一定程度上提高搜索效率,但是提高多少還不知道。
問題2:“rollout的走法質(zhì)量變好可能會導(dǎo)致棋力下降。”
這里要分兩種情況,tree policy和default policy。在AlphaGo的文章里面已經(jīng)說過了,tree policy的分布不能太尖,不然在搜索時太過重視一些看起來的好著,可能使得棋力下降。但是除了這種原因,一般來說tree policy變好棋力還是會變強的。
default policy這邊,即(半)隨機走子到最后然后判分,就很復(fù)雜了,質(zhì)量變好未必對局面能估得更準。default policy需要保證的是每塊棋的死活大體正確,不要把死的棋下成活的或者反之,而對大局觀的要求反而沒有那么高。雙方完全可以配合著把每塊棋下完,然后轉(zhuǎn)戰(zhàn)另一塊,而不是說搶在對方前去別處占先手。
注:本文摘自知乎,作者田淵棟,版權(quán)著作權(quán)系原創(chuàng)者所有,轉(zhuǎn)載請注明出處。數(shù)據(jù)觀微信公眾號(ID:cbdioreview) ,欲了解更多大數(shù)據(jù)行業(yè)相關(guān)資訊,可搜索數(shù)據(jù)觀(中國大數(shù)據(jù)產(chǎn)業(yè)觀察網(wǎng)www.cbdio.com)進入查看。