一、搜索空間龐大(分支因數(shù)就有200),一個很好的例子,就是在圍棋中,平均每一個棋子有兩百個可能的位置,而象棋僅僅是20. 圍棋的分支因數(shù)遠大于象棋。
二、比這個更難的是,幾乎沒有一個合適的評價函數(shù)來定義誰是贏家,贏了多少;這個評價函數(shù)對于該系統(tǒng)是至關重要的。而對于象棋來說,寫一個評價函數(shù)是非常簡單的,因為象棋不僅是個相對簡單的游戲,而且是實體的,只用數(shù)一下雙方的棋子,就能輕而易舉得出結論了。你也可以通過其他指標來評價象棋,比如棋子移動性等。
所有的這些在圍棋里都是不可能的,并不是所有的部分都一樣,甚至一個小小部分的變動,會完全變化格局,所以每一個小的棋子都對棋局有著至關重要的影響。最難的部分是,我稱象棋為毀滅性的游戲,游戲開始的時候,所有的棋子都在棋盤上了,隨著游戲的進行,棋子被對方吃掉,棋子數(shù)目不斷減少,游戲也變得越來越簡單。相反,圍棋是個建設性的游戲,開始的時候,棋盤是空的,慢慢的下棋雙方把棋盤填滿。
因此,如果你準備在中場判斷一下當前形勢,在象棋里,你只需看現(xiàn)在的棋盤,就能告訴你大致情況;在圍棋里,你必須評估未來可能會發(fā)生什么,才能評估當前局勢,所以相比較而言,圍棋難得多。也有很多人試著將DeepBlue的技術應用在圍棋上,但是結果并不理想,這些技術連一個專業(yè)的圍棋手都打不贏,更別說世界冠軍了。
所以大家就要問了,連電腦操作起來都這么難,人類是怎樣解決這個問題的?其實,人類是靠直覺的,而圍棋一開始就是一個靠直覺而非計算的游戲。所以,如果你問一個象棋選手,為什么這步這樣走,他會告訴你,這樣走完之后,下一步和下下一步會怎樣走,就可以達到什么樣的目的。這樣的計劃,有時候也許不盡如人意,但是起碼選手是有原因的。
然而圍棋就不同了,如果你去問世界級的大師,為什么走這一步,他們經?;卮鹉阒庇X告訴他這么走,這是真的,他們是沒法描述其中的原因的。我們通過用加強學習的方式來提高人工神經網絡算法,希望能夠解決這一問題。我們試圖通過深度神經網絡模仿人類的這種直覺行為,在這里,需要訓練兩個神經網絡,一種是決策網絡,我們從網上下載了成百萬的業(yè)余圍棋游戲,通過監(jiān)督學習,我們讓阿爾法狗模擬人類下圍棋的行為;我們從棋盤上任意選擇一個落子點,訓練系統(tǒng)去預測下一步人類將作出的決定;系統(tǒng)的輸入是在那個特殊位置最有可能發(fā)生的前五或者前十的位置移動;這樣,你只需看那5-10種可能性,而不用分析所有的200種可能性了。
一旦我們有了這個,我們對系統(tǒng)進行幾百萬次的訓練,通過誤差加強學習,對于贏了的情況,讓系統(tǒng)意識到,下次出現(xiàn)類似的情形時,更有可能做相似的決定。相反,如果系統(tǒng)輸了,那么下次再出現(xiàn)類似的情況,就不會選擇這種走法。我們建立了自己的游戲數(shù)據庫,通過百萬次的游戲,對系統(tǒng)進行訓練,得到第二種神經網絡。選擇不同的落子點,經過置信區(qū)間進行學習,選出能夠贏的情況,這個幾率介于0-1之間,0是根本不可能贏,1是百分之百贏。
通過把這兩個神經網絡結合起來(決策網絡和數(shù)值網絡),我們可以大致預估出當前的情況。這兩個神經網絡樹,通過蒙特卡洛算法,把這種本來不能解決的問題,變得可以解決。我們網羅了大部分的圍棋下法,然后和歐洲的圍棋冠軍比賽,結果是阿爾法狗贏了,那是我們的第一次突破,而且相關算法還被發(fā)表在《自然》科學雜志。
接下來,我們在韓國設立了100萬美元的獎金,并在2016年3月,與世界圍棋冠軍李世石進行了對決。李世石先生是圍棋界的傳奇,在過去的10年里都被認為是最頂級的圍棋專家。我們與他進行對決,發(fā)現(xiàn)他有非常多創(chuàng)新的玩法,有的時候阿爾法狗很難掌控。比賽開始之前,世界上每個人(包括他本人在內)都認為他一定會很輕松就打贏這五場比賽,但實際結果是我們的阿爾法狗以4:1獲勝。圍棋專家和人工智能領域的專家都稱這具有劃時代的意義。對于業(yè)界人員來說,之前根本沒想到。
4.棋局哪個關鍵區(qū)域被人類忽視了?