-更強(qiáng)的落子選擇器
AlphaGo系統(tǒng)事實(shí)上需要兩個(gè)額外落子選擇器的大腦。一個(gè)是“強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò)(Policy Network)”,通過百萬級(jí)額外的模擬局來完成。你可以稱之為更強(qiáng)的。比起基本的訓(xùn)練,只是教網(wǎng)絡(luò)去模仿單一人類的落子,高級(jí)的訓(xùn)練會(huì)與每一個(gè)模擬棋局下到底,教網(wǎng)絡(luò)最可能贏的下一手。Sliver團(tuán)隊(duì)通過更強(qiáng)的落子選擇器總結(jié)了百萬級(jí)訓(xùn)練棋局,比他們之前版本又迭代了不少。
單單用這種落子選擇器就已經(jīng)是強(qiáng)大的對(duì)手了,可以到業(yè)余棋手的水平,或者說跟之前最強(qiáng)的圍棋AI媲美。這里重點(diǎn)是這種落子選擇器不會(huì)去“讀”。它就是簡單審視從單一棋盤位置,再提出從那個(gè)位置分析出來的落子。它不會(huì)去模擬任何未來的走法。這展示了簡單的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的力量。
-更快的落子選擇器
AlphaGo當(dāng)然團(tuán)隊(duì)沒有在這里止步。下面我會(huì)闡述是如何將閱讀能力賦予AI的。為了做到這一點(diǎn),他們需要更快版本的落子選擇器大腦。越強(qiáng)的版本在耗時(shí)上越久-為了產(chǎn)生一個(gè)不錯(cuò)的落子也足夠快了,但“閱讀結(jié)構(gòu)”需要去檢查幾千種落子可能性才能做決定。
Silver團(tuán)隊(duì)建立簡單的落子選擇器去做出“快速閱讀”的版本,他們稱之為“滾動(dòng)網(wǎng)絡(luò)”。簡單版本是不會(huì)看整個(gè)19*19的棋盤,但會(huì)在對(duì)手之前下的和新下的棋子中考慮,觀察一個(gè)更小的窗口。去掉部分落子選擇器大腦會(huì)損失一些實(shí)力,但輕量級(jí)版本能夠比之前快1000倍,這讓“閱讀結(jié)構(gòu)”成了可能。
第二大腦:棋局評(píng)估器 (Position Evaluator)
AlphaGo的第二個(gè)大腦相對(duì)于落子選擇器是回答另一個(gè)問題。不是去猜測具體下一步,它預(yù)測每一個(gè)棋手贏棋的可能,在給定棋子位置情況下。這“局面評(píng)估器”就是論文中提到的“價(jià)值網(wǎng)絡(luò)(Value Network)”,通過整體局面判斷來輔助落子選擇器。這個(gè)判斷僅僅是大概的,但對(duì)于閱讀速度提高很有幫助。通過分類潛在的未來局面的“好”與“壞”,AlphaGo能夠決定是否通過特殊變種去深入閱讀。如果局面評(píng)估器說這個(gè)特殊變種不行,那么AI就跳過閱讀在這一條線上的任何更多落子。
局面評(píng)估器是怎么看這個(gè)棋盤的。深藍(lán)色表示下一步有利于贏棋的位置。
局面評(píng)估器也通過百萬級(jí)別的棋局做訓(xùn)練。Silver團(tuán)隊(duì)通過 復(fù)制兩個(gè)AlphaGo的最強(qiáng)落子選擇器,精心挑選隨機(jī)樣本創(chuàng)造了這些局面。這里AI 落子選擇器在高效創(chuàng)建大規(guī)模數(shù)據(jù)集去訓(xùn)練局面評(píng)估器是非常有價(jià)值的。這種落子選擇器讓大家去模擬繼續(xù)往下走的很多可能,從任意給定棋盤局面去猜測大致的雙方贏棋概率。而人類的棋局還不夠多恐怕難以完成這種訓(xùn)練。
增加閱讀
這里做了三個(gè)版本的落子選擇大腦,加上局面評(píng)估大腦,AlphaGo可以有效去閱讀未來走法和步驟了。閱讀跟大多數(shù)圍棋AI一樣,通過蒙特卡洛樹搜索(MCTS)算法來完成。但AlphaGo 比其他AI都要聰明,能夠更加智能的猜測哪個(gè)變種去探測,需要多深去探測。
蒙特卡洛樹搜索算法
如果擁有無限的計(jì)算能力,MCTS可以理論上去計(jì)算最佳落子通過探索每一局的可能步驟。但未來走法的搜索空間對(duì)于圍棋來說太大了(大到比我們認(rèn)知宇宙里的粒子還多),實(shí)際上AI沒有辦法探索每一個(gè)可能的變種。MCTS做法比其他AI有多好的原因是在識(shí)別有利的變種,這樣可以跳過一些不利的。
Silver團(tuán)隊(duì)讓AlphaGo裝上MCTS系統(tǒng)的模塊,這種框架讓設(shè)計(jì)者去嵌入不同的功能去評(píng)估變種。最后馬力全開的AlphaGo系統(tǒng)按如下方式使用了所有這些大腦。
1、從當(dāng)前的棋盤布局,選擇哪些下一步的可能性。他們用基礎(chǔ)的落子選擇器大腦(他們嘗試使用更強(qiáng)的版本,但事實(shí)上讓AlphaGo更弱,因?yàn)檫@沒有讓MCTS提供更廣闊的選擇空間)。它集中在“明顯最好”的落子而不是閱讀很多,而不是再去選擇也許對(duì)后來有利的下法。