2、 對于每一個可能的落子,評估質(zhì)量有兩種方式:要么用棋盤上局面評估器在落子后,要么運(yùn)行更深入蒙特卡羅模擬器(滾動)去思考未來的落子,使用快速閱讀的落子選擇器去提高搜索速度。AlphaGo使用簡單參數(shù),“混合相關(guān)系數(shù)”,將每一個猜測取權(quán)重。最大馬力的AlphaGo使用 50/50的混合比,使用局面評估器和模擬化滾動去做平衡判斷。
這篇論文包含一個隨著他們使用插件的不同,AlphaGo的能力變化和上述步驟的模擬。僅使用獨(dú)立大腦,AlphaGo跟最好的計算機(jī)圍棋AI差不多強(qiáng),但當(dāng)使用這些綜合手段,就可能到達(dá)職業(yè)人類選手水平。
AlphaGo的能力變化與MCTS的插件是否使用有關(guān)。
這篇論文還詳細(xì)講了一些工程優(yōu)化:分布式計算,網(wǎng)絡(luò)計算機(jī)去提升MCTS速度,但這些都沒有改變基礎(chǔ)算法。這些算法部中分精確,部分近似。在特別情況下,AlphaGo通過更強(qiáng)的計算能力變的更強(qiáng),但計算單元的提升率隨著性能變強(qiáng)而減緩。
優(yōu)勢和劣勢
我認(rèn)為AlphaGo在小規(guī)模戰(zhàn)術(shù)上會非常厲害。它知道通過很多位置和類型找到人類最好的下法,所以不會在給定小范圍的戰(zhàn)術(shù)條件下犯明顯錯誤。
但是,AlphaGo有個弱點(diǎn)在全局判斷上。它看到棋盤式通過5*5金字塔似的過濾,這樣對于集成戰(zhàn)術(shù)小塊變成戰(zhàn)略整體上帶來麻煩,同樣道理,圖片分類神經(jīng)網(wǎng)絡(luò)往往對包含一個東西和另一個的搞不清。比如說圍棋在角落上一個定式造成一個墻或者引征,這會劇烈改變另一個角上的位置估值。
就像其他的基于MCTS的AI, AlphaGo對于需要很深入閱讀才能解決的大勢判斷上,還是麻煩重重的,比如說大龍生死劫。AlphaGo 對一些故意看起來正常的局也會失去判斷,天元開盤或者少見的定式,因為很多訓(xùn)練是基于人類的棋局庫。
我還是很期待看到AlphaGo和李世石9段的對決!我預(yù)測是:如果李使用直(straight)式,就像跟其他職業(yè)棋手的對決,他可能會輸,但如果他讓AlphaGo陷入到不熟悉的戰(zhàn)略情形下,他可能就贏。
結(jié)語
這里我還想到另一個人,中國最強(qiáng)大腦選手鮑橒,當(dāng)時看了他走出蜂巢迷宮,被他的超強(qiáng)的空間記憶和想象能力深深震撼了,而他的職業(yè)就是圍棋選手,并且是盲棋。他能完成1對5的圍棋盲棋,實在是很不可思議的事情。在圍棋圈內(nèi),幾乎沒有棋手能完成盲棋,因為確實太難了。筆者也向他詢問了對這個事情看法,他說,歐洲冠軍沒能摸到程序的底,但從棋譜來說,對谷歌程序我也難以取勝,確實下的不錯。雖然圍棋圈一致看好李世石,不過我不敢確定谷歌的程序3月份進(jìn)展到什么地步。
再說到Facebook田博士,跟谷歌DeepMind超豪華團(tuán)隊長期投入不同,他就在半年多前從立項到實現(xiàn),直到最近才有一個實習(xí)生加入幫他,而背后是他付出的心血,為了搶時間,在圣誕新年都是加班加點(diǎn),按他所說,每日工作10+小時,自己搭機(jī)器,寫代碼,調(diào)參數(shù),單槍匹馬做出成績。
談到跟谷歌團(tuán)隊的較量,田博士說:“這是一場必敗的戰(zhàn)斗”,但我還是很佩服他,他讓我想到三國時代趙子龍,單槍匹馬大戰(zhàn)曹軍,力拔山兮氣蓋世!因為他是真正的勇士。正是有了這些英勇無畏的科學(xué)家,一次次打破常規(guī),挑戰(zhàn)極限,我們才知道人類如此大的潛力。最近短短幾年的發(fā)展,從大數(shù)據(jù),深度學(xué)習(xí)人工智能到虛擬現(xiàn)實,從發(fā)現(xiàn)了類地球行星,證實引力波,從Hyperloop,無人駕駛,量子計算,這些魅力無窮的科技讓我們對世界的認(rèn)識上升到新的高度。面對這個激動人心的時代,我想說,天空是我們的極限,宇宙是我們的極限,未來才是我們的極限!
最后允許我拿田博士的話來結(jié)束。
我有時候會問自己:“我是不是背棄了夢想?”我想除了我自己,任何人都不會給我答案,任何評論也不具效力。我記得有人問過,如果夢想從踐行的一開始,就在不自覺地向現(xiàn)實妥協(xié),那樣的夢想還是最初的夢想么?其實,這樣的問題沒什么可糾結(jié)的,因為世界從來就不是二元的,夢想和現(xiàn)實,如同高懸的日月,日月之間,有一條灰色的路,在自己腳下蜿蜒曲折,繞過各種險阻,一直向前。