5.u(bonus)具體是啥?
u中包括兩個部分。
分子是AlphaGo根據(jù)當(dāng)前局面判斷(policy net),不模擬,比如棋手根據(jù)棋形大概知道應(yīng)該有哪幾步可以走。
分母是模擬到現(xiàn)在走當(dāng)前步的累加,越大下次模擬越不會走這了。
一句話,(Q+u)就是決定模擬中,下棋方會走(模擬)哪里。
到此,我們大概了解了AlphaGo的兩大神器:value net(形勢判斷:模擬中,我走這步,我贏的概率是多少)和policy net(選點:模擬中,這個局面我走那幾步最強(qiáng))。下面會揭開他們神秘的面紗。
6.為什么選模擬次數(shù)最多的一步?
根據(jù)以上的函數(shù)可知,模擬次數(shù)最多一步,其實就是在多次模擬中,AlphaGo認(rèn)為那一步最可能贏的次數(shù)的累加(或平均,除以總模擬次數(shù))。
7.為什么要分為policy net(選點)和value net(形勢判斷)呢,選點和形勢判斷不是一個東西嗎?
確實,選點和形勢判斷是互相嵌套的。首先,圍棋的形勢判斷是非常困難的。在圍棋直播中我們經(jīng)常看到,職業(yè)9段也不能準(zhǔn)確判斷當(dāng)前局面,除非地域已經(jīng)確定,沒有什么可以繼續(xù)戰(zhàn)斗的地方,一般也就是接近終局(官子階段)。即使職業(yè)棋手,選點和判斷也是定性的成分偏多,定量的成分偏少。以前說中國頂級棋手古力能推演到50步,已經(jīng)非常強(qiáng)了。
再說嵌套問題,準(zhǔn)確的定量的選點和判斷,就要計算(對于棋手是在腦子里推演,對于機(jī)器就是模擬)才行。在推演中,我選點走那步?jīng)Q定于,走這步后我贏的概率,而這個概率又決定于對手走那一步(我會假設(shè)對手弈出她最強(qiáng)的一步,對我最不利),對手走那一步?jīng)Q定于,她走那步后,她對形勢的判斷要對她最好,這又取決于我的下下步(第3步了)走哪里(對手她也會假設(shè)我會下出對她最不利的一步,自然對我最優(yōu)),從而不斷的嵌套,這個“死結(jié)”要到終局(或者接近)才能解開(終局形勢判斷比較簡單)。所以不到終局,判斷形勢是非常困難的,即使職業(yè)的9段也不行。這就是圍棋比象棋難的關(guān)鍵所在,它沒有簡單的形勢判斷的方法,而象棋有。
要回答這個問題7還要看下面了。
8.AlphaGo是怎么打開這個死結(jié)的?
AlphaGo沒有進(jìn)行直接的形勢判斷,就是沒有直接學(xué)習(xí)value net,而是先做一個選點(policy net)程序。選點可以認(rèn)為是一個時序(走棋)的一個局部問題,就是從當(dāng)前局面大概判斷,有哪幾步可能走,暫時不需要推演(那是模擬的工作)。棋手的選點是會推演的,這里的基礎(chǔ)policy net是不推演的,前已經(jīng)看到AlphaGo線上模擬中選點(Q+u)是有推演的。
所以policy net是用在“每次模擬”中,搜索雙方可能的著法,而最優(yōu)步的判斷是“N次模擬”的任務(wù),policy net不管。此外policy net還用來訓(xùn)練value net,也就是說,value net是從policy net 來的,先有policy 才有value。
選點(policy net)能成立嗎?如果不成立,也是沒用。
9.第一神器policy net怎么工作的?
先大概看下這個圖。現(xiàn)在輪到黑棋下,圖上的數(shù)字是AlphaGo認(rèn)為黑棋應(yīng)該下這步的概率。我們還發(fā)現(xiàn),只有幾步(2步在這個圖中)的概率比較大,其他步可能性都很小。這就像職業(yè)棋手了。學(xué)圍棋的人知道,初學(xué)者會覺得那里都可以走,就是policy(選點)不行,沒有選擇性。隨著棋力增長,選擇的范圍在縮小。職業(yè)棋手就會鎖定幾個最有可能的走法,然后去推演以后的變化。
AlphaGo通過學(xué)習(xí),預(yù)測職業(yè)選手的著法有57%的準(zhǔn)確率。提醒一下,這還是AlphaGo“一眼”看上去的效果,她沒開始推演(模擬)呢。而且她沒預(yù)測對的著法不一定比職業(yè)棋手差。
policy net怎么學(xué)習(xí)的,學(xué)啥?
首先,policy net是一個模型。它的輸入時當(dāng)前的棋局(19*19的棋盤,每個位置有3種狀態(tài),黑,白,空),輸出是最可能(最優(yōu))的著法,每個空位都有一個概率(可能性)。幸運的是,著法不像形勢判斷那么無跡可尋。我們?nèi)艘呀?jīng)下了千年的棋。policy net先向職業(yè)選手學(xué)習(xí),她從KGS圍棋服務(wù)器,學(xué)習(xí)了3000萬個局面的下一步怎么走。也就是說,大概職業(yè)選手怎么走,AlphaGo她已經(jīng)了然于胸。學(xué)習(xí)的目的是,她不是單純的記住這個局面,而是相似的局面也會了。當(dāng)學(xué)習(xí)的局面足夠多時,幾乎所有局面她都會了。這種學(xué)習(xí)我們叫做“監(jiān)督學(xué)習(xí)”(supervised learning)。以前的職業(yè)棋手的棋譜,就是她的老師(監(jiān)督)。