量子位 報(bào)道 | 公眾號(hào)QbitAI
昨天下午,量子位在中關(guān)村舉辦了一個(gè)技術(shù)沙龍,邀請(qǐng)創(chuàng)新工場(chǎng)AI工程院技術(shù)VP李天放、聯(lián)想智慧醫(yī)療CEO林林等,從技術(shù)和實(shí)戰(zhàn)的角度,對(duì)德州撲克人機(jī)大戰(zhàn)進(jìn)行解讀。
以下是李天放對(duì)德州撲克AI的技術(shù)解讀:
文字版本整理如下:
AI算法和博弈論,這兩個(gè)交叉點(diǎn)還是有一點(diǎn)難度的。
先從博弈論開(kāi)始。
大家需要對(duì)GTO/納什平衡有一個(gè)初期的理解。在德州撲克,翻硬幣,剪刀石頭布這類(lèi)游戲里面,納什平衡點(diǎn)的定義是:如果雙方都在用一個(gè)比較好的戰(zhàn)略,任何一方做出調(diào)整結(jié)果都會(huì)更糟糕,也就是存在一個(gè)平衡點(diǎn),使得兩個(gè)人都不能再進(jìn)步。
我們用一個(gè)簡(jiǎn)單的游戲解釋。
如果我們玩一手剪刀石頭布,可能靠運(yùn)氣;玩二十萬(wàn)手,就要看戰(zhàn)略是什么。如果我們想解這個(gè)問(wèn)題,也是很簡(jiǎn)單,下面這個(gè)就是所謂的完美戰(zhàn)略:
· 33%剪刀33%石頭33%布
· 無(wú)論對(duì)手用什么戰(zhàn)略,都不可能戰(zhàn)勝我們
· 但我們也贏不了…
然而想要接近一個(gè)真正的完美戰(zhàn)略是非常難的,大部分人有些偏好,更接近的可能是這樣一個(gè)情況,對(duì)手比較笨不知道能出剪刀:
· 假設(shè)對(duì)手#1:從來(lái)不出剪刀,50%布,50%石頭
· 我們的老戰(zhàn)略有問(wèn)題么?(各33%)
老戰(zhàn)略可能還是不輸?shù)?,但也不是最佳?zhàn)略(GTO)。納什平衡的意思是雙方都不能改進(jìn),如果知道對(duì)手從來(lái)不出剪刀,我們的戰(zhàn)略是能改進(jìn)的。針對(duì)上面的對(duì)手#1,我們的戰(zhàn)略可以改成:50%剪刀,50%布。
為什么不用100%布的戰(zhàn)略?因?yàn)閷?duì)方可能也調(diào)整成100%布。使用50%剪刀,50%布的戰(zhàn)略至少可以比打平做的更好。
從博弈論來(lái)說(shuō),我們找到了對(duì)手的弱點(diǎn),但沒(méi)有暴露自己的弱點(diǎn)。也就是說(shuō),我們找到了一個(gè)新的平衡點(diǎn)。
這就是Libratus在做的事情。
相比于石頭剪刀布,一對(duì)一的德州撲克,是一個(gè)復(fù)雜度非常高的博弈。如何找到德州撲克的GTO和納什平衡點(diǎn)?這是此類(lèi)AI算法的核心。
CounterFactual Regret Minimization(CFR,反事實(shí)遺憾最小化),這是一個(gè)類(lèi)似強(qiáng)化學(xué)習(xí)的算法,但是更高效。讓AI之間對(duì)戰(zhàn)德?lián)?,采用隨機(jī)的策略,然后每局過(guò)后看看在什么地方后悔了,然后嘗試不同的戰(zhàn)略,再在決策點(diǎn)上復(fù)盤(pán)。
這個(gè)算法與人類(lèi)學(xué)習(xí)德州類(lèi)似:累積經(jīng)驗(yàn)、評(píng)判自己的選擇,但需要注意的是,這里正確的“后悔點(diǎn)”非常重要。德州撲克有很強(qiáng)的隨機(jī)性,所以很容易陷入錯(cuò)誤的學(xué)習(xí)方式。
算法很簡(jiǎn)單,問(wèn)題是無(wú)限德州的空間太大了,復(fù)雜度是10的160次方。有幾種解決方案:合并簡(jiǎn)化+CFR(Claudico),CFR+“直覺(jué)”(DeepStack),CFR+End Game Solver+RL(Libratus)。
總結(jié)一下:
· CFR類(lèi)似于強(qiáng)化學(xué)習(xí)。權(quán)重調(diào)整基于概率。
· AI的戰(zhàn)略和學(xué)習(xí)方式和職業(yè)牌手相似,但是更準(zhǔn)確。
登陸|注冊(cè)歡迎登陸本站,認(rèn)識(shí)更多朋友,獲得更多精彩內(nèi)容推薦!