亚洲va欧洲va日韩va忘忧草,国产无码天堂,女女自慰网站,老熟富婆私密SPA推油盗摄A,99rv精品视频在线播放,日韩欧美不卡1卡2卡,美女撒尿txxxx视频,国产无套乱子伦精彩是白视频在线收看,久久久噜噜噜久久中文字幕,色综久久综合桃花网

冷撲大師背后的AI算法和博弈論：CFR算法是核心

量子位報(bào)道 | 公眾號(hào)QbitAI

昨天下午，量子位在中關(guān)村舉辦了一個(gè)技術(shù)沙龍，邀請(qǐng)創(chuàng)新工場(chǎng)AI工程院技術(shù)VP李天放、聯(lián)想智慧醫(yī)療CEO林林等，從技術(shù)和實(shí)戰(zhàn)的角度，對(duì)德州撲克人機(jī)大戰(zhàn)進(jìn)行解讀。

以下是李天放對(duì)德州撲克AI的技術(shù)解讀：

文字版本整理如下：

AI算法和博弈論，這兩個(gè)交叉點(diǎn)還是有一點(diǎn)難度的。

先從博弈論開(kāi)始。

大家需要對(duì)GTO/納什平衡有一個(gè)初期的理解。在德州撲克，翻硬幣，剪刀石頭布這類(lèi)游戲里面，納什平衡點(diǎn)的定義是：如果雙方都在用一個(gè)比較好的戰(zhàn)略，任何一方做出調(diào)整結(jié)果都會(huì)更糟糕，也就是存在一個(gè)平衡點(diǎn)，使得兩個(gè)人都不能再進(jìn)步。

我們用一個(gè)簡(jiǎn)單的游戲解釋。

如果我們玩一手剪刀石頭布，可能靠運(yùn)氣；玩二十萬(wàn)手，就要看戰(zhàn)略是什么。如果我們想解這個(gè)問(wèn)題，也是很簡(jiǎn)單，下面這個(gè)就是所謂的完美戰(zhàn)略：

· 33%剪刀33%石頭33%布

· 無(wú)論對(duì)手用什么戰(zhàn)略，都不可能戰(zhàn)勝我們

· 但我們也贏不了…

然而想要接近一個(gè)真正的完美戰(zhàn)略是非常難的，大部分人有些偏好，更接近的可能是這樣一個(gè)情況，對(duì)手比較笨不知道能出剪刀：

· 假設(shè)對(duì)手#1：從來(lái)不出剪刀，50%布，50%石頭

· 我們的老戰(zhàn)略有問(wèn)題么？（各33%）

老戰(zhàn)略可能還是不輸?shù)?，但也不是最佳?zhàn)略(GTO)。納什平衡的意思是雙方都不能改進(jìn)，如果知道對(duì)手從來(lái)不出剪刀，我們的戰(zhàn)略是能改進(jìn)的。針對(duì)上面的對(duì)手#1，我們的戰(zhàn)略可以改成：50%剪刀，50%布。

為什么不用100%布的戰(zhàn)略？因?yàn)閷?duì)方可能也調(diào)整成100%布。使用50%剪刀，50%布的戰(zhàn)略至少可以比打平做的更好。

從博弈論來(lái)說(shuō)，我們找到了對(duì)手的弱點(diǎn)，但沒(méi)有暴露自己的弱點(diǎn)。也就是說(shuō)，我們找到了一個(gè)新的平衡點(diǎn)。

這就是Libratus在做的事情。

相比于石頭剪刀布，一對(duì)一的德州撲克，是一個(gè)復(fù)雜度非常高的博弈。如何找到德州撲克的GTO和納什平衡點(diǎn)？這是此類(lèi)AI算法的核心。

CounterFactual Regret Minimization(CFR，反事實(shí)遺憾最小化)，這是一個(gè)類(lèi)似強(qiáng)化學(xué)習(xí)的算法，但是更高效。讓AI之間對(duì)戰(zhàn)德?lián)?，采用隨機(jī)的策略，然后每局過(guò)后看看在什么地方后悔了，然后嘗試不同的戰(zhàn)略，再在決策點(diǎn)上復(fù)盤(pán)。

這個(gè)算法與人類(lèi)學(xué)習(xí)德州類(lèi)似：累積經(jīng)驗(yàn)、評(píng)判自己的選擇，但需要注意的是，這里正確的“后悔點(diǎn)”非常重要。德州撲克有很強(qiáng)的隨機(jī)性，所以很容易陷入錯(cuò)誤的學(xué)習(xí)方式。

算法很簡(jiǎn)單，問(wèn)題是無(wú)限德州的空間太大了，復(fù)雜度是10的160次方。有幾種解決方案：合并簡(jiǎn)化+CFR(Claudico)，CFR+“直覺(jué)”(DeepStack)，CFR+End Game Solver+RL(Libratus)。

總結(jié)一下：

· CFR類(lèi)似于強(qiáng)化學(xué)習(xí)。權(quán)重調(diào)整基于概率。

· AI的戰(zhàn)略和學(xué)習(xí)方式和職業(yè)牌手相似，但是更準(zhǔn)確。

登陸|注冊(cè)歡迎登陸本站，認(rèn)識(shí)更多朋友，獲得更多精彩內(nèi)容推薦！

欄目導(dǎo)航: 觀點(diǎn)發(fā)聲
新聞?lì)^條
工業(yè)軟件
人工智能
物聯(lián)網(wǎng)
個(gè)人專(zhuān)欄
大數(shù)據(jù)
云計(jì)算
會(huì)議展會(huì)
專(zhuān)家