此外,冷撲大師還有殘局解算器(end-game solver)和自我強(qiáng)化學(xué)習(xí)這兩個(gè)模塊來輔助第一個(gè)模塊。殘局解算器會(huì)在殘局時(shí)實(shí)時(shí)評(píng)估場(chǎng)上的情況,以判斷第一模塊中算出的納什均衡是否符合實(shí)時(shí)情況。而自我強(qiáng)化學(xué)習(xí)會(huì)反思AI在比賽中的表現(xiàn),找出曾被人類利用過的“套路”,清除這些可循的痕跡。
總體來說,阿爾法狗和冷撲大師的算法有三大明顯不同。
第一,阿爾法狗的訓(xùn)練過程中用到了大量數(shù)據(jù)的深度學(xué)習(xí),即通過大量給定的輸入和輸出形成穩(wěn)定的處理。但計(jì)算機(jī)的處理過程本身是一個(gè)黑匣子。而冷撲大師沒有用到時(shí)髦的深度學(xué)習(xí),而是通過傳統(tǒng)的線性規(guī)劃提前算出納什均衡,是一個(gè)“老式但好用的人工智能”(Good Old-Fashioned Artificial Intelligence)。
第二,阿爾法狗在深度學(xué)習(xí)過程中參考了數(shù)千萬張人類棋譜,可以說是靠模仿人類高手起步的。雖然阿爾法狗也運(yùn)用到了一些自我強(qiáng)化學(xué)習(xí),但比重并不大。而冷撲大師完全是通過自我強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練的。開發(fā)者從未教給它人類打牌的方法,只是向它描述了德?lián)涞囊?guī)則,由它“左右互搏”,摸索出德?lián)鋺?yīng)該怎么玩。因而,冷撲大師的打法完全脫離了人類經(jīng)驗(yàn)。值得注意的是,即將與柯潔在烏鎮(zhèn)對(duì)戰(zhàn)的阿爾法狗2.0將擯棄人類棋譜,完全采用一套自我摸索出來的下法。
第三,雖然阿爾法狗和冷撲大師都特別喜歡殘局階段下殺招,但它們的難度不一樣。圍棋下到殘局,可走的招數(shù)越來越少,計(jì)算量也越來越簡單;而德?lián)溟_到轉(zhuǎn)牌和河牌時(shí),可能性更多,局面變得更為復(fù)雜。因此,冷撲大師經(jīng)常在轉(zhuǎn)牌階段做出長時(shí)間的停頓。
阿爾法狗和冷撲大師哪個(gè)更有用?
在冷撲大師的開發(fā)者、美國卡內(nèi)基梅隆大學(xué)(CMU)計(jì)算機(jī)系教授托馬斯?桑德霍姆(Tuomas Sandholm)和其博士生諾姆?布朗(Noam Brown)看來,這個(gè)問題的答案十分明顯。在現(xiàn)實(shí)生活中,幾乎不存在像圍棋這樣給出所有信息的完美情境,因而像阿爾法狗這樣的算法也很難直接派上用常
在現(xiàn)實(shí)生活中,我們遇到的事情會(huì)更像玩德?lián)洌荷虡I(yè)談判時(shí)對(duì)方未知的底牌、房屋拍賣時(shí)競(jìng)爭對(duì)手難測(cè)的舉動(dòng)、股票交易中一些隱藏的內(nèi)部消息。桑德霍姆認(rèn)為,德?lián)銩I打開了靠人工智能解決隨機(jī)事件和隱藏信息的大門。這樣的AI,才有望離開虛擬的棋牌世界,成為人類在現(xiàn)實(shí)生活中談判、博弈和投資的好幫手。
桑德霍姆自己就成立了一家戰(zhàn)略計(jì)算公司,希望利用人工智能解決金融上的一些戰(zhàn)略計(jì)算問題。首先,金融交易拼的是速度,AI在量化交易上具有巨大優(yōu)勢(shì)。其次,像股票交易中經(jīng)常會(huì)存在一些隱藏的信息,AI能在交易者較少的情況下,幫助人類在隱藏的信息面前做出決策。
阿爾法狗和冷撲大師哪個(gè)更厲害?
諾姆?布朗說道,每一種游戲從計(jì)算機(jī)科學(xué)的角度來說,都存在一些核心問題,而掌握這個(gè)游戲的AI相當(dāng)于解決了這個(gè)核心的問題。圍棋和德?lián)浯砹藘深愅耆煌挠螒?,阿爾法狗和冷撲大師也在朝完全不同的兩個(gè)方向探索。
只不過,圍棋在“完美信息游戲”中屬于高難度水平,因而阿爾法狗也在搜索這個(gè)核心問題上取得了巔峰成就。而冷撲大師剛剛打開了“非完美信息游戲”的大門,對(duì)于解決隱藏信息這個(gè)問題來說,德?lián)銩I只是個(gè)開始。光就游戲而言,與德?lián)漕愃频膴W馬哈,就比德?lián)涓鼮閺?fù)雜一些。布朗說,他們對(duì)中國的麻將略知一二,麻將也是一種充滿了隱藏信息的游戲。
登陸|注冊(cè)歡迎登陸本站,認(rèn)識(shí)更多朋友,獲得更多精彩內(nèi)容推薦!