在8月12日,埃隆·馬斯克旗下旨在研究通用人工智能解決方案的公司OpenAI,所訓(xùn)練的一款人工智能算法在著名的電子競(jìng)技游戲Dota2國(guó)際邀請(qǐng)賽The International中,參與了1V1比賽環(huán)節(jié),并壓倒性的擊敗了頂級(jí)電子競(jìng)技選手Dendi。
在alphago擊敗了柯潔以后,Deepmind多次公開(kāi)表達(dá)了希望準(zhǔn)備要去嘗試挑戰(zhàn)星際爭(zhēng)霸等電子競(jìng)技項(xiàng)目,目前Deepmind確實(shí)也聯(lián)合暴雪公司在開(kāi)展這項(xiàng)嘗試。因?yàn)橄啾葒暹@種完全信息靜態(tài)博弈游戲(即雙方都能獲得局面的所有信息,下棋異步),電子競(jìng)技游戲具備非完全信息屬性(雙方只掌握視野里的部分信息),而且競(jìng)技過(guò)程是實(shí)時(shí)動(dòng)態(tài)進(jìn)行的。其規(guī)則和特征復(fù)雜度遠(yuǎn)超圍棋,因此對(duì)人工智能的局面評(píng)估、決策能力要求顯著更高。另外,相比圍棋這種高度抽象的游戲(只有落子一個(gè)動(dòng)作),電子競(jìng)技游戲性質(zhì)上更類(lèi)似人類(lèi)現(xiàn)實(shí)世界對(duì)抗/戰(zhàn)爭(zhēng)的簡(jiǎn)化模擬,涉及了大量資源調(diào)配、部隊(duì)構(gòu)成選擇、擴(kuò)張策略、攻防對(duì)抗等復(fù)雜但具有現(xiàn)實(shí)意義的博弈,如能在電子競(jìng)技對(duì)抗中取得劃時(shí)代的里程碑,則代表了人工智能邁向通用化又進(jìn)了一大步。
這就是為何Deepmind、OpenAI等頂尖人工智能公司都不約而同希望挑戰(zhàn)電子競(jìng)技的根本原因,但大家沒(méi)想到的是,人工智能這么快就在電子競(jìng)技界取得了成功。
由于目前OpenAI尚未公布其Dota2人工智能的設(shè)計(jì)細(xì)節(jié),接下來(lái)我們通過(guò)分析和推測(cè),力圖揭秘其背后的奧秘所在。
背景知識(shí):Dota 2游戲規(guī)則
Dota 2是一款類(lèi)似于大眾熟知的王者榮耀式的5V5競(jìng)技游戲,每邊分別由5位玩家選擇一名英雄角色,目標(biāo)以為守護(hù)己方遠(yuǎn)古遺跡并摧毀敵方遠(yuǎn)古遺跡,通過(guò)提升等級(jí)、賺取金錢(qián)、購(gòu)買(mǎi)裝備和擊殺對(duì)方英雄等諸多競(jìng)技手段。
這次OpenAI選擇了挑戰(zhàn)較為簡(jiǎn)單的1V1挑戰(zhàn),即OpenAI僅控制1名英雄,和頂級(jí)電子競(jìng)技選手Dendi操縱的1名英雄進(jìn)行對(duì)抗。
比賽中,采取dota 2“一塔兩殺”的規(guī)則,即雙方玩家只允許出現(xiàn)在中路,任意一方摧毀對(duì)方中路首個(gè)防御塔,或者擊殺對(duì)方英雄兩次則取得勝利。游戲中,每隔30秒雙方會(huì)獲得一波電腦控制的較弱部隊(duì)進(jìn)入前線互相攻擊,玩家殺死這些小兵可以獲得金幣,金幣用于購(gòu)買(mǎi)裝備物品以強(qiáng)化英雄能力,同時(shí)消滅對(duì)方部隊(duì)可獲取到經(jīng)驗(yàn),經(jīng)驗(yàn)獲取到一定程度則可提升英雄等級(jí),使得英雄能力更強(qiáng),并獲得技能點(diǎn)升級(jí)新的技能。同時(shí)雙方各自還有一個(gè)初期威力強(qiáng)大的防御塔在身后,因此雙方一般的對(duì)抗策略是盡量控制兵線在靠近己方防御塔的地方,同時(shí)努力殺死對(duì)方小兵(正補(bǔ))并防止對(duì)手這樣做(反補(bǔ)),獲取經(jīng)驗(yàn)和金幣后升級(jí)技能,并試圖通過(guò)攻擊和技能擊殺對(duì)方或摧毀對(duì)方防御塔。
OpenAI的決策空間
上述是dota 2 1v1競(jìng)技的簡(jiǎn)單介紹,以供不了解dota 2的讀者有個(gè)初步印象,接下來(lái)我們來(lái)分析一下在dota 2 1v1競(jìng)技中的決策空間及決策連續(xù)性這兩個(gè)問(wèn)題,這是與alphago完全不一樣的存在,也是人工智能+電子競(jìng)技有趣的地方。
決策空間
相比圍棋只有一個(gè)落子動(dòng)作(選擇一個(gè)空位下子),dota 2 1v1中的決策空間相對(duì)非常復(fù)雜,玩家每分每秒需要在以下的動(dòng)作中做出決策:
當(dāng)然,上述只是列舉出了比較重要的戰(zhàn)術(shù)動(dòng)作,在實(shí)際競(jìng)技過(guò)程中還有大量的如取消攻擊后搖、放風(fēng)箏、控符、技能組合等高級(jí)動(dòng)作。
決策連續(xù)性
圍棋是一個(gè)典型的異步競(jìng)技游戲,選手在做出每一個(gè)決策前具有充分的決策時(shí)間,是典型的馬爾科夫過(guò)程,但dota 2是一款實(shí)時(shí)競(jìng)技游戲,選手需要?jiǎng)討B(tài)做出實(shí)時(shí)決策,這點(diǎn)是dota 2和圍棋的另外一個(gè)不同。
那么OpenAI是怎么解決連續(xù)決策問(wèn)題的?目前OpenAI尚未公布他們dota人工智能的細(xì)節(jié)。在這個(gè)問(wèn)題上,OpenAI很有可能是通過(guò)考慮人類(lèi)選手的決策效率,將決策過(guò)程離散化。Dota 2頂級(jí)選手的APM(action per minute,每分鐘做出的動(dòng)作)可達(dá)到200以上,眾所周知人來(lái)大腦的反應(yīng)速度是有極限的,一般頂級(jí)電競(jìng)選手在反應(yīng)速度上都有異于常人的天賦,如果按比賽中觀測(cè)到的APM來(lái)算,人類(lèi)的極限可能在1秒鐘做出4到5個(gè)動(dòng)作決策,因此OpenAI如果每隔0.2秒做出一個(gè)動(dòng)作決策的話,就能有超越人類(lèi)的表現(xiàn)。