實(shí)際早在人機(jī)大戰(zhàn)剛剛興起的90年代,中山大學(xué)的陳志行教授就已開(kāi)發(fā)出“手談”軟件進(jìn)行人機(jī)對(duì)弈,在計(jì)算機(jī)圍棋界也屢獲佳獎(jiǎng)。早期的圍棋軟件延續(xù)了其他棋類(lèi)程序的思路, 通過(guò)棋盤(pán)的運(yùn)算和數(shù)據(jù)庫(kù)里的棋譜數(shù)據(jù)輸入積累來(lái)提高機(jī)器程序的運(yùn)算能力。直到蒙特卡洛算法(Monte Carlo Method)的普及,大大優(yōu)化了整個(gè)樹(shù)方法的運(yùn)算效率。這個(gè)統(tǒng)計(jì)學(xué)方法廣泛應(yīng)用于各個(gè)領(lǐng)域,通過(guò)隨機(jī)重復(fù)的模擬動(dòng)作,來(lái)獲得該動(dòng)作產(chǎn)生的效果概率分布。應(yīng)用在游戲上就可以訓(xùn)練機(jī)器對(duì)樹(shù)上的各節(jié)點(diǎn)進(jìn)行篩選和調(diào)整。
尤其在2005年,通用棋類(lèi)游戲(General Game Playing,GGP)項(xiàng)目由斯坦福大學(xué)發(fā)起,其目的是建立一個(gè)人工智能平臺(tái),讓游戲AI具有通用性,而不只針對(duì)單一項(xiàng)目。之后這個(gè)項(xiàng)目的成果被美國(guó)計(jì)算機(jī)協(xié)會(huì)(AAAI)納入,成為一年一度的計(jì)算機(jī)大賽。比賽會(huì)使用一個(gè)統(tǒng)一的服務(wù)器,其上用游戲描述語(yǔ)言來(lái)制定規(guī)則(GDL),參賽AI之間相互比拼。自舉辦以來(lái),蒙特卡洛算法和其他各類(lèi)算法的配合幾乎是獲得冠軍的秘訣。
到近幾年,一度沉寂的神經(jīng)網(wǎng)絡(luò)算法開(kāi)始復(fù)興。這個(gè)算法在一定程度上模擬了生物神經(jīng)分層的構(gòu)架,不僅能夠不斷調(diào)整優(yōu)化各項(xiàng)行動(dòng)的邏輯權(quán)重,還能夠進(jìn)行結(jié)果的反饋,把結(jié)果重新作為輸入進(jìn)行訓(xùn)練。谷歌的DeepMind團(tuán)隊(duì)把這項(xiàng)算法附加在博弈樹(shù)上,就有點(diǎn)像棋手進(jìn)行復(fù)盤(pán)一樣,反復(fù)加強(qiáng)之后可以對(duì)落子的位置形成一定的優(yōu)先級(jí)篩眩應(yīng)用性質(zhì)上是和蒙特卡洛一樣的搜索和剪枝策略。經(jīng)過(guò)了3千萬(wàn)局的訓(xùn)練,最終達(dá)到了極高的職業(yè)水準(zhǔn)。
也許有人會(huì)問(wèn):這不還是硬算嗎?問(wèn)題并非如此,看似依然需要大量運(yùn)算,卻和先前有著極大的區(qū)別。當(dāng)機(jī)器進(jìn)行反復(fù)的訓(xùn)練后,它們對(duì)某些情況下的落子位置概率會(huì)變得很低。換句話說(shuō),它們可以跳過(guò)這些位置的運(yùn)算,而非全部再計(jì)算一通。這些算法的進(jìn)步實(shí)際更加符合人類(lèi)的思考和學(xué)習(xí)方式。我們?nèi)祟?lèi)并不是掌握了全部的信息和預(yù)測(cè)之后才能做出決策的,我們只能盡力追求在自己的能力范圍內(nèi)“滿意”的答案,而不是非要找到那個(gè)最優(yōu)的答案。這便是Herbent Simon提出的有限理性理論(Bounded Rationality)。對(duì)于一位棋手而言也是如此,無(wú)論他的棋力多么高超也不夠算計(jì)到所有的局面,所以一定是做出他最滿意的那個(gè)決策。既然如此,如果機(jī)器真的能模擬人類(lèi)智能,那么它也不需要做到所有的運(yùn)算,只需要模仿人類(lèi)盡可能的優(yōu)化自身。而相比人類(lèi),計(jì)算機(jī)的學(xué)習(xí)卻可以“不知疲倦”的反復(fù)訓(xùn)練。
所以,即便借助計(jì)算機(jī),我們也可能無(wú)法窮盡圍棋的答案,但借助人工智能,我們永遠(yuǎn)可以挑戰(zhàn)自己。
3Game over?
或許某天,天才棋手也敵不過(guò)人工智能的棋局。但我們應(yīng)該想到,他并非輸給機(jī)器,而是依然輸給了人,輸給了那些機(jī)器背后的智慧結(jié)晶。有人會(huì)覺(jué)得這個(gè)說(shuō)法略顯悲壯,那么,更好的建議是“不用擔(dān)心”。
當(dāng)1997年深藍(lán)多次擊敗頂級(jí)象棋棋手之后,人們都以為這個(gè)游戲終結(jié)了。但他們錯(cuò)了。在那場(chǎng)比賽之后,卡斯帕羅夫率先提出了“人加機(jī)器”(Man-plus-Machine)的概念,即在比賽中使用人工智能增強(qiáng)國(guó)際象棋手的水平,而不是讓雙方相互對(duì)抗。這種比賽在之后被稱(chēng)為自由式國(guó)際象棋賽,它們和混合武術(shù)比賽相似,選手們可以使用任何技巧對(duì)弈。你可以獨(dú)自參賽;或者帶一臺(tái)人工智能照著它的路子下棋;亦或偶爾否決人工智能的選擇,就像我們開(kāi)車(chē)時(shí)用GPS的感覺(jué)。在2014年的自由式國(guó)際象棋對(duì)抗錦標(biāo)賽上,純粹使用人工智能的選手贏得了42場(chǎng)比賽,而人機(jī)一起參加的選手贏得了53常當(dāng)今世界上最優(yōu)秀的國(guó)際象棋選手隊(duì)伍Intagrand就是由人類(lèi)和象棋程序一起組成的。
更讓人意外的是,國(guó)際象棋的人工智能并未削弱這項(xiàng)游戲的魅力,與卡斯帕羅夫時(shí)期相比,擁有國(guó)際象棋大師排名的人數(shù)至少翻了一倍,而曾經(jīng)通過(guò)機(jī)器訓(xùn)練,目前位列第一的Magnus Carlsen還是有史以來(lái)評(píng)分最高的象棋大師。我們不妨更進(jìn)一步思考,既然人工智能可以幫助人類(lèi)成為更優(yōu)秀的選手,那么它也能幫助我們成為更優(yōu)秀的其他職業(yè)人士。
比賽自會(huì)有輸贏,有勝敗。最重要的是,人類(lèi)通過(guò)比賽挑戰(zhàn)強(qiáng)者,而挑戰(zhàn)永無(wú)止境。