而為了達(dá)到這一目的,AlphaGo系統(tǒng)將最先進(jìn)的蒙特卡洛樹狀搜索技術(shù)與兩個深層神經(jīng)網(wǎng)絡(luò)相結(jié)合,每個深層神經(jīng)網(wǎng)絡(luò)均包含許多層,每層又包含數(shù)以百萬計的神經(jīng)元一樣的連接。
在AlphaGo兩種不同的神經(jīng)網(wǎng)絡(luò)中,“策略網(wǎng)絡(luò)(policynetwork)”的作用是預(yù)測下一步,并用來將搜索范圍縮小至最有可能硬起的那些步驟。另一個神經(jīng)網(wǎng)絡(luò)“價值網(wǎng)絡(luò)(valuenetwork)”則是用來減少搜索樹的深度,每走一步估算一次獲勝方,而不是搜索所有結(jié)束棋局的途徑。
上述方法使得AlphaGo的搜索方式相比之前的方法更人性化。例如,深藍(lán)采用強(qiáng)力方法搜索的棋子位置要比AlphaGo多數(shù)千倍。而AlphaGo則相反,它通過想象下完剩余棋局來對下一步進(jìn)行預(yù)判,如此多次反復(fù)。在上述模擬游戲中,策略網(wǎng)絡(luò)提出下一步的智能建議,而價值網(wǎng)絡(luò)則對走過的每個位置進(jìn)行評估。
具體而言,Google首先采用圍棋專業(yè)棋手的3000萬步下法對價值網(wǎng)絡(luò)進(jìn)行訓(xùn)練,直到該網(wǎng)絡(luò)對人類下法預(yù)測準(zhǔn)確率達(dá)到57%(AlphaGo之前的紀(jì)錄是44%)。
但AlphaGo的目標(biāo)是擊敗水平最高的人類棋手,而不僅僅是模仿他們。為了做到這一點,AlphaGo學(xué)會自己發(fā)現(xiàn)新策略,通過自身兩個神經(jīng)網(wǎng)絡(luò)之間成千上萬的對弈,采用被稱為強(qiáng)化學(xué)習(xí)的試錯法逐步進(jìn)行改善。這種方法提高了策略網(wǎng)絡(luò)的效率,以至于最原始的神經(jīng)網(wǎng)絡(luò)(即其中不包含任何樹狀搜索)可以擊敗最尖端、構(gòu)建有巨大無比的搜索樹的圍棋軟件。
這些策略網(wǎng)絡(luò)又反過來對價值網(wǎng)絡(luò)進(jìn)行訓(xùn)練,采用的還是從自我對弈強(qiáng)化學(xué)習(xí)的方法。這些價值網(wǎng)絡(luò)可以對圍棋的任何位置進(jìn)行評估并預(yù)測獲勝方,而人們過去曾認(rèn)為這個問題太過困難,根本無法實現(xiàn)。
實現(xiàn)上述所有設(shè)想的前提是,計算機(jī)要超級強(qiáng)大。Google稱,這一過程大量使用了Google云平臺,使得人工智能和機(jī)器學(xué)習(xí)研究人員得以隨時靈活地獲得計算、存儲和聯(lián)網(wǎng)能力。此外,采用數(shù)據(jù)流圖形(如TensorFlow)、用于數(shù)值計算的開房源庫使研究人員得以對多個CPU或GPU的深度學(xué)習(xí)算法的計算需求進(jìn)行高效利用。
AlphaGo到底有多強(qiáng)大?為了回答這個問題,Google在AlphaGo和人工智能研究領(lǐng)域最前沿的其他頂級圍棋軟件如CrazyStone、Zen和Pachi之間進(jìn)行了一次比賽。AlphaGo在總計495局中只輸了一局,勝率是99.8%。
AlphaGo甚至在每局開局讓對方四步的情況下對陣CrazyStone、Zen和Pachi,勝率分別達(dá)到了77%、86%和99%。
如果在今年3月的對戰(zhàn)中,AlphaGo戰(zhàn)勝李世石,是否意味著人工智能已經(jīng)超過人類?
或許還不能如此斷言。但新成立的非營利性組織OpenAI的AI研究者IlyaSutskever認(rèn)為,從技術(shù)的角度說,這個研究對AI具有紀(jì)念碑式的貢獻(xiàn)。
在棋類游戲之外,這場對決也將引發(fā)更多的思考——那些人們曾經(jīng)以為人工智能不可能完成的腦力挑戰(zhàn),是否都將被一一打破?未來人類是否會被人工智能所取代?
登陸|注冊歡迎登陸本站,認(rèn)識更多朋友,獲得更多精彩內(nèi)容推薦!