谷歌人工智能AlphaGo和世界圍棋冠軍李世乭將于3月9日在韓國(guó)進(jìn)行人機(jī)大戰(zhàn),科技將全程直播。創(chuàng)新工場(chǎng)CEO李開(kāi)復(fù)在知乎上回答“AlphaGo能戰(zhàn)勝李世乭嗎?”問(wèn)題時(shí)表示:“如果對(duì)弈一盤(pán),AlphaGo尚有11%的獲勝的可能性,而整個(gè)比賽五盤(pán)勝出三盤(pán)或更多,AlphaGo就只有1.1%的可能性了。”
以下為李開(kāi)復(fù)在知乎上的回答原文:
先直接回答這個(gè)問(wèn)題,下面再分析AlphaGo和人工智能的未來(lái)。我認(rèn)為AlphaGo這次的比賽打敗李世乭比較懸,但是1-2年之內(nèi)必然完勝人類。
按照兩者的Elo(圍棋等級(jí)分),可以算出去年年底的AlphaGo打敗李世乭的概率相當(dāng)?shù)?。如何算出的呢?AlphaGo去年年底的頂級(jí)分布式版本的Elo是3168(見(jiàn)下面第一張圖),而李世乭的Elo大約是3532(全球圍棋手Elo: Go Ratings ,見(jiàn)下面第二張圖)。
按照這兩個(gè)等級(jí)分的兩個(gè)棋手對(duì)弈,李世乭每盤(pán)的勝算為89%(公式見(jiàn):How to Guide: Converting Elo Differences To Winning Probabilities : chess)。如果對(duì)弈一盤(pán),AlphaGo尚有11%的獲勝的可能性,而整個(gè)比賽五盤(pán)勝出三盤(pán)或更多,AlphaGo就只有1.1%的可能性了。(當(dāng)然,這是幾個(gè)月前的AlphaGo,也許今天已經(jīng)超越了:見(jiàn)下面第三點(diǎn))。
AlphaGo不是打敗了歐洲冠軍嗎?有些人認(rèn)為AlphaGo去年底擊敗了歐洲冠軍樊麾,所以挑戰(zhàn)(前)世界冠軍應(yīng)有希望。但是,樊麾只是職業(yè)二段(Elo 3000左右),而李世乭是職業(yè)九段(ELO 3532)。這兩位的差別是巨大的,完全不能混為一談。就比如說(shuō)一個(gè)人乒乓球打敗了非洲冠軍,并不代表他就可以成功挑戰(zhàn)中國(guó)冠軍。
AlphaGo有可能在這幾個(gè)月突飛猛進(jìn),進(jìn)而擊敗李世乭嗎?AlphaGo的負(fù)責(zé)人說(shuō):”外界不知道我們這幾個(gè)月進(jìn)步了非常多“。(來(lái)自:Odds favor machine over human in big Go showdown )。這點(diǎn)確實(shí)有可能。AlphaGo進(jìn)步的方法有兩個(gè):(1)增加硬件:我們從Nature的文章可以看到:從1202個(gè)CPU到1920個(gè)CPU,AlphaGo的ELO只增加了28,而且線性地增加CPU,不會(huì)看到線性的ELO成長(zhǎng)。若要達(dá)到364 ELO積分的提升,需要的CPU將達(dá)到天文數(shù)字(有篇文章估計(jì)至少要10萬(wàn)個(gè)CPU:AlphaGo and AI Progress)。當(dāng)然,谷歌有錢(qián)有機(jī)器,但是純粹加機(jī)器將會(huì)碰到并行計(jì)算互相協(xié)調(diào)的瓶頸(就是說(shuō)假設(shè)有十萬(wàn)萬(wàn)臺(tái)機(jī)器,它們的總計(jì)算能力很強(qiáng),但是彼此的協(xié)調(diào)將成為瓶頸)。在幾個(gè)月之內(nèi)增加兩個(gè)數(shù)量級(jí)的CPU并調(diào)節(jié)算法,降低瓶頸,應(yīng)該不容易。(2)增加學(xué)習(xí)功能:AlphaGo有兩種學(xué)習(xí)功能,第一種是根據(jù)高手棋譜的學(xué)習(xí),第二種是自我對(duì)弈,自我學(xué)習(xí)。前者已經(jīng)使用了16萬(wàn)次高手比賽,而后者也在巨大機(jī)組上訓(xùn)練了8天。這方面肯定會(huì)有進(jìn)步,但是要超越世界冠軍可能不容易。最后,換一種分析方式:如果從過(guò)去深藍(lán)擊敗世界冠軍的“成長(zhǎng)過(guò)程”來(lái)看,深藍(lán)大約1993年達(dá)到職業(yè)大師水平,4年后才在一場(chǎng)六盤(pán)的比賽中擊敗世界冠軍(大約500Elo積分點(diǎn)的提升)。今天的AlphaGo應(yīng)該和1993年的深藍(lán)相似,剛進(jìn)入職業(yè)大師水平。若要擊敗世界冠軍,雖然未必需要4年的時(shí)間,但是幾個(gè)月似乎不夠。
還有什么以上未考慮的因素,導(dǎo)致AlphaGo獲勝嗎?如果谷歌刻意未出全力和樊麾對(duì)抗,或者有其它學(xué)習(xí)或并行計(jì)算方面超越了Nature里面的描述,那AlphaGo完全有可能獲勝。
既然寫(xiě)了這么多,就對(duì)這個(gè)題目再發(fā)表一些看法:
AlphaGo 是什么?在今年一月的Nature (http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html )有AlphaGo的詳細(xì)介紹,AlphaGo是一套為了圍棋優(yōu)化的設(shè)計(jì)周密的深度學(xué)習(xí)引擎,使用了神經(jīng)網(wǎng)路加上MCTS (Monte Carlo tree search),并且用上了巨大的谷歌云計(jì)算資源,結(jié)合CPU+GPU,加上從高手棋譜和自我學(xué)習(xí)的功能。這套系統(tǒng)比以前的圍棋系統(tǒng)提高了接近1000分的Elo,從業(yè)余5段提升到可以擊敗職業(yè)2段的水平,超越了前人對(duì)圍棋領(lǐng)域的預(yù)測(cè),更達(dá)到了人工智能領(lǐng)域的重大里程碑。
AlphaGo 是科學(xué)的創(chuàng)新突破嗎?AlphaGo是一套設(shè)計(jì)精密的卓越工程,也達(dá)到了歷史性的業(yè)界里程碑,不過(guò)Nature文章中并沒(méi)有新的“發(fā)明”,AlphaGo的特點(diǎn)在于:不同機(jī)器學(xué)習(xí)技術(shù)的整合(例如:reinforcement learning, deep neural network, policy+value network, MCTS的整合可謂創(chuàng)新)、棋譜學(xué)習(xí)和自我學(xué)習(xí)的整合、相對(duì)非??蓴U(kuò)張的architecture(讓其充分利用谷歌的計(jì)算資源)、CPU+GPU并行發(fā)揮優(yōu)勢(shì)的整合。這套“工程”不但有世界頂級(jí)的機(jī)器學(xué)習(xí)技術(shù),也有非常高效的代碼,并且充分發(fā)揮了谷歌世界最宏偉的計(jì)算資源(不僅僅是比賽使用,訓(xùn)練AlphaGo時(shí)也同樣關(guān)鍵)。