接著,在上個(gè)月,DeepMind又占領(lǐng)了《自然》封面——在短期內(nèi)獲得如此成就非常驚人。這一次,它變本加厲的挑戰(zhàn)上世紀(jì)70和80年代的復(fù)古游戲。圍棋在中國有著超過2500年的歷史,曾經(jīng)出現(xiàn)在孔夫子筆下。圍棋的分支系數(shù)非常大:每一顆棋子可能的走法數(shù)量超過了整個(gè)宇宙的原子數(shù)量,而且不像國際象棋,它無法用蠻力計(jì)算來得出結(jié)果。更加困難的是,想要寫出圍棋的評估函數(shù)是一件不可能的事,例如能夠體現(xiàn)出誰處于優(yōu)勢位置以及優(yōu)勢多少的一套規(guī)則。反而,它取決于棋手的一些類似于“直覺”的東西:當(dāng)被問到為何這樣落子的時(shí)候,大師們通常的回答是“感覺如此”。
很顯然,計(jì)算機(jī)在做出這方面的判斷時(shí)會表現(xiàn)很糟,圍棋也因此被認(rèn)為是人工智能領(lǐng)域“懸而未決的重大挑戰(zhàn)”之一,大部分研究者預(yù)期還需要十年機(jī)器才能有希望破解它。
DeepMind的新算法有著嚴(yán)格的同行評審證據(jù),AlphaGo在去年秋季秘密的一場對決中以5:0擊敗了曾三次獲得歐洲冠軍的樊麾,并將在今年三月與世界冠軍李世石對決。“令人瞠目結(jié)舌的進(jìn)步”,帝國理工學(xué)院認(rèn)知機(jī)器人學(xué)教授Murray Shanahan如此形容。“一個(gè)了不起的里程碑”,超人類主義哲學(xué)家Nick Bostrom也表示同意,后者寫出的《 Superintelligence: Paths, Dangers, Strategies 》指出:如果通用人工智能可以出現(xiàn),這將是一個(gè)無法比肩的事件——借用下谷歌工程主管Ray Kurzweil的話:這將是一次撕裂歷史的斷層。Bostrom告訴我在他牛津人類未來研究所的辦公室中,AlphaGo的成就被認(rèn)為“將過去幾年間機(jī)器學(xué)習(xí)所取得的進(jìn)步生動的表現(xiàn)了出來”。
“這非常酷。”Hassabis很平淡的說到,我們在他的辦公室討論著最新的勝利。像平常一樣,他穿著沒有任何特點(diǎn)的黑色上衣、褲子和鞋子:實(shí)在難以想象這實(shí)習(xí)生裝扮的家伙拿到了谷歌的8000萬英鎊。“圍棋是一個(gè)終極目標(biāo):它是一個(gè)游戲的巔峰,有著最豐富的智力深度。它如此迷人與美麗,令我們感到興奮不僅在于我們掌握了這個(gè)游戲,還在于我們還用漂亮的算法完成了它。”圍棋游戲更像是藝術(shù)而非科學(xué),他認(rèn)為:“AlphaGo以十分人類的方式下圍棋,因?yàn)樗且匀祟惖姆绞竭M(jìn)行學(xué)習(xí),通過不停地游戲變得更加聰明,就像你我一樣。”Hassabis也許看起來像個(gè)學(xué)生,但他更像一個(gè)驕傲的家長,AlphaGo是他職業(yè)生涯中所達(dá)到的最令人激動的成就。“比任何人所想象的都高了一個(gè)數(shù)量級,”他有些激動,“但對于我們來說,最好的在于這不是一個(gè)使用人工規(guī)則的專家系統(tǒng)。它借助于通用機(jī)器學(xué)習(xí)技術(shù)教會了自己如何掌握游戲。最終,我們想將這些技術(shù)用于重要的真實(shí)世界的問題,例如氣候模型或者復(fù)雜的疾病分析,對吧?想想它下一步能夠解決的問題真的非常令人激動!”
氣候建模,復(fù)雜疾病分析——開始想象下一步可能解決什么讓人非常興奮。——Demis Hassabis
我與Hasssabis的首次相遇是在2014年夏天,那是DeepMind被收購的幾個(gè)月后。自那以后,我觀察過他在各種不同壞境中工作,過去八個(gè)月中我也為這篇文章在三個(gè)不同場合正式采訪過他。那段時(shí)間我看著他從一位谷歌的人工智能天才成長為了一位引人注目的傳播者,他找到了一種高效的向類似于我這樣的非科學(xué)家描述他非常復(fù)雜的工作的方法——對此他有極富感染力的熱情——以及為什么這很重要。謙遜和日具風(fēng)度,他非常擅長打破DeepMind的方法;也就是說他們結(jié)合新老人工智能技術(shù)的方式——比如說,在圍棋中結(jié)合使用傳統(tǒng)分析走子的“樹搜索”方法與現(xiàn)代近似于大腦神經(jīng)元網(wǎng)絡(luò)的“深度神經(jīng)網(wǎng)絡(luò)”——而且他們還和人工智能研究的不同領(lǐng)域有條理清晰的“聯(lián)姻”。
在DeepQ中,他們將深度神經(jīng)網(wǎng)絡(luò)與所有動物都有的通過大腦多巴胺驅(qū)動獎勵機(jī)制的“強(qiáng)化學(xué)習(xí)”結(jié)合了起來。而在AlphaGo中,他們更進(jìn)一步又增加了另一種更深度水平的強(qiáng)化學(xué)習(xí)以處理長期計(jì)劃。接下來,他們將整合例如記憶功能等等——直到理論上達(dá)成每一個(gè)智能的里程牌。Hassabis說:“我們在存在多少這些能力的路線圖上有一個(gè)想法。將所有這些不同領(lǐng)域結(jié)合起來是其中關(guān)鍵,因?yàn)槲覀儗δ切┛梢栽谝粋€(gè)領(lǐng)域內(nèi)學(xué)習(xí)又能將知識應(yīng)用到新領(lǐng)域的算法很感興趣。”