經(jīng)過2小時,4小時訓(xùn)練后,DeepMind的水平已經(jīng)超過職業(yè)玩家。(01:32)
澎湃新聞記者 王心馨
3月10日,谷歌AlphaGo與李世石的第二場對局已落下帷幕。2:0,在五番棋中,李世石已命懸一線。
在棋類競技中,圍棋作為人類智能最后一個未被人工智能征服的堡壘,正在AlphaGo的進(jìn)攻下逐漸淪陷。
憑借著DeepMind公司為它武裝的四大利器——走棋網(wǎng)絡(luò)(Policy Network)、快速走子(Fast rollout)、估值網(wǎng)絡(luò)(Value Network)以及蒙特卡羅樹搜索(Monte Carlo Tree Search),AlphaGo正在圍棋領(lǐng)域攻城拔寨,銳不可當(dāng)。
這樣的劇情走向看起來有點(diǎn)像1997年,IBM“深藍(lán)”與國際象棋大師卡斯帕羅夫的對決。但是,這兩者之間有著巨大的不同:“深藍(lán)”采用的是“暴力算法”,而AlphaGo要聰明得多。比起只能下國際象棋的深藍(lán),AlphaGo擁有更大的潛力,只要涉及到策略分析,AlphaGo幾乎所向披靡。
深藍(lán)下棋無敵,但只是下棋
先讓我們回顧下1997年的那場“人機(jī)對弈”。
1997年5月,國際象棋棋王卡斯帕羅夫在第二次對決IBM研發(fā)的深藍(lán)電腦時,以3.5:2.5敗于機(jī)器手下。此事震動了全世界,一時間“AI戰(zhàn)勝人類”的話題不絕于耳。
但后來有科學(xué)家發(fā)現(xiàn),“深藍(lán)”的技術(shù)并不全面,它太專業(yè)了。換言之,深藍(lán)是專門為國際象棋設(shè)計的。它評估盤面的四項標(biāo)準(zhǔn)包括子力、棋子位置、王的安全性還有布局節(jié)奏——顯然,這些指標(biāo)完全依賴于國際象棋本身的規(guī)則,沒有任何擴(kuò)展性。
作為一臺超級國際象棋電腦,深藍(lán)重1270公斤,有32個大腦(微處理器),每秒鐘可以計算2億步,計算能力11.38 GFLOPS,輸入了一百多年來優(yōu)秀棋手的對局兩百多萬局。這樣的計算能力放到現(xiàn)在,還沒有你我手中智能手機(jī)的CPU性能強(qiáng)。
此外有媒體報道稱,當(dāng)時,深藍(lán)在棋局之間還曾被修改以符合卡斯帕羅夫的下棋風(fēng)格,以免再次跌入陷阱(卡斯帕羅夫曾贏過深藍(lán))。
因此,將深藍(lán)稱為人工智能是不合適的,它更像是一個專門用來下國際象棋的程序。想讓它學(xué)會圍棋、五子棋,或者畫畫是不可能的。
AlphaGo開啟通用模式后可應(yīng)用到更多領(lǐng)域
但AlphaGo不一樣。從這兩天的比賽來看,人類似乎低估了AlphaGo的學(xué)習(xí)能力。尤其是3月10日的比賽,就連眾多職業(yè)九段圍棋高手都沒能判斷出AlphaGo一招看似業(yè)余的走法,其背后卻已暗藏殺機(jī)。
AlphaGo能擁有如此巨大的威力,主要是得益于背后的深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和蒙特卡羅樹搜索方法。值得一提的還有,這些算法并非只能用在AlphaGo的圍棋項目。這也讓AlphaGo的未來充滿想象。
在DeepMind創(chuàng)始人德米斯·哈薩比斯(Demis Hassabis)和他的團(tuán)隊搭建AlphaGo之前,已經(jīng)使用這些技術(shù)做了一些會玩經(jīng)典雅達(dá)利視頻游戲(比如,Pong,Breakout以及Space Invaders)的DEMO系統(tǒng)。在這些案例中,這些系統(tǒng)不僅比職業(yè)玩家還出色,它們還會以天馬行空的方式玩游戲,沒有人類玩家會或者可以這么玩。
“DeepMind的做法是,不告訴機(jī)器哪種算法能得到高分,而是訓(xùn)練它,通過學(xué)習(xí)和分析結(jié)果來判斷最優(yōu)策略。”復(fù)旦大學(xué)計算機(jī)與工程學(xué)院副教授邱錫鵬告訴澎湃新聞(www.thepaper.cn)。
從小游戲到圍棋對弈,谷歌還打算將AlphaGo背后的算法一步步地運(yùn)用到更多的領(lǐng)域中。就在3月份與李世石開賽前,DeepMind公司就公開表示,將與倫敦帝國理工學(xué)院和倫敦皇家自由醫(yī)院展開合作,試圖將其人工智能技術(shù)應(yīng)用于醫(yī)療行業(yè)。
除了醫(yī)療外,金融交易公司以及投資機(jī)構(gòu)也對AlphaGo背后的算法展現(xiàn)出了濃厚的興趣。
英國大型投資公司英仕曼(AHL Man)首席科學(xué)家安東尼萊德福(Anthony Ledford),在去年12月舉行的蒙特利爾人工智能研究者的重要學(xué)術(shù)活動NIPS會議(神經(jīng)信息處理系統(tǒng)進(jìn)展大會)上表示,公司正在探索是否深度學(xué)習(xí)技術(shù)會有助于融資。
“這是早期階段,”萊德福說,“我們已經(jīng)撥出大量資金用于測試交易。如果一切順利,深度學(xué)習(xí)將進(jìn)入測試交易。”