依據(jù)個(gè)人的理解,我曾將圍棋的思維過程分解為四步的演進(jìn):常識(shí)→棋感→計(jì)算→判斷。
大約一年前,我曾和李喆七段就此問題進(jìn)行過簡單討論,當(dāng)時(shí)我認(rèn)為蒙特卡洛算法的成功主要在于為人工智能建立了“棋感”,而以往的人工智能只能在“常識(shí)”和“計(jì)算”具有天然優(yōu)勢(shì)。
在蒙特卡洛算法之前,雖然計(jì)算機(jī)憑借強(qiáng)大的計(jì)算力可以積累大量“常識(shí)”,但由于“棋感”的缺失,人工智能無法對(duì)計(jì)算方向進(jìn)行有效的篩選,最終就不免淪于蠻力搜索。
而蠻力搜索雖然可以在一定程度上實(shí)現(xiàn)高水平的“計(jì)算”,甚至很多其他棋類都在這一環(huán)節(jié)上被人工智能打敗,而由于圍棋的過度復(fù)雜和摩爾定律結(jié)束對(duì)計(jì)算機(jī)發(fā)展前景的限制,走到這一步仍然無法讓人工智能戰(zhàn)勝人類。
(注:上圖為計(jì)算機(jī)眼中的國際象棋落子思路,而下圖為計(jì)算機(jī)眼中的圍棋落子思路,來自谷歌deepmind官網(wǎng)AlphaGo | Google DeepMind)
而蒙特卡洛算法出現(xiàn)后,憑借大量儲(chǔ)備的棋局,通過勝負(fù)概率來判斷下一步著點(diǎn)以作為計(jì)算方向,極大的提高的計(jì)算的效率,所以AI的水平才實(shí)現(xiàn)了革命性的進(jìn)步。
而這次的AlphaGo,使用了深度神經(jīng)網(wǎng)絡(luò)與蒙特卡洛樹狀搜索相結(jié)合的方法。
依據(jù)已經(jīng)能看到的Nature上的論文(可見雷鋒網(wǎng)文章:《Google人工智能擊敗歐洲圍棋冠軍, AlphaGo 究竟是怎么做到的?》),研究者們?cè)贏lphaGo中加入了兩個(gè)深度神經(jīng)網(wǎng)絡(luò),以value networks來評(píng)估大量的選點(diǎn),而以policy networks來選擇落子,并且開發(fā)了一種新式算法來結(jié)合蒙特卡洛算法和以上兩個(gè)神經(jīng)網(wǎng)絡(luò)。
(注:上圖為AlphaGo使用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖,來自原論文)
在這種結(jié)合下,研究者們結(jié)合參考人類職業(yè)對(duì)局的監(jiān)督式學(xué)習(xí),和AI大量積累自對(duì)弈實(shí)現(xiàn)的深度學(xué)習(xí),來訓(xùn)練和提高AI的圍棋實(shí)力。
在蒙特卡洛算法之后,我看到了新的天地。這種結(jié)合以及新式的思路,讓人感到前景無限。
最后談一談,我認(rèn)為我們應(yīng)該保有的態(tài)度。
如何面對(duì)人工智能?
這里,我首先想引用李喆七段在今天早上說的話:
“我們已來到兩個(gè)時(shí)代的連接處,無論你是否愿意,這都是一個(gè)需要接受的事實(shí)。工具無善惡,善惡在人心。未來的路通往何方,將由我們自己決定。”
從凌晨到早上,朋友圈里的評(píng)論區(qū)一直爭論不休,甚至某世界冠軍一直在說“不信”,畢竟大家在沒有看到板上的釘子之前,從情感上都是不愿意相信的。直到另外兩位一線棋手告訴他,已經(jīng)可以看到棋譜了......
面對(duì)這個(gè)事件,接下來將會(huì)有很多的爆炸性新聞報(bào)道,以及各種各樣姿勢(shì)的討論。
我們要知道:
一.人工智能的確實(shí)現(xiàn)了很大的進(jìn)步。
這次的進(jìn)步可能是革命性的,這次新聞宣稱的AI取得的成績并不是“標(biāo)題黨”。
二.人工智能還沒有戰(zhàn)勝人類(什么所謂“人類最后的驕傲陷落”都屬于“標(biāo)題黨”)。
但朝著這個(gè)方向邁出了一大步,而且是在很多人在蒙特卡洛之后不看好AI下一步發(fā)展的情況下,來了一個(gè)突然襲擊(谷歌從開始研究到出成果再到發(fā)布,一直憋一個(gè)大新聞憋這么久也真是能忍)。
三.人工智能戰(zhàn)勝人類的時(shí)點(diǎn),可能比很多人想象的要來得更早了。
不是之前設(shè)想的生物計(jì)算機(jī)或者量子計(jì)算機(jī)出現(xiàn)后,甚至都不是新材料取代硅晶片之后,在這個(gè)時(shí)代就有可能出現(xiàn)了。也許是五十年后,也許是二十年后,甚至可能是十年后。