摘要:4比1獲勝。這是人工智能與人類比拼棋力的最終戰(zhàn)報(bào)。由谷歌旗下DeepMind公司研發(fā)的機(jī)器程序AlphaGO以大比分戰(zhàn)勝了職業(yè)圍棋九段選手李世石,繼1997年IBM“深藍(lán)”擊敗卡斯帕洛夫之后,人工智能取得的又一次頗具里程碑意義的勝利。但不止是圍棋,人工智能其實(shí)早已實(shí)實(shí)在在的參與到我們的日常生活,每天打開手機(jī)看到的跟我們相關(guān)的廣告,其中背后的移動(dòng)DSP廣告投放技術(shù)就是目前人工智能商用的最前沿領(lǐng)域之一。
人工智能科學(xué)家們一直以來(lái)對(duì)攻克棋類游戲十分著迷。從跳棋到國(guó)際象棋,他們不斷證明計(jì)算機(jī)程序,或者說(shuō)人工智能已經(jīng)比任何一個(gè)人類棋手都要優(yōu)秀。但圍棋卻是唯一沒(méi)有被計(jì)算機(jī)攻克的棋類,被稱作棋類游戲“最后的王冠”。
“深思”的AlphaGO
人們對(duì)于棋類游戲的破解從蠻力開始,計(jì)算機(jī)可以憑借遠(yuǎn)超人類的計(jì)算能力,推出在任何一種局面下的最優(yōu)解。例如跳棋的可能性約為10的20次方,計(jì)算機(jī)可以枚舉出所有走法;國(guó)際象棋大約為10的47次方,此時(shí)機(jī)器的計(jì)算能力開始捉襟見肘,好在科學(xué)家們有了新辦法:程序可以在所有走棋的選項(xiàng)中,找出幾個(gè)最佳解,然后將計(jì)算能力放在所選的幾步棋產(chǎn)生的后續(xù)變化上。
計(jì)算機(jī)程序之所以可以這么做,是因?yàn)閲?guó)際象棋有著較多的約束性規(guī)則和價(jià)值判斷結(jié)構(gòu),比如馬要走日字型,其殺傷力大于兵,而皇后可沿隨意直行,價(jià)值更在二者之上。
相比之下,圍棋的難點(diǎn)在于規(guī)則簡(jiǎn)單卻變化驚人,它可產(chǎn)生的棋局達(dá)10的170次方,遠(yuǎn)超宇宙中所有原子的數(shù)量,而僅僅是黑白兩子卻又孕育出多變的戰(zhàn)術(shù),一步棋的價(jià)值,往往隨著接下來(lái)的落子不同而不同。這些都不是由規(guī)則本身所約束形成的。
那么,如何讓計(jì)算機(jī)程序像人類一樣對(duì)弈?
AlphaGO使用了三個(gè)技術(shù)來(lái)實(shí)現(xiàn):蒙特卡洛樹搜索作為主架構(gòu)、強(qiáng)化學(xué)習(xí)作為訓(xùn)練方法、深度的神經(jīng)網(wǎng)絡(luò)是學(xué)習(xí)工具。(這里不詳細(xì)展開敘述,有興趣的讀者可以自行了解。)
AlphaGO相比之前圍棋算法的突破在于使用了Deep Learning深度學(xué)習(xí)和一個(gè)高效的快速減枝算法,從過(guò)去的人教機(jī)器的策略變成機(jī)器自我學(xué)習(xí)。Deep learning起源于圖像識(shí)別(類似于科幻電影中某安全局使用的天眼系統(tǒng),利用攝像頭全世界找人),而目前Deep learning在工業(yè)界使用最廣領(lǐng)域之一是在線廣告行業(yè),在國(guó)內(nèi)像BAT以及京東等平臺(tái)的廣告系統(tǒng)都在使用這門技術(shù)。
借助Deep Learning可以簡(jiǎn)單概括AlphaGO的工作原理:首先想要教機(jī)器程序?qū)W會(huì)下棋,得讓他能自己理解圍棋中蘊(yùn)含的一般法則。為了做到這一點(diǎn),AlphaGO需要大量的練習(xí)數(shù)據(jù)和處理數(shù)據(jù)的能力。
科學(xué)家們找了3000萬(wàn)份人類已知的棋譜,并讓AlphaGO自己“左右互搏”,從而產(chǎn)生大量的樣本數(shù)據(jù)。隨后這些數(shù)據(jù)被灌注到AlphaGO的算法中,它由兩個(gè)關(guān)鍵部分組成,決策網(wǎng)絡(luò)(Policy Network)負(fù)責(zé)提煉圍棋的特征、規(guī)則并總結(jié)經(jīng)驗(yàn),然后給出每一步的推薦走法;價(jià)值網(wǎng)絡(luò)(Value Network)負(fù)責(zé)根據(jù)前者的推薦,來(lái)計(jì)算每步棋可能的獲勝概率。由于圍棋的可能性過(guò)大,所以價(jià)值網(wǎng)絡(luò)通常只會(huì)審查幾步之后的結(jié)果,選擇最有可能贏得比賽的落子。
AlphaGO正是憑借科學(xué)家們?cè)跈C(jī)器學(xué)習(xí)上的智慧,站到了與千年前發(fā)明圍棋這項(xiàng)游戲的先賢們同樣的高度,甚至更高。
AlphaGO本身是一個(gè)通用計(jì)算程序,意味著未來(lái)可以應(yīng)用并拓展到更多的領(lǐng)域,而不只是下棋。事實(shí)上,人工智能早已進(jìn)入了我們的生活中,在商業(yè)和學(xué)術(shù)上都有了廣泛的應(yīng)用。例如自動(dòng)駕駛、人臉識(shí)別、翻譯、圖像分類,甚至于你每天上網(wǎng)時(shí)看到的廣告,都有人工智能的身影在里面。
移動(dòng)DSP中的人工智能
廣告將是下一個(gè)因人工智能而變革的行業(yè),目前最成熟的人工智能商業(yè)化應(yīng)用就是在互聯(lián)網(wǎng)及程序化廣告行業(yè),精準(zhǔn)、高效的投放機(jī)制徹底改變了傳統(tǒng)廣告。相比人工智能,人的優(yōu)劣勢(shì)是短時(shí)間的記憶容量和準(zhǔn)確度優(yōu)先,而分類整理信息的速度有限。當(dāng)需要處理的信息過(guò)于龐大、規(guī)則復(fù)雜、但目標(biāo)清晰、可量化計(jì)算時(shí),人工智能就有了發(fā)揮的空間。