文/劉鋒(來源:人工智能學(xué)家)
“把大象關(guān)進(jìn)冰箱要幾步”涉及的科學(xué)漏洞
在討論谷歌圍棋AI及其比賽問題之前,我們先看那個著名的笑話“把大象關(guān)進(jìn)冰箱要幾步“,2000年中國春晚,趙本山、宋丹丹的小品《鐘點工》,曾經(jīng)用到了這個笑話:問“把大象放進(jìn)冰箱總共分幾步?”答:“三步,第一步把冰箱門打開;第二步把大象放進(jìn)去,第三步把冰箱門帶上”。
小品中的情景只是一個笑話,但從科研角度看,因為故意忽視最為關(guān)鍵的第二步,使得這個原本偉大的科學(xué)實驗,變成了笑話段子。本文提出谷歌圍棋AI及其比賽有科學(xué)欺詐表現(xiàn),根源也在這里。
谷歌圍棋AI在Nature上究竟說了什么
谷歌在Nature發(fā)表論文闡述了其圍棋AI程序AlphaGo的運行原理,這個原理描述相對專業(yè),這里我們也力爭用通俗易懂的語言描述谷歌究竟說了什么,谷歌圍棋AI程序AlphaGo在下棋過程中主要通過四步完成工作,它們分別是:
第一步快速判斷:用于快速的觀察圍棋的盤面,類似于人觀察盤面獲得的第一反應(yīng)
第二步深度模仿 :AlphaGo學(xué)習(xí)近萬盤人類歷史高手的棋局來進(jìn)行模仿學(xué)習(xí),用得到的經(jīng)驗進(jìn)行判斷。這個深度模仿能夠根據(jù)盤面產(chǎn)生類似人類棋手的走法。
第三步自學(xué)成長:AlphaGo不斷與“自己”對戰(zhàn),下了3000萬盤棋局,總結(jié)出經(jīng)驗作為棋局中的評估依據(jù)。
第四步全局分析:利用第三步學(xué)習(xí)結(jié)果對整個盤面的贏面判斷,實現(xiàn)從全局分析整個棋局。
判斷欺詐的第一個原因,谷歌的把大象關(guān)冰箱問題
Nature論文闡述的AlphaGo基本原理,按照人工智能專家的評價:”其基本原理并沒有新東西“,但核心價值是學(xué)習(xí)了近萬盤人類歷史高手的棋局,和自我對戰(zhàn)下的3000萬盤棋局總結(jié)的經(jīng)驗。
請注意,這個關(guān)鍵內(nèi)容,也就是AlphaGo到底終結(jié)出什么圍棋規(guī)律,或者其神經(jīng)網(wǎng)絡(luò)的權(quán)重值是什么,谷歌并沒有發(fā)表出來。也就是谷歌在”大象關(guān)進(jìn)冰箱要幾步“問題上,說出了如何打開圍棋戰(zhàn)勝人類的冰箱大門,和如何關(guān)上圍棋戰(zhàn)勝人類的冰箱大門,但唯獨在第二步 圍棋如何戰(zhàn)勝人類的方法塞進(jìn)冰箱,同樣做了隱藏。
我們知道,圍棋之所以很難被人工智能攻破,戰(zhàn)勝人類高手,就是其可能的組合數(shù)異常龐大。至于多么異常,2016年1月普林斯頓的研究人員給出了最新研究結(jié)果:對于一個19x19的圍棋棋盤而言,一共有361個位置,而每個位置可以單獨放置黑棋、白棋或者留空,理論上所有的可能組合是3^361種。但根據(jù)圍棋規(guī)則,不是所有位置都可合法落子,例如在圍棋術(shù)語中沒有氣的位置就不能落子。那么排除掉這些不合法的棋局后總共還剩多少種呢?
普林斯頓的研究人員給出的19x19格圍棋的精確合法棋局?jǐn)?shù):208168199381979984699478633344862770286522453884530548425639456820927419612738015378525648451698519643907259916015628128546089888314427129715319317557736620397247064840935
我們給它多分幾行:
2081681993819799846
9947863334486277028
6522453884530548425
6394568209274196127
3801537852564845169
8519643907259916015
6281285460898883144
2712971531931755773
6620397247064840935
不用數(shù)了,一共171位數(shù)! 這個數(shù)字比我們地球所有的沙粒數(shù)量還要多!比人類已知宇宙的所有星球數(shù)量還要多!對比一下,谷歌學(xué)習(xí)的近萬盤人類棋局是5位數(shù),谷歌自行對戰(zhàn)的3000萬盤是8位數(shù)。而圍棋所有可能的棋局盤數(shù)是171位數(shù)。如果規(guī)避還有可能的重復(fù)變化,我們把大頭去掉,那也有70位數(shù)的棋局變化。