文/出門問問CTO雷欣 出門問問NLP工程師李理
3月13日消息,人機(jī)大戰(zhàn)第四局出現(xiàn)大逆轉(zhuǎn),AlphaGo對(duì)形勢(shì)作出錯(cuò)誤判斷后,接連出現(xiàn)業(yè)余選手也不會(huì)犯的低級(jí)錯(cuò)誤,導(dǎo)致落敗。
DeepMind創(chuàng)始人Demis在推特發(fā)微博表示,AlphaGo在第79子時(shí)犯了錯(cuò)誤,但是一直到87子才發(fā)現(xiàn)。短短幾個(gè)子的時(shí)間,AlphaGo的勝率從70%陡降至40%以下,發(fā)現(xiàn)時(shí)為時(shí)已晚。
出門問問CTO雷欣稱,這其中的原因很可能是由于AlphaGo在復(fù)雜情況下的判斷還是不夠客觀,碰到?jīng)]見過的下法(如今天的白78挖)時(shí)會(huì)犯錯(cuò)誤,而且在犯錯(cuò)誤的時(shí)候不能夠及時(shí)發(fā)現(xiàn),會(huì)接連出低級(jí)錯(cuò)誤。對(duì)人類來說,如果犯了大錯(cuò)誤,應(yīng)該很快就會(huì)發(fā)現(xiàn)并且糾正,但是機(jī)器的反應(yīng)都是連續(xù)的,不能做出及時(shí)調(diào)整,這也許是AlphaGo的一個(gè)致命弱點(diǎn)。
出門問問NLP工程師李理稱,我懷疑是mcts的問題,這個(gè)問題導(dǎo)致AlphaGo只區(qū)分勝利和失敗,但是剩多少和負(fù)多少它不區(qū)分。李理稱,這可能是AlphaGo之前獲勝也不多,失敗就亂下的原因。
從專業(yè)技術(shù)的角度看,李理認(rèn)為,如果一定要猜測(cè),我覺得可能是開局主要靠value network,因?yàn)樗阉骺臻g太大,有可能在某些特殊的局面下出現(xiàn)非常差的結(jié)果。就像之前神經(jīng)網(wǎng)絡(luò)識(shí)別圖片時(shí)也出現(xiàn)過很詭異的錯(cuò)誤,還有人研究怎么構(gòu)造讓它識(shí)別出錯(cuò)的例子。
雷欣稱認(rèn)為,從谷歌的角度來說,這盤棋幫助他們找到了AlphaGo的一個(gè)弱點(diǎn),以后可以更有針對(duì)性的去解決這個(gè)問題。如果不是李世石這種頂尖棋手,也許很久也發(fā)現(xiàn)不了這個(gè)弱點(diǎn),因?yàn)樗綉沂馓蟾緵]有機(jī)會(huì)逼得AlphaGo犯錯(cuò)誤。從李世石的角度來看,這也是一個(gè)巨大的勝利,證明至少目前人類選手對(duì)戰(zhàn)人工智能還是有機(jī)會(huì)的。人工智能雖然計(jì)算能力強(qiáng)大,但是還是會(huì)犯錯(cuò)誤,并且是很低級(jí)的錯(cuò)誤。這樣,人類棋手不會(huì)把人工智能神話,以后對(duì)戰(zhàn)的時(shí)候心態(tài)會(huì)更好。
(本文由科技小羿整理,轉(zhuǎn)載需注明出處)
登陸|注冊(cè)歡迎登陸本站,認(rèn)識(shí)更多朋友,獲得更多精彩內(nèi)容推薦!