今日AlphaGo與李世石將進(jìn)行最后一場比賽,而此前的四場比賽雙方的比分為3:1。360首席科學(xué)家顏水成向TechWeb等媒體解析了AlphaGo的 神勇 表現(xiàn),他指出,AlphaGo的勝利在意料之中,尤其圍棋這樣特定的問題人工智能戰(zhàn)勝可能性比較大,不像人工智能在其他領(lǐng)域應(yīng)用更困難一些。
顏水成指出,AlphaGo成功的關(guān)鍵是搜索策略比以前快很多,快了之后效率就能保證,因為它本身快了,不用損失太大精度情況下滿足比賽時的要求。 任何算法剛出來時,大家想的比較多的是算法在精度上能贏,在速度上考慮的不是特別多。當(dāng)?shù)搅藢崙?zhàn)時,你要考慮娛樂性和實際比賽過程中肯定有時間限制,有會以損失精度的情況下去滿足時間的要求,這時候性能就打了一個折扣,實際比賽中效果有會稍微差點。
顏水成還形象的解析了AlphaGo的學(xué)習(xí)過程:可以模擬成是一種練武的過程,首先是師父先教你武功,教了基本的招式之后你就可以有一些大概的印象,師父一般教武功時教兩點,一是在當(dāng)前某個姿勢下應(yīng)該怎么樣動作會具有攻擊性;二是還得考慮我出招時對手會拆招,后面再出招,再拆招你的贏面有多大。
具體到圍棋,AlphaGo這樣學(xué)習(xí):
第一步,Policy network告訴你怎么樣出招最具有殺傷力,Value network是通盤考慮對手拆招你再出招再拆招再出招是不是有比較大的贏面。
第二步,AlphaGo,相當(dāng)于兩個徒弟,兩個版本的AlphaGo模型會根據(jù)師父教的內(nèi)容開始博弈或練習(xí)下棋,有時候這個人贏了,有時候那個人贏了。這些數(shù)據(jù)拿過來重新訓(xùn)練 AlphaGo系統(tǒng), 經(jīng)驗 就逐步積累起來了。
顏水成指出,AlphaGo的優(yōu)勢是,練武時真的要兩個人試錯才可以,真的練武才行。AlphaGo就直接在電腦里,或者在一臺電腦里運行兩個版本的程序,自己對招就可以了。如果機(jī)器資源足夠多,時間足夠長,你會認(rèn)為它會把各種各樣場景下的圍棋過程都會涉及到,會有新樣例產(chǎn)生出來,幫助訓(xùn)練AlphaGo。而且AlphaGo隨著演變過程可能會形成自己的招式。
在顏水成看來,機(jī)器的勝算更大一些,水平會越來越高,而且速度會越來越快。 機(jī)器是根據(jù)歷史經(jīng)驗直接算出來的,它信息量某種意義上要比人多很多,人再厲害也能記住的東西,能推算的步驟還是有限的,比如網(wǎng)上也有過一些人的分析,在圍棋里,出現(xiàn)棋局的數(shù)量相當(dāng)于10的幾百次方,這種東西人的大腦是不可能存下來的,而且這比象棋的難度要大很多,而人不可能記這么多東西,而電腦有這個能力逐步模擬。
登陸|注冊歡迎登陸本站,認(rèn)識更多朋友,獲得更多精彩內(nèi)容推薦!