張崢:是,用少見的開局也許可以增加長距離蝴蝶效應(yīng)的可能性。一進入局部就不好辦了。
Q6:硬件當中會有GPU(圖形處理器)和CPU(中央處理器)共同工作嗎?
張崢:是的,用兩種硬件協(xié)調(diào)工作是工程和資源的優(yōu)化,不是本質(zhì)。
田淵棟:一直是兩者同時工作的,CPU搜索,GPU評估局面。
Q7:在過去的四個月中,AlphaGo的學習方式是復習歷史棋局還是跟許多真人高手對決?AlphaGO是在局部算路更強的情況下,對整體勢的把握是如何做的。
衛(wèi)鴻泰:兼而有之。
Q8:我記得有人問Google作者,電腦是怎么下這一步的,他也不知道,不是靠背棋譜就可以知道的。為什么Google作者自己都不知道電腦怎么下棋的呀?不是他們設(shè)置學習機制的嗎?
田淵棟:設(shè)置了機制,但是不知道這個機制如何學得棋譜模式。所以,AlphaGo可以走很好的棋,但是制作者不知道這個是通過什么推理方式算出來的。要是知道了,對AI來說是非常大的突破。
Q9:所以,機器思考的過程現(xiàn)在還是個黑匣子?
田淵棟:是的,在這點上人工智能還是有很長的路要走。
Q10:電腦的弱點之一是,算法可以解決局部的問題,但對整體局勢的評估會弱一些。
田淵棟:不一定,深度神經(jīng)網(wǎng)絡(luò)往往是倒過來,整體強而局部弱,需要加上搜索,DarkForest是這樣。所以有時候死活,對殺會有問題。
張崢:難說,狗狗的結(jié)構(gòu)是從局部到全局的。
Q11:我們能否說AlphaGo現(xiàn)在已經(jīng)能夠判別局勢,而不是只判斷接下來的幾步范圍內(nèi),哪個位置最優(yōu)?
田淵棟:Value Network和Playout都是用來判斷局勢的,判斷哪步棋最優(yōu)也要靠這兩個,Policy Network給出候選的走子,然后由上面這兩個判斷哪步比較好。
“狗狗”早點去博物館不好嗎?
Q12:“阿狗”和對手下得越多,勝利的機會也就隨之增加?
張崢:狗狗哪天的左手也很強,就不要你了!它左右手互搏是現(xiàn)在成長的環(huán)境一環(huán)。
Q13:如果AlphaGO在棋力水平超過了大部分用于訓練的“高手棋局”,想進一步提升棋力,這時如果再用這些水平低于自身水平的棋局數(shù)據(jù)進行訓練是否不利于自身棋力水平增長?更多的使用“左右互搏”棋局訓練是否更好?
田淵棟:是的。
董飛:我之前思考過電腦如果只是學習網(wǎng)上的棋譜,這些大多都不是高手,超一流的棋局又那么少,跟三流學,怎么可能下過一流的選手呢?但它那種可以自我對弈,選擇傾向贏棋的路徑,這樣想只要它不斷電,有大量計算資源,這樣就進化直到永生,想到這就是一部科幻片了。大家還記得那部片子叫《超驗駭客》,主人翁要死了,委托他女友把大腦移植到電腦中,后來就入侵銀行,去一個鄉(xiāng)下造了一個巨大data center,一直進化,研究各種新技術(shù),可以移植修復,copy他的思想,最后誰也沒法阻擋,世界被他控制。我覺得那部電影還是挺有哲學意義的,本意是想那些人類都不如他,他要去拯救世界,給他們最好的東西,但這樣就是獨裁。
Q14:沒有了人類的挑戰(zhàn),AlphaGo的能力很快就到頂,進步的空間就不大了?
張崢:讓狗狗早點去博物館不是好事嗎?
Q15:為什么?
張崢:因為就去戰(zhàn)下一個更好的問題了。
Q16:AlphaGo的算法已經(jīng)公開發(fā)表,是否意味著別的團隊同樣可以做出AlphaGo?商業(yè)化公司發(fā)表公開論文的動力在哪里?
田淵棟:細節(jié)有很多還是不清楚的,當然大致的技術(shù)路線都很明確了。動力在于提高自己公司知名度,這個很重要的,而不只是為了賺錢。有知名度就對招人和公共形象都有好處。
機器還是真人,你分得清嗎?
Q17:如果不告訴您黑白棋對應(yīng)的是電腦還是真人,您能分辨出來誰是誰么?