增強(qiáng)學(xué)習(xí)在未來的二至三年,會像深度學(xué)習(xí)一樣影響巨大。
其他研究人工智能的公司和研究員會緊密關(guān)注著。DeepMind增強(qiáng)學(xué)習(xí)的成功讓很多機(jī)器學(xué)習(xí)研究員吃了一驚。這項(xiàng)技術(shù)是二十世紀(jì)八十年代創(chuàng)建的,之前沒有其他訓(xùn)練軟件的方法那么廣泛使用和效果強(qiáng)大,華盛頓大學(xué)研究機(jī)器學(xué)習(xí)的教授Pedro Domingos說。DeepMind加強(qiáng)了這項(xiàng)技術(shù),把它和深度學(xué)習(xí)方法結(jié)合起來。深度學(xué)習(xí)最近有了重大突破,能讓計算機(jī)解碼圖片等信息,引發(fā)了最近機(jī)器學(xué)習(xí)的熱潮。
“DeepMind所做的很了不起,”Domingos說。但是他還說,Hassabis想做的是一個超越現(xiàn)在所有研究的火箭,還是后院里放的煙火,現(xiàn)在要下定論還為時過早——近期讓人眼花繚亂的成功不一定能持續(xù)。“Demis對增強(qiáng)學(xué)習(xí)的樂觀態(tài)度不只是處于成功經(jīng)驗(yàn),”Domigos說,“機(jī)器學(xué)習(xí)和人工智能領(lǐng)域中,進(jìn)步不是線性的;我們有時候會突飛猛進(jìn),有時候會慢慢前行。”
Hassabis承認(rèn),業(yè)界”很多“人都懷疑增強(qiáng)學(xué)習(xí)的潛能,但是他們不會買賬。“我們越是深入,越是感覺我們的理論是正確的,我想我們正在改變整個領(lǐng)域,”他說。“我們認(rèn)為增強(qiáng)學(xué)習(xí)在未來的二至三年會像深度學(xué)習(xí)一樣影響巨大。”
安全第一
DeepMind的成功目前支持Hassabis關(guān)于增強(qiáng)學(xué)習(xí)會有很多應(yīng)用的說法。AlphaGo的成功讓很多專業(yè)圍棋手和計算機(jī)專家驚訝,因?yàn)閲鍖?shí)在非常復(fù)雜,很難讓基本依靠計算不同走法可能結(jié)果的軟件勝利,也就是1997年IBM的深藍(lán)用來打敗世界象棋冠軍Garry Kasparov的方法。平均來說,象棋玩家每一步有35種可能的走法;在圍棋中,有250種。圍棋中位置可能性排列組合的數(shù)量,比宇宙中原子的數(shù)量都多。“象棋是一種計算游戲,”Hassabis說,“圍棋太復(fù)雜,所有玩家靠的是直覺。在類別上完全不一樣。你可以把AlphaGo想象成一個超級人類的直覺,而非超級人類的計算。”
圍棋世界冠軍李世石回顧他1-4敗于AlphaGo的比賽。圖片來源MIT Technology Review。
不論你是否同意AlphaGo具有直覺,能讓軟件掌握更復(fù)雜的任務(wù)顯然很有用。DeepMind正在和英國國家健康服務(wù)的項(xiàng)目合作,訓(xùn)練軟件幫助醫(yī)務(wù)工作人員發(fā)現(xiàn)腎臟問題的跡象,這些問題經(jīng)常被忽視,并造成大量可以避免的死亡。團(tuán)隊(duì)還在和谷歌業(yè)務(wù)團(tuán)隊(duì)合作,Hassabis說他的技術(shù)可以讓虛擬助理浮現(xiàn),改善推薦系統(tǒng),這對于YouTube等產(chǎn)品非常重要(類似的系統(tǒng)也是谷歌廣告產(chǎn)品的基礎(chǔ))。
能解決問題的一個非主流辦法是,學(xué)習(xí)真實(shí)的大腦。
更遠(yuǎn)的未來,DeepMind需要很多突破,才能往Hassabis解決智能的目標(biāo)靠近,即使是未來幾年都在Labyrinth里面試驗(yàn)。最關(guān)鍵的一個缺口是一種叫做分塊的技能,人類和動物的大腦用以處理世界的復(fù)雜性。Hassabis舉了個去機(jī)場的例子,你可以想好如何去機(jī)場并且完成計劃,而不用考慮走去門口的時候每一步走在哪兒,如何轉(zhuǎn)動門把手或控制每一個肌肉纖維。我們可以用高層次的概念來計劃和行動,而不用考慮每一個細(xì)節(jié),并且通過重新組合我們熟悉的“分塊”,或者概念,來適應(yīng)新環(huán)境。“這大概是人工智能領(lǐng)域內(nèi)未解決的最核心問題之一。”Hassabis說。
這是許多研究團(tuán)隊(duì)在鉆研的問題,包括其他谷歌團(tuán)隊(duì)。但是,DeepMind希望能解決問題的一個非主流辦法是,學(xué)習(xí)真實(shí)的大腦。公司有一個由著名研究員Mattew Botvinick領(lǐng)導(dǎo)的神經(jīng)科學(xué)家團(tuán)隊(duì),他直到最近一直是普林斯頓大學(xué)的教授。與大部分神經(jīng)科學(xué)研究不同的是,他們不僅要研究大腦如何運(yùn)作,還要告訴DeepMind如何設(shè)計軟件。
有一個近期試驗(yàn)測試了Hassabis關(guān)于人腦如何組織概念的理論,利用一個偽造記憶的標(biāo)準(zhǔn)程序。它給測試對象呈現(xiàn)一系列相關(guān)詞,例如“冷”、“雪”和“冰”。人們經(jīng)常錯誤地記得聽到一些其他相關(guān)詞,例如”冬天“。