ImageNet的結(jié)果顯示了深度學(xué)習(xí)的能力。突然間,深度學(xué)習(xí)就獲得了關(guān)注——不只是在人工智能界,而是在整個科技產(chǎn)業(yè)界內(nèi)!深度學(xué)習(xí)系統(tǒng)因此變得更加的強大:20或30層的網(wǎng)絡(luò)變得很常見,微軟的研究人員曾建立過152層的網(wǎng)絡(luò)。更深層的網(wǎng)絡(luò)能進行更高水平的抽象并產(chǎn)生更好的結(jié)果,事實證明這些網(wǎng)絡(luò)擅長解決眾多領(lǐng)域的難題。
“讓人們激動的是這一領(lǐng)域的一種學(xué)習(xí)方法:深度學(xué)習(xí),能夠應(yīng)用于眾多不同的領(lǐng)域,”谷歌機器智能研究部門負(fù)責(zé)人、如今負(fù)責(zé)搜索引擎的John Giannandrea表示,谷歌正在使用深度學(xué)習(xí)提升其網(wǎng)頁搜索結(jié)果的質(zhì)量、理解智能手機端的口語指令、幫助人們在他們的照片中搜索特定的圖片、推薦電子郵件的自動回復(fù)、改善網(wǎng)頁的翻譯服務(wù),并且?guī)椭鼈兊淖詣玉{駛汽車?yán)斫庵車h(huán)境。
學(xué)習(xí)如何學(xué)習(xí)
深度學(xué)習(xí)有很多不同的方式。最普遍使用的是“監(jiān)督學(xué)習(xí)(supervised learning)”,這項技術(shù)能使用標(biāo)記樣本集訓(xùn)練系統(tǒng)。例如,過濾垃圾郵件:收集出郵件信息樣本的大數(shù)據(jù)集,每一個都標(biāo)上“垃圾郵件”或者“非垃圾郵件”。一個深度學(xué)習(xí)系統(tǒng)能夠使用這些數(shù)據(jù)集進行訓(xùn)練,重復(fù)的進行樣本訓(xùn)練進而調(diào)整神經(jīng)網(wǎng)絡(luò)內(nèi)的權(quán)重,提高評定垃圾郵件的準(zhǔn)確率。這一方法的巨大優(yōu)點是不需要人類專家寫出規(guī)則列表,也不需要程序員用代碼編寫這些規(guī)則,系統(tǒng)能直接從有標(biāo)簽的數(shù)據(jù)中進行學(xué)習(xí)。
使用有標(biāo)簽數(shù)據(jù)訓(xùn)練系統(tǒng)也被用于圖片分類、語音識別、信用卡交易欺詐偵測、垃圾和惡意軟件識別以及廣告定位,所有這些應(yīng)用領(lǐng)域中的正確答案都可通過之前的大量案例獲得。Facebook 能在你上傳一張照片后識別、標(biāo)記照片里你的朋友和家人,它們近期還發(fā)布了一個能夠為盲人描述照片中的內(nèi)容(比如兩個人、微笑、太陽眼鏡、戶外、水等)的系統(tǒng)。有大量的數(shù)據(jù)可用于監(jiān)督學(xué)習(xí),吳恩達(dá)先生說,這一科技的應(yīng)用已經(jīng)使現(xiàn)在的金融服務(wù)領(lǐng)域、計算安全領(lǐng)域和銷售領(lǐng)域的公司將自己重新標(biāo)記為了人工智能公司。
另一項技術(shù)是無監(jiān)督學(xué)習(xí)(unsupervised learning),其通過將網(wǎng)絡(luò)暴露在大量樣本中來對網(wǎng)絡(luò)進行訓(xùn)練,但不會告訴它要尋求什么模式。相反,該網(wǎng)絡(luò)學(xué)習(xí)識別相似樣本的特征和聚類,從而揭示數(shù)據(jù)中的隱藏分組、連接和模式。
無監(jiān)督學(xué)習(xí)能在你不知道會是什么樣的情況下被用于事物搜索:例如,監(jiān)控網(wǎng)絡(luò)中反常的通信模式,那可能代表著網(wǎng)絡(luò)攻擊;或檢查大量的保險聲明以檢測新類型的詐騙方式。一個經(jīng)典的案例:2011年當(dāng)吳恩達(dá)在谷歌工作時,他領(lǐng)導(dǎo)的一個名為谷歌大腦(GoogleBrain)項目中的一個大型的無監(jiān)督學(xué)習(xí)系統(tǒng)本是用于在千部無標(biāo)記 YouTube 視頻中發(fā)現(xiàn)共同模式。一天,吳恩達(dá)的一個博士生給了他一個驚喜。吳恩達(dá)回憶說“我記得他把我叫道他的電腦前說,‘看這個’”,電腦屏幕上是一個毛茸茸的面孔,從數(shù)千的樣本中發(fā)現(xiàn)的模式。系統(tǒng)發(fā)現(xiàn)了貓。
強化學(xué)習(xí)位于監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間,它涉及到訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)與只以獎勵作為偶然的反饋的環(huán)境進行交互。本質(zhì)上,訓(xùn)練涉及到調(diào)整網(wǎng)絡(luò)的權(quán)重,從而獲得能帶來更高獎勵的搜索策略。DeepMind是這個領(lǐng)域的專家。2015年2月,它們在Nature上發(fā)表的一篇論文描述了一個能夠?qū)W習(xí)玩49種經(jīng)典的Atari視頻游戲的強化學(xué)習(xí)系統(tǒng),它只使用屏幕上的像素和游戲分?jǐn)?shù)作為輸入,輸出則連接到一個虛擬的控制器上。這個系統(tǒng)從頭學(xué)起玩游戲,最終在其中29種游戲中達(dá)到或超過了人類水平。
把系統(tǒng)游戲化
電子游戲是人工智能研究的理想訓(xùn)練場,DeepMind的Demis Hassabis說,因為“它們是真實世界的縮影,但更純凈和約束化。” 游戲引擎也可以輕松生成大量訓(xùn)練數(shù)據(jù)。Hassabis 先生以前從事過電子游戲行業(yè)的工作,后來取得了認(rèn)知神經(jīng)學(xué)的博士學(xué)位并創(chuàng)立了DeepMind。這家公司現(xiàn)位于倫敦國王十字車站附近,相當(dāng)于谷歌的人工智能研究分部。
今年三月,AlphaGo于首爾的五輪比賽中打敗了世界頂尖圍棋選手李世石,作為開發(fā)公司的DeepMind因此登上頭條。AlphaGo是一個有著獨特特性的強化學(xué)習(xí)系統(tǒng)。它由幾個相互連通的模塊組成,包括兩個深度神經(jīng)網(wǎng)絡(luò),它們各有所長——像人腦中模塊一樣。其中一個通過大量的棋局分析訓(xùn)練提出一些可能的走法,另一個網(wǎng)絡(luò)則負(fù)責(zé)根據(jù)隨機采樣技術(shù)來評估這些走法。這個系統(tǒng)把生物啟發(fā)的技術(shù)與純機器化的技術(shù)結(jié)合了起來。人工智能研究者們就哪種技術(shù)更優(yōu)越這個問題已經(jīng)爭論了幾十年,而AlphaGo卻另辟蹊徑兩者都用。“這是一個復(fù)合型系統(tǒng),因為我們認(rèn)為解決智能問題只有深度學(xué)習(xí)是不夠的”,Hassabis說。