作者潘爭,格靈深瞳計算機(jī)視覺工程師,清華大學(xué)自動化系博士,師從智能技術(shù)與系統(tǒng)國家重點實驗室副主任張長水。
深度學(xué)習(xí)(Deep Learning)這個詞最近借著AlphaGO與李世石的人機(jī)大戰(zhàn)又火了一把。深度學(xué)習(xí)其實是機(jī)器學(xué)習(xí)(Machine Learning)的一個分支學(xué)科,而機(jī)器學(xué)習(xí)是一門研究數(shù)據(jù)之間關(guān)聯(lián)關(guān)系的學(xué)科,比如它可以用來挖掘收入和年齡,性別,職業(yè),學(xué)歷等因素的數(shù)學(xué)關(guān)系。但是傳統(tǒng)的機(jī)器學(xué)習(xí)方法一般只能挖掘簡單的線性關(guān)系。我們知道大千世界不是線性關(guān)系所能描述的,比如收入與年齡,性別,職業(yè),學(xué)歷的關(guān)系,這么一個簡單的問題就不是一個線性關(guān)系所能表達(dá)清楚的。深度學(xué)習(xí)的出現(xiàn)改變了這種現(xiàn)狀,深度學(xué)習(xí)使用復(fù)雜的多非線性模型表示數(shù)據(jù)之間的關(guān)系,然后使用大量的數(shù)據(jù)最終確定數(shù)據(jù)之間的關(guān)系究竟是什么。
深度學(xué)習(xí)的靈感來源于大腦神經(jīng)網(wǎng)絡(luò),可以說我們的大腦就是一個極致復(fù)雜的深度學(xué)習(xí)模型。大腦里的神經(jīng)網(wǎng)絡(luò)是由數(shù)以千億計的神經(jīng)元連接而成,深度學(xué)習(xí)也使用同樣的結(jié)構(gòu),每個人工神經(jīng)元對輸入進(jìn)行簡單的線性或非線性運(yùn)算后將結(jié)果傳遞給后續(xù)的神經(jīng)元,在經(jīng)過這樣十幾層乃至上百層的傳遞后得到最終的預(yù)測結(jié)果。
深度學(xué)習(xí)這套方法并不是近幾年提出的,早在80年代末Geoffrey Hinton和Yann LeCun等學(xué)者就使用深度學(xué)習(xí)的方法解決了手寫體數(shù)字的識別問題。遺憾的是,進(jìn)入90年代后深度學(xué)習(xí)的性能沒有本質(zhì)上的提升,甚至劣于很多簡單的線性模型,深度學(xué)習(xí)的研究沉寂下來。直到2006年,Hinton教授在Science上發(fā)表了深度學(xué)習(xí)的里程碑一樣的論文,重新審視深度學(xué)習(xí)方法,將深度學(xué)習(xí)的性能提升到了一個新的臺階。在此之后,深度學(xué)習(xí)在語音識別,計算機(jī)視覺,機(jī)器人,自然語言處理等領(lǐng)域均超過了傳統(tǒng)的機(jī)器學(xué)習(xí)方法,甚至在人臉驗證比賽LFW和自然圖像分類比賽ImageNet上超過了人類的識別能力。這次,AlphaGO擊敗李世石又是一個深度學(xué)習(xí)超越人類的實例。
那么是什么讓深度學(xué)習(xí)再次崛起并超越人類呢?
當(dāng)然首先要?dú)w功于Hinton等學(xué)者幾十年如一日的不懈研究。另外,有兩個客觀因素異常重要:
第一是大數(shù)據(jù)。
互聯(lián)網(wǎng)將幾十億人連接在一起,同時也讓海量數(shù)據(jù)連接在了一起。深度學(xué)習(xí)必須要有海量數(shù)據(jù)才能得到表現(xiàn)好的模型,深度學(xué)習(xí)和大數(shù)據(jù)的關(guān)系就像火箭和燃料一樣,火箭雖然厲害,但是沒有大數(shù)據(jù)這個燃料也只是一堆廢鐵。因為大數(shù)據(jù)的必不可少,我們也看到深度學(xué)習(xí)做的最好的地方是我們熟知的那些擁有大量數(shù)據(jù)的IT巨頭,Google、Facebook、Microsoft、百度等??梢哉f,在深度學(xué)習(xí)時代,擁有數(shù)據(jù)就占領(lǐng)了人工智能的制高點。
第二是高性能計算。
摩爾定律揭示了計算能力增長速度的規(guī)律,過去這些年GPU,超級計算機(jī)和云計算等計算平臺迅猛發(fā)展,讓深度學(xué)習(xí)的實現(xiàn)成為可能,舉個例子,2011年GoogleBrain用了1000臺機(jī)器、16000個CPU處理的深度學(xué)習(xí)模型大概有10億個神經(jīng)元,而現(xiàn)在我們已經(jīng)可以在幾個GPU上完成同樣的計算了。事實上,深度學(xué)習(xí)已經(jīng)進(jìn)入我們的口袋了,我們的智能手機(jī)上的GPU已經(jīng)可以運(yùn)行一些復(fù)雜度一般的深度學(xué)習(xí)方法了。我想過不了多久,我們每一個人都可以在手機(jī)上和AlphaGO對弈了,再過些年,我們的手機(jī)就就可以運(yùn)行像人腦一樣復(fù)雜的神經(jīng)網(wǎng)絡(luò)了。
在深度學(xué)習(xí)領(lǐng)域有很多非常優(yōu)秀的華人科學(xué)家和中國企業(yè)??茖W(xué)家方面,我們熟知的有百度首席科學(xué)家吳恩達(dá),IDL的發(fā)起人余凱,Caffe的作者賈揚(yáng)青,第一個把人臉驗證LFW刷到99%以上的湯曉鷗、王曉剛教授,去年奪得ImageNet多項桂冠的孫劍和何凱明等等。企業(yè)方面,我們所熟知的BAT、360、搜狗、滴滴等均在深度學(xué)習(xí)方面有布局,同時國內(nèi)也涌現(xiàn)出一批依賴深度學(xué)習(xí)的新企業(yè),比如格靈深瞳(安防、自動駕駛)、曠世科技(人臉識別)、商湯科技(人臉識別)、地平線機(jī)器人(ADAS)等。
深度學(xué)習(xí)不只是和人下下棋這么簡單。既然它是對人腦的一種模擬,它可以完成很多人腦的功能。