據(jù)彼得·李稱,2011年,微軟將深度學習技術引入商用的語音識別產品。谷歌也在2012年8月跟進。
然而,真正的轉折點發(fā)生在2012年10月。在意大利佛羅倫薩舉行的一個研討會上,斯坦福AI實驗室、知名的ImageNet計算機視覺比賽創(chuàng)辦人李菲菲(Fei-Fei Li,音譯)宣布,辛頓的兩位學生發(fā)明了一種識別物體準確率幾乎兩倍于最接近的競爭產品的軟件。“那是令人驚嘆的成績,”辛頓回憶道,“說服了很多很多原來持懷疑態(tài)度的人。”
攻克圖像識別可謂起步搶,它點燃了一場人才爭奪戰(zhàn)。谷歌招攬了辛頓和贏得那次比賽的那兩位學生。Facebook招募了法國深度學習創(chuàng)新者雅恩·樂昆(Yann LeCun),他曾在1980年代和1990年代開創(chuàng)了一種曾贏得ImageNet比賽的算法。百度則聘請了前斯坦福AI實驗室負責人吳恩達,他曾在2010年幫助驅動和領導專注于深度學習的谷歌大腦項目。
此后,這場人才爭奪戰(zhàn)變得愈發(fā)激烈。微軟的彼得·李稱,目前該領域的人才爭奪非常激烈。他說,頂級人才的要價達到NFL橄欖球球員的水平。
神經網絡原型
現(xiàn)年68歲的喬弗里·辛頓第一次聽說神經網絡是在1972年,當時他開始在愛丁堡大學攻讀人工智能專業(yè)碩士學位。他在劍橋大學讀本科時研究的是實驗心理學,因此他對于神經網絡很有熱情。當時,神經網絡不受青睞。“人們都覺得它太瘋狂了。”辛頓回憶道。不過他堅持了下來。
神經網絡帶來了計算機像兒童那樣學習(即通過體驗,而非通過人類專門打造的程序帶來的指令)的前景。“當時,很多的AI研究都是受到邏輯思考的啟發(fā)。”他說,“但邏輯思考是人在較晚階段才會做的事情。而兩三歲的兒童并不做邏輯思考。所以我認為,神經網絡是比邏輯思考要好得多的智能運作模式。”
在1950年代和1960年代,神經網絡開始在計算機科學家當中流行開來。1958年,康奈爾大學研究心理學家弗蘭克·羅森布拉特(Frank
Rosenblatt)在一個美國海軍支持的項目中打造了一個神經網絡原型,他將其命名為Perceptron。它利用了一臺占用一整個房間的穿孔卡片計算機。在經過50次嘗試后,它學會了分辨左側有標記的卡片和右側有標記的卡片。《紐約時報》當時報道稱,“海軍今天公布了一款初期的電子計算機,它預計將能夠走路,說話,看東西,書寫,復制自己,以及意識到自己的存在。”
軟件只有一層類神經元節(jié)點的Perceptron被證明用途很有限。但研究人員認為,如實施多層(或者深度的)神經網絡,它會變得更加強大。
多層神經網絡思路
辛頓如是解釋該基本思路。想象一下,一神經網絡在解讀攝影圖像,部分圖像顯示小鳥。“進行輸入后,第一層神經元會檢測到小小的邊。一側較暗,另一側很明
亮。”他說,在分析第一層傳來的數(shù)據(jù)時,下一層神經元會檢測到“諸如兩邊連成的角的東西。例如,其中一個神經元可能會強烈地響應鳥嘴形成的角。
下一層神經元“可能會發(fā)現(xiàn)更加復雜的結構,如形成圓圈的多條邊。”這一層的神經元可能會響應鳥的頭部。更高層的神經元可能會檢測到似頭的圓圈附近并列的多
個鳥嘴狀角。“這說明它很可能是鳥頭。”辛頓說。神經元層次越高,響應的概念就越復雜越抽象,直至最高層聯(lián)想到“小鳥”的概念。
然而,要學習,深度神經網絡不僅僅需要像這樣往上層神經元傳遞信息。它還需要路徑來判斷最高層得出的結果是否正確,如果結果不正確,它得將信息往下傳遞,讓所有類神經元單元能夠重新調整它們的判斷,以改進結果。學習過程就是這個時候發(fā)生。
1980年代初,辛頓在研究這一問題。法國研究者雅恩·樂昆亦然,他當時剛剛開始在巴黎攻讀研究生。樂昆在1983年偶然看到了辛頓的一篇講述多層神經網絡的論文。“論文當時并不是用那些術語來闡述的。”樂昆回憶道,“因為當時如果你提到‘神經元’或者‘神經網絡’之類的詞,論文是很難發(fā)表出去的。因此他用模糊的語言來撰寫那篇論文,使得它能夠通過審核。不過我覺得它非常有趣。”兩人在兩年后相識,一拍即合。