人們在思考問題的時(shí)候,并不會(huì)從零開始,而是會(huì)憑借自己以往的一些經(jīng)驗(yàn)與記憶做出判斷。但是,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)可做不到這一點(diǎn)。比如,你想要對(duì)一部電影里的每個(gè)鏡頭進(jìn)行分類,判斷熒幕上都在演些什么。但是,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)可能只能孤立地看待每一幀,而無法把上一個(gè)鏡頭串聯(lián)起下一秒發(fā)生的事情。RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))就是為解決這個(gè)問題而生的,顧名思義,也就是能夠讓信息在網(wǎng)絡(luò)中再次循環(huán)的網(wǎng)絡(luò)。
在慕尼黑工業(yè)大學(xué)拿到了數(shù)學(xué)和計(jì)算機(jī)科學(xué)學(xué)位后,30 歲時(shí),Jürgen Schmidhuber 獲聘成為該大學(xué)教授。Jürgen Schmidhuber 的第一位學(xué)生(現(xiàn)在是教授)Sepp Hochreiter 識(shí)別并分析出 RNN 存在的巨大問題:梯度突然消失或爆炸(explode)。
“這也促成了我們后續(xù)在 20 世紀(jì) 90 年代和 21 世紀(jì)的所有深度學(xué)習(xí)研究,”他說。
在瑞士、德國和歐盟的公共資金的資助下,Jürgen Schmidhuber 開發(fā)了 LSTM 等深度學(xué)習(xí)方法,解決 RNN 存在的短板。1997 年,他和 Sepp Hochreiter 共同撰寫了一篇論文,其中提出了一種利用記憶功能來增強(qiáng)人工神經(jīng)網(wǎng)絡(luò)(模擬人類大腦的計(jì)算機(jī)系統(tǒng))的方法,即根據(jù)之前獲得的信息,添加解釋文字或圖像模式的循環(huán)。他們稱之為“長短期記憶(LSTM)”。
LSTM 和傳統(tǒng) RNN 唯一的不同就在與其中的神經(jīng)元(感知機(jī))的構(gòu)造不同。傳統(tǒng)的 RNN 每個(gè)神經(jīng)元和一般神經(jīng)網(wǎng)絡(luò)的感知機(jī)沒啥區(qū)別,但在 LSTM 中,每個(gè)神經(jīng)元是一個(gè)“記憶細(xì)胞”,細(xì)胞里面有一個(gè)“輸入門”(input gate), 一個(gè)“遺忘門”(forget gate),一個(gè)“輸出門”(output gate),俗稱“三重門”。
LSTM 的優(yōu)勢在于,能夠解決梯度消失的問題。LSTM 還可以保留誤差,用戶沿時(shí)間和層進(jìn)行反向傳遞。“我們的神經(jīng)網(wǎng)絡(luò)跟別人不一樣的地方在于,我們搞清楚了怎么讓神經(jīng)網(wǎng)絡(luò)更深、更強(qiáng),尤其是RNN,最普遍也是最深層的神經(jīng)網(wǎng)絡(luò),有反饋連接,在理論上能夠運(yùn)行任意的算法或程序與環(huán)境互動(dòng)。”
遺憾的是,當(dāng)時(shí) LSTM 也并沒有受到業(yè)界更多的重視,在 1995 年,首個(gè)論述 LSTM 的論文被著名的 NIPS 會(huì)議拒絕了。1997 年,關(guān)于 LSTM 的論文被麻省理工學(xué)院退稿。“即便是美國、加拿大及其他地區(qū)的著名的神經(jīng)網(wǎng)絡(luò)專家,都沒能意識(shí)到我們自 1990 年代起于高山上實(shí)驗(yàn)室研發(fā)的深度循環(huán)神經(jīng)網(wǎng)絡(luò)的潛能。”Schmidhuber 多次在媒體采訪時(shí)表露出遺憾。
很多研究者也都體驗(yàn)過這樣的失意。蒙特利爾大學(xué)教授、蒙特利爾學(xué)習(xí)算法研究所的主任 Yoshua Bengio 曾一度很難找到愿意與他合作的研究生。“當(dāng)時(shí),很少有研究者對(duì)此感興趣,但我們堅(jiān)持了下來,隨著計(jì)算力越來越便宜,通過這樣的方法贏得比賽只是時(shí)間問題。我很高興看到其它深度學(xué)習(xí)實(shí)驗(yàn)室和公司現(xiàn)在也大量使用我們的算法。”Jürgen Schmidhuber 說。
2007 年,Jürgen Schmidhuber 團(tuán)隊(duì) CTC(2006 年)訓(xùn)練的 LSTM 開始革新語音識(shí)別,性能表現(xiàn)超越了鍵盤識(shí)別任務(wù)中傳統(tǒng)方法。2009 年,LSTM 成為首個(gè)在國際模式識(shí)別競賽獲獎(jiǎng)的 RNN,由 Jürgen Schmidhuber 曾經(jīng)的博士生和博士后 Alex Graves 推動(dòng)。同年,Dan Ciresan 領(lǐng)導(dǎo)團(tuán)隊(duì)在沒有使用任何預(yù)訓(xùn)練的情況下,贏得一系列機(jī)器學(xué)習(xí)競賽,成績比以前的系統(tǒng)有了大幅提升:2011 年在圖像識(shí)別任務(wù)上率先取得超越人類的表現(xiàn),2012 年成為最先在物體檢測和圖像分割競賽中獲獎(jiǎng)的深度學(xué)習(xí)系統(tǒng),2012 年在醫(yī)療圖像癌癥檢測最佳、2013 年 MICCAI 挑戰(zhàn)賽冠軍等。
但是,LSTM 真正受到應(yīng)有的關(guān)注和評(píng)價(jià),源于科技巨頭先后加入到 LSTM 陣營。
20 世紀(jì) 90 年代以來,歐洲納稅人資助了在深度學(xué)習(xí)(Deep Leaning)和 LSTM 方面的基礎(chǔ)研究,開始推動(dòng) Google 等公司的語音識(shí)別、圖像字幕生成、機(jī)器翻譯和自動(dòng)郵件應(yīng)答等應(yīng)用。
2015 年,谷歌使用 LSTM 減少了 49% 的語音識(shí)別錯(cuò)誤,成為一個(gè)飛躍性進(jìn)步。接著谷歌還將 LSTM 用于自然語言處理、機(jī)器翻譯、生成圖說、自動(dòng)郵件回復(fù)、智能助手等領(lǐng)域。隨后,語音識(shí)別、視覺領(lǐng)域的研究都越來越多地采用 LSTM 概念。蘋果也在其 WWDC 2016 開發(fā)者大會(huì)上對(duì)它如何使用 LSTM 提升 iOS 操作系統(tǒng)性能做了解說。