隨著人工智能,AI(Artificial Intelligence)的應用前景逐漸明朗,各大高科技公司開始重金投資這個領(lǐng)域。2014年8月,IBM發(fā)布了模仿人腦神經(jīng)元結(jié)構(gòu)的芯片TrueNorth,功耗僅為現(xiàn)有芯片功耗的1/1 000。百度投資3億美元在硅谷建立新的研發(fā)中心,并聘請人工智能專家、斯坦福大學的吳恩達教授擔任首席科學家。吳教授是深度學習方面的專家,同時還是在線教育網(wǎng)站Coursera的創(chuàng)始人。
計算機領(lǐng)域現(xiàn)在最火的詞是“深度學習”
2013年初,谷歌收購了由深度神經(jīng)網(wǎng)絡理論提出者、“深度學習之父”、多倫多大學教授杰弗里·希爾頓(Geoffrey Hinton)創(chuàng)立的DNNResearch,并于今年1月以6.5億美元的價格收購了英國的人工智能公司DeepMind。這些科學家投身谷歌,一方面是因為谷歌有足夠的財力和開放的心態(tài)去接納人才,另一方面是因為谷歌擁有世界上最大規(guī)模的數(shù)據(jù)量和足以處理它們的運算能力。此外,亞馬遜公司最近也加緊了深度神經(jīng)網(wǎng)絡方面的研究,甚至專程從西雅圖總部派團來中國招聘。亞馬遜為挖角百度IDL的資深研究員,開出了近20萬美元的高薪。
人工智能時代要來了?還是已經(jīng)來了?
語言學家斯蒂夫·平克對神經(jīng)網(wǎng)絡的理論提出了挑戰(zhàn)
從圖靈測試說起
人工智能領(lǐng)域有一個著名的“圖靈測試”。其基本的步驟是:把某件事讓電腦做的結(jié)果和真人做的結(jié)果拿給另外一個人評判,如果這個裁判無法區(qū)分出哪個是電腦做的,哪個是真人做的,則認為電腦通過了測試,就實現(xiàn)了圖靈所定義的人工智能。
你一定知道那個戰(zhàn)勝了國際象棋大師的“深藍電腦”,它通過學習大量的象棋對戰(zhàn)歷史而勝出。2011年,IBM的Watson電腦,利用專家系統(tǒng)數(shù)據(jù)庫和自然語言理解技術(shù),在問答游戲Jeopardy中戰(zhàn)勝了人類冠軍。從廣義上說,深藍和Watson分別通過了國際象棋領(lǐng)域和問答游戲領(lǐng)域的圖靈測試。
人臉識別是人工智能的一個重要應用,今年幾個領(lǐng)先的人臉識別系統(tǒng)紛紛通過了圖靈測試。它們背后的算法是基于人工神經(jīng)網(wǎng)絡的“深度學習”技術(shù)。人工神經(jīng)網(wǎng)絡是用計算機中的變量來模仿人腦中的神經(jīng)元,通過在變量間的加權(quán)求和運算來模仿人腦神經(jīng)元之間的信號傳遞過程。變量間的權(quán)重,是通過從有標簽的數(shù)據(jù)中學習來訓練計算的。為了保證學習的效率,傳統(tǒng)的人工神經(jīng)網(wǎng)絡不能超過三層。2006 年,希爾頓教授提出了深度神經(jīng)網(wǎng)絡的學習算法,即“深度學習”,其核心思想是通過自編碼方法逐層初始化權(quán)重,然后在這個初始化基礎(chǔ)上,再加入有標簽的數(shù)據(jù)來訓練,從而大大提高了深度超過三層的人工神經(jīng)網(wǎng)絡中的學習效率。
深度學習的核心是“自編碼”。不妨假設(shè)我們有一組輸入圖像(Input Image),通過調(diào)整一個人工神經(jīng)網(wǎng)絡的參數(shù)(即變量間的權(quán)重),使得它的輸出圖像(Output Image)與原來的輸入圖像之間的差別盡量小,這就形成了一個自編碼的神經(jīng)網(wǎng)絡。深度學習的基本思路是堆疊多個自編碼神經(jīng)網(wǎng)絡,前一層的輸出作為后一層的輸入,通過這種方式實現(xiàn)對輸入信息的分級特征提齲
特征提取是圖像識別問題中最關(guān)鍵的步驟,傳統(tǒng)的機器學習算法需要科學家去手工設(shè)計各種最適合所求解問題的特征。例如,在人臉識別領(lǐng)域,經(jīng)過近百名科學家2~3年的不斷嘗試,才能發(fā)現(xiàn)一個被公認有效的特征。而深度學習算法,通過訓練“自編碼”神經(jīng)網(wǎng)絡,讓計算機去發(fā)現(xiàn)訓練數(shù)據(jù)中的規(guī)律,在這個過程中自動產(chǎn)生特征提取的算法,大大提高了發(fā)現(xiàn)和篩選新特征的效率,這是深度學習算法與傳統(tǒng)機器學習最大的區(qū)別。
深度學習將特征設(shè)計的步驟自動化,徹底改變了以往由領(lǐng)域?qū)<沂止ぴO(shè)計和篩選特征的研究模式。谷歌甚至提出:獲取更多的數(shù)據(jù)要比改進算法設(shè)計更為重要。為了展示這種無需人工指導就能學習新概念的算法,谷歌將1000萬張截取自YouTube視頻的圖片扔進由1.6萬個CPU組成的深度神經(jīng)網(wǎng)絡學習,最終獲得了一張看起來像貓的圖像。當然,深度神經(jīng)網(wǎng)算法從希爾頓教授2006年首次公開發(fā)表到現(xiàn)在,取得的成果遠不止找到貓。借助這種算法,微軟和谷歌將語音識別的誤識率降低了20%,F(xiàn)acebook基于深度神經(jīng)網(wǎng)絡開發(fā)的DeepFace算法,以及香港中文大學湯曉鷗團隊的DeepID算法,在權(quán)威的人臉識別測試集LFW(Labeled Face in the Wild)上分別取得了超過真人的識別準確率,可以說是通過了人臉識別領(lǐng)域的圖靈測試。