3年前,美國加利福尼亞州山景城神秘的谷歌x實(shí)驗(yàn)室的研究人員從youtube視頻中提取了1000萬個(gè)靜態(tài)圖像,并將其輸入“谷歌大腦”——由1000臺(tái)計(jì)算機(jī)構(gòu)成的網(wǎng)絡(luò),從而試圖像一個(gè)蹣跚學(xué)步的孩子一樣吸收這個(gè)世界的信息。經(jīng)過3天尋找重復(fù)出現(xiàn)的模式后,谷歌大腦憑自身判斷,它可以識(shí)別一些特定的重復(fù)類別:人類面孔和人類身體,甚至是貓。
谷歌大腦發(fā)現(xiàn)互聯(lián)網(wǎng)上到處都是關(guān)于貓的視頻,這還曾引起一連串的笑話。不過,谷歌大腦是深度學(xué)習(xí)復(fù)興的一個(gè)里程碑。深度學(xué)習(xí)是一項(xiàng)有著30年歷史的技術(shù),其中大量數(shù)據(jù)和強(qiáng)大的處理能力幫助計(jì)算機(jī)破解那些人類幾乎可以憑直覺就可解決的難題——從識(shí)別人臉到理解語言。
深度學(xué)習(xí)本身是對神經(jīng)網(wǎng)絡(luò)這個(gè)更老的想法的復(fù)興。這些系統(tǒng)的靈感大多來自于大腦中緊密連接的神經(jīng)元,通過改變模擬神經(jīng)連接的強(qiáng)度來模擬人腦學(xué)習(xí)。谷歌大腦擁有約100萬個(gè)模擬神經(jīng)元和10億個(gè)模擬連接,比之前任何深度神經(jīng)網(wǎng)絡(luò)強(qiáng)度都要高10倍。該項(xiàng)目建立者andrew ng目前是加州斯坦福大學(xué)人工智能實(shí)驗(yàn)室的負(fù)責(zé)人,他的開發(fā)已經(jīng)使深度學(xué)習(xí)系統(tǒng)的強(qiáng)度又提高了10倍。
人工智能(ai)領(lǐng)域取得的這些激動(dòng)人心的進(jìn)步試圖讓電腦像人類一樣思考。紐約大學(xué)數(shù)據(jù)科學(xué)中心主任、深度學(xué)習(xí)領(lǐng)域先驅(qū)yann lecun說:“人工智能已經(jīng)失敗了無數(shù)次,其間只有少許的進(jìn)步。如今它實(shí)現(xiàn)了一次超越。”
“在未來幾年,我們將看到一種瘋狂的情況:很多人會(huì)跟隨深度學(xué)習(xí)的潮流。”加州大學(xué)伯克利分校從事圖像識(shí)別研究的jitendra malik表示同意。但是從長遠(yuǎn)看,深度學(xué)習(xí)并不占上風(fēng),一些研究人員正在尋求其他有前景的技術(shù)。“我是不可知論者。”malik說,“隨著時(shí)間的推移,人們會(huì)決定不同領(lǐng)域的最佳技術(shù)。”
初出茅廬
malik稱,初期的深度學(xué)習(xí)程序并不比其他更簡單的系統(tǒng)有更好的表現(xiàn)。另外,它們還很難處理。“神經(jīng)網(wǎng)絡(luò)管理一直是一種精妙的藝術(shù),其中有一些黑魔法。”該網(wǎng)絡(luò)需要從豐富的事例來源中進(jìn)行學(xué)習(xí),就像一個(gè)嬰兒從世界收集信息一樣。在20世紀(jì)八九十年代,并沒有太多可用的數(shù)字信息,而且計(jì)算機(jī)消化這些存在的信息需要很長時(shí)間。當(dāng)時(shí)的相關(guān)應(yīng)用很少,lecun開發(fā)的技術(shù)是為數(shù)不多的應(yīng)用之一,現(xiàn)在還被銀行用于讀取手寫支票。
然而到了21世紀(jì),像lecun和其前任主管、加拿大多倫多大學(xué)計(jì)算機(jī)科學(xué)家geoffrey hinton這樣的提倡者確信,計(jì)算能力的提高和數(shù)字?jǐn)?shù)據(jù)的爆炸意味著是時(shí)候重新推動(dòng)這一技術(shù)了。hinton現(xiàn)在的學(xué)生george dahl說:“我們想向世界展示,這些深度神經(jīng)網(wǎng)絡(luò)真的很有用,并能提供真正的幫助。”
在開始時(shí),hinton、dahl和其他一些人解決了語音識(shí)別中對商業(yè)應(yīng)用很重要的一些難題。2009年,研究人員報(bào)告稱,通過典型數(shù)據(jù)集的練習(xí),他們的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)已經(jīng)打破了將口語轉(zhuǎn)化為文本的精度紀(jì)錄。
巨大飛躍
當(dāng)谷歌在其安卓系統(tǒng)的智能手機(jī)操作系統(tǒng)中采用基于深度學(xué)習(xí)的語音識(shí)別技術(shù)時(shí),它的文字錯(cuò)誤率下降了25%。“人們本來期待在10年后才能達(dá)到這種下降程度。”hinton表示,“這相當(dāng)于實(shí)現(xiàn)了10項(xiàng)突破。”
同時(shí),ng說服谷歌,讓自己使用其數(shù)據(jù)和計(jì)算機(jī),谷歌大腦由此產(chǎn)生。該項(xiàng)目指認(rèn)貓的能力是對無監(jiān)督學(xué)習(xí)的有力證明,無監(jiān)督學(xué)習(xí)是最困難的學(xué)習(xí)任務(wù),因?yàn)槠漭斎胫胁话魏蜗衩帧?biāo)題或者類別等解釋性信息。不過ng很快就遇到了麻煩,谷歌公司之外很少有研究人員擁有進(jìn)行深度學(xué)習(xí)研究的設(shè)備。因此ng在回到斯坦福大學(xué)后,開始使用圖像處理單元(gpus)研發(fā)更大、更便宜的深度學(xué)習(xí)網(wǎng)絡(luò)。ng說:“使用價(jià)值約10萬美元的硬件,我們可以用64個(gè)gpus建立一個(gè)有著110億個(gè)連接的網(wǎng)絡(luò)。”
勝利之后
不過,要想說服計(jì)算機(jī)視覺領(lǐng)域的科學(xué)家還需要更多努力:他們希望看到標(biāo)準(zhǔn)測試中的收獲。malik認(rèn)為,在國際知名的imagenet競賽中取得勝利將會(huì)達(dá)到理想的結(jié)果。
在該競賽中,各團(tuán)隊(duì)基于大約含有100萬個(gè)圖像、屬于同類別的一個(gè)數(shù)據(jù)集開發(fā)計(jì)算機(jī)項(xiàng)目。2012年,hinton的實(shí)驗(yàn)室成為首個(gè)使用深度學(xué)習(xí)的競爭者,其錯(cuò)誤率只有15%。這一次的勝利使hinton在谷歌獲得了兼職工作,而2013年5月,谷歌公司使用該程序更新了其圖像搜索軟件。