《連線》雜志網(wǎng)絡(luò)版今天撰文稱,雖然神經(jīng)網(wǎng)絡(luò)技術(shù)早在上世紀(jì)80年代就已經(jīng)成為熱門領(lǐng)域,但后來(lái)卻逐漸沉寂。然而,隨著新模式的涌現(xiàn)和GPU的發(fā)展,加之谷歌、微軟和IBM等科技巨頭的關(guān)注,這一領(lǐng)域又再度炙手可熱。
以下為文章全文:
神經(jīng)網(wǎng)絡(luò)
谷歌開(kāi)發(fā)最新一代Android移動(dòng)操作系統(tǒng)時(shí),這家網(wǎng)絡(luò)巨頭對(duì)該系統(tǒng)解讀語(yǔ)音指令的方式做出了一些重大調(diào)整。它安裝了一套以“神經(jīng)網(wǎng)絡(luò)”為基礎(chǔ)的語(yǔ)音識(shí)別系統(tǒng),也就是一套模擬人腦的計(jì)算機(jī)學(xué)習(xí)系統(tǒng)。
在很多用戶看來(lái),結(jié)果顯而易見(jiàn),其中就包括參與該項(xiàng)目的谷歌研究員文森特·范好克(Vincent Vanhoucke)。“只是對(duì)模型進(jìn)行了調(diào)整就能實(shí)現(xiàn)這么好的效果,的確令人驚訝。”他說(shuō)。
范好克表示,新版Android系統(tǒng)(果凍豆)的語(yǔ)音錯(cuò)誤率比上一代系統(tǒng)下降了約25%,提升了語(yǔ)音指令的用戶滿意度。他表示,用戶更愿意在發(fā)出語(yǔ)音指令時(shí)使用更自然的語(yǔ)言。換句話說(shuō),他們的行為已經(jīng)不那么像是在跟機(jī)器人對(duì)話了。“這確實(shí)改變了人們的行為方式。”他說(shuō)。
神經(jīng)網(wǎng)絡(luò)算法極大地改變了科技運(yùn)行模式以及我們使用科技的模式,而語(yǔ)音指令只是其中的一個(gè)例子。雖然早在1980年代就已經(jīng)成為最熱門的研究領(lǐng)域之一,神經(jīng)網(wǎng)絡(luò)近年來(lái)卻逐漸沉寂。不過(guò),隨著谷歌、微軟和IBM爭(zhēng)相探索這一技術(shù)的實(shí)用價(jià)值,該領(lǐng)域又再度炙手可熱。
語(yǔ)音分析
當(dāng)你與Android語(yǔ)音識(shí)別軟件對(duì)話時(shí),你的聲譜會(huì)被分割,然后發(fā)送到谷歌龐大服務(wù)器網(wǎng)絡(luò)中的8臺(tái)電腦上,再利用范好克和他的團(tuán)隊(duì)開(kāi)發(fā)的神經(jīng)網(wǎng)絡(luò)模型對(duì)數(shù)據(jù)進(jìn)行處理。谷歌恰好非常擅長(zhǎng)分割龐大的計(jì)算任務(wù)并快速處理數(shù)據(jù)。而為了研究具體方法,谷歌把任務(wù)分配給了杰夫·迪恩(Jeff Dean)和他的工程師團(tuán)隊(duì),該團(tuán)隊(duì)最知名的貢獻(xiàn)是重塑了現(xiàn)代數(shù)據(jù)中心的工作模式。
神經(jīng)網(wǎng)絡(luò)為范好克這樣的研究人員提供了一種方式,幫助其研究多種多樣的形態(tài)——在果凍豆中,則是用戶語(yǔ)音的聲譜圖——然后預(yù)測(cè)可能會(huì)呈現(xiàn)何種全新的形態(tài)。這種比喻源于生物學(xué),機(jī)體內(nèi)的神經(jīng)元與其他細(xì)胞構(gòu)成了一個(gè)網(wǎng)絡(luò),使之能以專門的方式處理信號(hào)。在果凍豆使用的神經(jīng)網(wǎng)絡(luò)中,谷歌可能會(huì)分析現(xiàn)實(shí)世界中的龐大數(shù)據(jù),從而制作多種模型來(lái)描繪語(yǔ)言的工作方式——例如,其中一種可以處理英語(yǔ)發(fā)出的語(yǔ)音搜索請(qǐng)求。
“人們很早以前就相信——部分源于你在大腦中看到的內(nèi)容——要獲得優(yōu)秀的感知系統(tǒng),就需要利用多個(gè)功能層。”多倫多大學(xué)計(jì)算機(jī)科學(xué)教授喬弗利·辛頓(Geoffrey Hinton)說(shuō),“但問(wèn)題在于,如何高效地學(xué)習(xí)這些內(nèi)容。”
Android首先拍攝下語(yǔ)音指令的圖像,之后由谷歌使用其神經(jīng)網(wǎng)絡(luò)模型分析用戶所說(shuō)的內(nèi)容。
谷歌的軟件首先會(huì)嘗試了解語(yǔ)音中的每個(gè)獨(dú)立部分——即組成單詞的不同元音和輔音。這是神經(jīng)網(wǎng)絡(luò)的一個(gè)層。隨后再使用這些信息展開(kāi)復(fù)雜的猜測(cè),每深入一層,其猜測(cè)的結(jié)果都會(huì)更加接近用戶的真實(shí)語(yǔ)義。
神經(jīng)網(wǎng)絡(luò)算法還可以用于分析圖片。“你希望在像素中尋找一些結(jié)構(gòu)片段,例如,圖片中的一個(gè)邊緣。你或許擁有一個(gè)特征探測(cè)器層,可以探測(cè)小邊緣這樣的事物。當(dāng)探測(cè)完成之后,還會(huì)有另外一個(gè)特征探測(cè)器層,可以探測(cè)邊緣的組合,例如一些邊角。一旦完成,還會(huì)再來(lái)一層,如此反復(fù)持續(xù)下去。”辛頓說(shuō)。
技術(shù)進(jìn)步
神經(jīng)網(wǎng)絡(luò)早在1980年代就號(hào)稱可以實(shí)現(xiàn)類似的功能,但要做到辛頓所描述的這種分析模式卻很困難。
但2006年卻出現(xiàn)了兩大重要變化。首先,辛頓和他的團(tuán)隊(duì)找到了一種更好的方式來(lái)規(guī)劃深層神經(jīng)網(wǎng)絡(luò)——這種網(wǎng)絡(luò)可以具備多個(gè)不同的聯(lián)系層。其次,低價(jià)GPU面市使得學(xué)術(shù)機(jī)構(gòu)擁有了更加廉價(jià)而快速的方式來(lái)處理數(shù)十億次計(jì)算。“這帶來(lái)了巨大變化,因?yàn)槲覀兊挠?jì)算速度一夜之間提升了30倍。”辛頓說(shuō)。
如今,神經(jīng)網(wǎng)絡(luò)算法正在逐步滲透到語(yǔ)音識(shí)別和圖形軟件中,但辛頓認(rèn)為,這種技術(shù)可以用于任何需要進(jìn)行預(yù)測(cè)的領(lǐng)域。去年11月,多倫多大學(xué)的一個(gè)團(tuán)隊(duì)利用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)出藥物分子在現(xiàn)實(shí)世界中可能的作用方式。
迪恩表示,谷歌現(xiàn)在正在多款產(chǎn)品中使用神經(jīng)網(wǎng)絡(luò)算法——有些只是嘗試,有些不是——但進(jìn)展都不及果凍豆的語(yǔ)音識(shí)別軟件。“圖片搜索領(lǐng)域顯然也有利用價(jià)值。”他說(shuō),“你肯定希望使用圖片中的某些像素來(lái)確定這究竟是什么物體。”谷歌街景也可以利用神經(jīng)網(wǎng)絡(luò)算法來(lái)區(qū)分其拍攝的不同物體之間有何差異——例如,一棟房子和一個(gè)牌照。
有人或許覺(jué)得這項(xiàng)技術(shù)與普通人無(wú)關(guān),但請(qǐng)注意以下的案例:包括迪恩在內(nèi)的谷歌研究人員去年開(kāi)發(fā)了一套神經(jīng)網(wǎng)絡(luò),可以通過(guò)自學(xué)認(rèn)出YouTube視頻中的貓。
微軟和IBM也在研究神經(jīng)網(wǎng)絡(luò)。去年10月,微軟首席研究館里克·拉什德(Rick Rashid)在天津展示了一款基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音處理軟件。在展示過(guò)程中,拉什德用英語(yǔ)演講,每一句都會(huì)停頓一下。令觀眾驚喜的是,微軟的軟件會(huì)同步將他的話翻譯成中文,然后“說(shuō)”出來(lái)。這款軟件甚至可以自動(dòng)調(diào)整音調(diào),模仿拉什德的聲音。
“這個(gè)領(lǐng)域有很多工作要做,但這項(xiàng)技術(shù)很有前景,我們希望能夠在幾年內(nèi)打破人與人之間的語(yǔ)言界限。”他說(shuō),“我個(gè)人認(rèn)為,這將讓世界更美好。”