顏水成:大部分人對于通用智能的理解,目前還停留在概念階段??赡艽蠹抑饕氲氖峭ㄓ萌斯ぶ悄苁鞘裁礃拥?,但是對于怎么樣讓機器實現(xiàn)或者產(chǎn)生通用人工智能,其實討論的不是特別多??偟膩碚f通用人工智能暫時是遙不可及的事情。
山世光:我把剛才這個問題換一個問法。比如說過去做人臉職別,我們可能連計算機識別領(lǐng)域的其他的子問題怎么做都不關(guān)心。但是現(xiàn)在不一樣,現(xiàn)在要做人臉識別,只看人臉識別的論文肯定是不行了,還要看其他類似領(lǐng)域或者更通用的論文。從這個聲圖文這三個大的領(lǐng)域來說,它們之間的相互借鑒和技術(shù)層面的交叉,我覺得已經(jīng)越來越多了。像CNN是從圖像領(lǐng)域里面起來的,1989年就開始在做了。不知道俞凱老師是不是可以介紹一下,在語音方面的應用和圖像方面的應用會有什么樣的差別?
顏水成:根據(jù)我的觀察,在聲圖文領(lǐng)域里,聲音的問題相對來說比較少一些,比如像語音識別、TTS、或者聲紋識別,而圖像領(lǐng)域的問題太多了,而且落地的方式比語音多很多。這也許是為什么計算機視覺領(lǐng)域的從業(yè)者比語音識別更多。
山世光:俞凱老師同意這個觀點嗎?
俞凱:我覺得顏水成老師是一語中的,但這個觀點我肯定是不同意的(指聲音領(lǐng)域的問題相對較少的觀點),其實是語音的人看起來借鑒圖像的人比較多。
顏水成:但是深度學習在語音上是最早成功的。
俞凱:實際上不只是深度學習,真正圖像的人看語音的論文相對來說比較少的,這跟整個領(lǐng)域的覆蓋有關(guān),所以我覺得剛才是一語中的,主要就是對問題的挖掘,這跟整個的歷史發(fā)展是相關(guān)的,這是事實。但是倒過來講,我是不太同意的,原因很簡單,語音放在那,它就是一個模態(tài),里面涉及到環(huán)節(jié)非常多,所以就會出現(xiàn)一個現(xiàn)象,真正搞語音的人出來創(chuàng)業(yè)的比較少,特別難做,為什么呢?因為你必須什么都懂,包括那些學術(shù)界還沒弄出來的,但是你必須弄出來,才能最終變成一個系統(tǒng)。
顏水成:所以它是一個閉環(huán)的,包含麥克風陣列、降噪、語音識別等一系列問題。
俞凱:語音最大的特點是什么呢?它不像圖象,任何一個子問題馬上都能看得見,你必須得繞一個圈,要么回答你了,要么看到識別的結(jié)果才可以。它的鏈條是非常長的,從剛才說到的硬件、軟件、信號、特征、模型、再到后處理,這一系列完了之后才能看到一個結(jié)果,很難知道哪一塊做的好或者做的不好,因此對后面的結(jié)果有重大的影響。如果你從中單獨拎出去一塊,想要直接評估它的指標并不是那么容易,所以這個是語音發(fā)展的一個特點。
我為什么把它當做特點呢?因為它既是好處也是壞處。壞處就是說,對于整個領(lǐng)域的問題,大家的認識不夠大,我也在聯(lián)合一些語音圈的同仁,把一些問題明確的提出來。好處是什么呢?就像賣鞋一樣,如果各位去賣鞋,你是會去都有鞋穿的地方去賣,還是去一個沒有鞋穿的地方去賣?兩個各有好處和壞處,如果都不穿鞋,你就沒市場了。如果都穿了鞋,你怎么賣?市場飽和了。所以從語音的角度講,我的感覺是,在研究問題的提出上可能是under-developed,但是在問題的解決上跟圖像相比其實是over-developed。
我舉一些例子,比如剛才提到的互相借鑒的問題,大家直接就談到了深度學習,很多人看待語音的角度,“不就是分類的問題嘛”,反正有深度學習的人,有圖像領(lǐng)域的人,有全世界的人,大家都能解決這個事。好,我們都來借鑒,大家的成果都可以用。但是我看這個事,不是從分類的角度去看,我可能要去改它的criteria,什么意思呢?比如說,我們現(xiàn)在要做語音識別,我是給一定的聲音,然后識別出文字,這是一個criterion,我訓練的時候,在傳統(tǒng)的語音識別模型里面,它是一個隱馬爾可夫模型。我要訓練的就是一個聲學模型,如果我換一個特別難的criterion,就會使我的測試和訓練是匹配的,就不會存在很直接的過訓練的問題,因為過訓練不單單是這個問題,還有一個準則不匹配的問題。
所以我們很多時候會關(guān)注這樣一類,這些角度是不一樣的,實際上是在范式上有所不同。所以今天提到的大數(shù)據(jù)和深度學習這塊,我的第二個觀點是什么呢?我個人認為,從具體的深度學習方法中跳出來,其實在深度學習的發(fā)展歷史中,它會經(jīng)歷范式的變化,在第一個十年,大概是06年到16年,實際上第一個八年吧,我認為深度學習和大數(shù)據(jù)的結(jié)合在傳統(tǒng)機器學習范式上幾乎達到飽和,后面還可以再研究,但是它的邊際效益降低了。