俞凱:我覺(jué)得指標(biāo)會(huì)不斷地變化。其實(shí)說(shuō)白了,任何科學(xué)最關(guān)鍵的是先定義問(wèn)題,然后才是怎么去解決它。科學(xué)的發(fā)展往往是問(wèn)題導(dǎo)向的,我感覺(jué)現(xiàn)在就處在一個(gè)新問(wèn)題出現(xiàn)的前夜,但是這種事在學(xué)術(shù)界其實(shí)很難被人承認(rèn)的。根據(jù)我自己的經(jīng)驗(yàn),我曾經(jīng)投過(guò)很多關(guān)于變一個(gè)criterion的論文,但是這種論文被接收的概率比我改一個(gè)算法被接收概率要低得多。
顏水成:其實(shí)圖像跟語(yǔ)音、語(yǔ)義還有另外一個(gè)很明顯的差別。圖像是一個(gè)universal problem,無(wú)論中國(guó)還是美國(guó)做的其實(shí)是一模一樣的,但是語(yǔ)音和語(yǔ)義還有一個(gè)language問(wèn)題,即使外國(guó)做的很好,但是那個(gè)模型并不一定能夠在中文上做到非常好的效果,這個(gè)可能還是有一些差別的。
山世光:再回到剛才的這個(gè)問(wèn)題上,我想問(wèn)一下俞凱老師,在語(yǔ)音識(shí)別的這個(gè)領(lǐng)域,你剛才提到詞錯(cuò)率這個(gè)指標(biāo)基本上要飽和了,這是說(shuō)再增加更多的數(shù)據(jù)性能也沒(méi)法上升了呢?還是說(shuō)已經(jīng)做的足夠好了?
俞凱:我們這個(gè)概念就是說(shuō)相對(duì)錯(cuò)誤率的下降。在語(yǔ)音識(shí)別歷史上,相對(duì)錯(cuò)誤率下降30%屬于歷史上大的進(jìn)步,之前還有幾個(gè)技術(shù)也是這樣,相對(duì)錯(cuò)誤率下降30%,可問(wèn)題是我現(xiàn)在的錯(cuò)誤率只是10%,你相對(duì)下降30%這個(gè)概念,已經(jīng)變成了7%,你再相對(duì)30%,變到了多少?你會(huì)發(fā)現(xiàn)實(shí)際的絕對(duì)值特別小。我說(shuō)的飽和就是表面上看技術(shù)還是在不斷地進(jìn)步,但是給人的感覺(jué)就是,對(duì)于這個(gè)問(wèn)題本身,它的邊際效應(yīng)已經(jīng)特別低了?,F(xiàn)在比較難的是處理抗噪、倆人同時(shí)說(shuō)話等問(wèn)題。因?yàn)檫@樣的東西,它的錯(cuò)誤率特別特別的高,那樣的情況,它的研究?jī)r(jià)值就大于工業(yè)價(jià)值,否則很多事就讓工業(yè)去做了。之前微軟將Conversational Speech Recognition的詞錯(cuò)率做到了5.9%,和人的錯(cuò)誤率已經(jīng)一樣了。從某種意義上講,在限定的條件下,這事已經(jīng)算解決了,但是在非限定條件下或者非配合條件下,這個(gè)事情才剛剛開(kāi)始。
無(wú)監(jiān)督學(xué)習(xí)
山世光:回到“如何在沒(méi)有大量的數(shù)據(jù)情況下怎么去做學(xué)習(xí)”的這個(gè)問(wèn)題。之前我們也討論,一個(gè)思路就是做強(qiáng)化學(xué)習(xí),做交互相關(guān)的這種可能。另外一個(gè)就是說(shuō)貝葉斯網(wǎng)絡(luò)和深度學(xué)習(xí)的結(jié)合形成一套新的機(jī)制,也許可以在一定程度上解決這樣的問(wèn)題,大家是同意還是批判?
李航:貝葉斯網(wǎng)絡(luò)那個(gè)不好評(píng)論。但是我覺(jué)得非監(jiān)督學(xué)習(xí)一定要小心,其實(shí)非監(jiān)督學(xué)習(xí)指的東西現(xiàn)在越來(lái)越不一樣了,傳統(tǒng)的非監(jiān)督學(xué)習(xí)真的是一大堆數(shù)據(jù),learning from the scratch,找到這個(gè)數(shù)據(jù)里的規(guī)律,沒(méi)有任何指導(dǎo)。我們?nèi)似鋵?shí)無(wú)師自通能學(xué)到一些東西,聽(tīng)起來(lái)好像能做這個(gè)非監(jiān)督學(xué)習(xí),但是這個(gè)能力的本質(zhì)是不一樣的。人類(lèi)進(jìn)化這么長(zhǎng)時(shí)間,我們學(xué)習(xí)的能力在DNA里面已經(jīng)有了。我們生長(zhǎng)的過(guò)程當(dāng)中,學(xué)到了大量的知識(shí),也就是說(shuō)成年之前學(xué)到很多東西,在成年的時(shí)候,一般的人學(xué)任何一個(gè)東西,你也可能說(shuō)小數(shù)據(jù),或者無(wú)監(jiān)督的學(xué)習(xí),但是其實(shí)之前的那些知識(shí)、能力都會(huì)幫助你。這種意義上其實(shí)大家也在做,就是遷移學(xué)習(xí),半監(jiān)督學(xué)習(xí),最近他們比較關(guān)注的meta learning(谷歌提出來(lái)的東西)。就是說(shuō)我學(xué)各種各樣的分類(lèi)器,各種各樣的知識(shí),這些東西怎么樣能有效的結(jié)合起來(lái),幫助我只用小數(shù)據(jù)或者不用數(shù)據(jù),就能把這些新的東西學(xué)好,這樣學(xué)習(xí)的范式更接近人,比如Bayesian Program Learning這種新的想法,都是在朝這個(gè)方向走。要么人給的知識(shí),要么機(jī)器自動(dòng)學(xué)的各種各樣的知識(shí),如何把這些有效的利用起來(lái),再去學(xué)新的知識(shí),這塊我覺(jué)得是很有意思的方向。
山世光:我覺(jué)得李航老師說(shuō)的這個(gè)引到了一個(gè)非常重要的話題上來(lái)。我就觀察我家小孩,我感覺(jué)他在七八歲之前,學(xué)每一個(gè)技能其實(shí)都挺困難的,比如你讓他系個(gè)扣子的話(這個(gè)跟智能沒(méi)有什么關(guān)系),他要學(xué)蠻久的,但是你會(huì)發(fā)現(xiàn)他不同層面、不同角度的能力,在逐漸積累一段時(shí)間之后,在有了自學(xué)的能力時(shí)候,智力的發(fā)育不是線性的,那時(shí)候就會(huì)突然爆發(fā)性的自己去學(xué)。這個(gè)對(duì)機(jī)器來(lái)說(shuō),它可能有視覺(jué)、聽(tīng)覺(jué)等各種各樣的能力,但是沒(méi)有把這些結(jié)合在一起,去誕生一個(gè)智力,這塊如果有突破話真的會(huì)是一個(gè)大的突破。
俞凱:我的感覺(jué)其實(shí)還是反饋通道的問(wèn)題。其實(shí)很多時(shí)候是因?yàn)榭圩酉挡缓脽o(wú)所謂,他不知道應(yīng)該把扣子系好,或者說(shuō)扣子系不好就沒(méi)有批評(píng)他。就是他的學(xué)習(xí)能力強(qiáng)了,我感覺(jué)有一個(gè)很重要的問(wèn)題,他無(wú)時(shí)無(wú)刻都有新的數(shù)據(jù)接觸,這些數(shù)據(jù)是沒(méi)有l(wèi)abel的,但是有compact,所以他對(duì)compact感知形成了一種感知能力的時(shí)候,他有這個(gè)信號(hào)了,然后他就可以把整個(gè)的學(xué)習(xí)流程,加上好的結(jié)構(gòu),然后貫穿起來(lái)。小的時(shí)候是因?yàn)檫@個(gè)信號(hào)就很簡(jiǎn)單,打一下疼了,餓了就叫,這是非常簡(jiǎn)單的。當(dāng)這個(gè)compact越來(lái)越豐富,而且當(dāng)他越來(lái)越能理解這個(gè)compact以后,他的學(xué)習(xí)能力才能體現(xiàn)出來(lái),我感覺(jué)這也是對(duì)外部認(rèn)知反饋信號(hào)的能力。