什么叫傳統(tǒng)?比如說(shuō)分類問(wèn)題,比如說(shuō)回歸問(wèn)題,它們的范式都有一個(gè)特點(diǎn),我把這個(gè)特點(diǎn)稱為開環(huán)學(xué)習(xí)。就是說(shuō)你有一個(gè)模型,我有一個(gè)數(shù)據(jù)進(jìn)來(lái),你要優(yōu)化一個(gè)準(zhǔn)則,然后你出去,就這么簡(jiǎn)單,你只需要去想這個(gè)模型怎么變。但是從2013、2014年開始,出現(xiàn)了另外一個(gè)方向,這個(gè)方向可能跟大數(shù)據(jù)在一定程度上有矛盾,因?yàn)榍懊娴拈_環(huán)學(xué)習(xí),必須要有足夠多的大數(shù)據(jù),而且什么叫多?不是數(shù)量,一定指的是質(zhì)量,要能夠覆蓋各種各樣的可能性,完了之后你去學(xué)它,主要依靠大數(shù)據(jù),以及模型強(qiáng)大的非線性運(yùn)算的能力。到了后面出現(xiàn)了一個(gè)問(wèn)題是,“我沒(méi)有數(shù)據(jù)怎么辦”,或者“我數(shù)據(jù)不均衡怎么辦”。于是我們有了強(qiáng)化學(xué)習(xí)(reinforcement learning),生成對(duì)抗網(wǎng)絡(luò)(GANs),還有微軟的對(duì)偶學(xué)習(xí)(dual learning)。這些學(xué)習(xí)都有一個(gè)特點(diǎn),可以歸為一類,叫閉環(huán)學(xué)習(xí),什么意思?它的數(shù)據(jù)也好,它的準(zhǔn)則也好,它都不是一個(gè)開環(huán)的,都要有feedback signal,這個(gè)feddback signal往往是從不可預(yù)計(jì)的外部環(huán)境來(lái)的。
在你們做了前面所有的學(xué)習(xí)的時(shí)候,比如監(jiān)督學(xué)習(xí)(supervised learning),它的系統(tǒng)是你預(yù)先設(shè)計(jì)好的,所以你必須收集數(shù)據(jù),必須預(yù)先設(shè)置好signal,但是到了第二個(gè)階段,這些signal是沒(méi)有設(shè)定好的,它是自己出來(lái)的。比如說(shuō)強(qiáng)化學(xué)習(xí),它是和環(huán)境交互,比如說(shuō)生成式對(duì)抗網(wǎng)絡(luò)和對(duì)偶學(xué)習(xí),它是和自己交互。這個(gè)紅利能持續(xù)多久,取決于這個(gè)范式的變化,這是我拋的第二個(gè)觀點(diǎn)。
山世光:其實(shí)我覺(jué)得視覺(jué)和語(yǔ)音領(lǐng)域,還是借鑒很多來(lái)自于自然語(yǔ)言理解領(lǐng)域的一些技術(shù)方法,比如說(shuō)上一代的一些模型,已經(jīng)在視覺(jué)領(lǐng)域里面用了好多年,在深度學(xué)習(xí)出來(lái)之前,基本上是這一套。那么除了這個(gè)之外的話,據(jù)您(李航老師)的了解,還有什么樣的技術(shù)可能是在原理或者歷史上,也借鑒了自然語(yǔ)言理解的技術(shù)?或者反過(guò)來(lái)說(shuō),自然語(yǔ)言的理解領(lǐng)域的同行們,他們會(huì)不會(huì)也關(guān)注語(yǔ)音或者視覺(jué)這些領(lǐng)域的進(jìn)展?
李航:剛才你說(shuō)那個(gè)現(xiàn)象,以前可能在自然語(yǔ)言和其他的人工智能領(lǐng)域之間也是這樣,大家不會(huì)關(guān)注視覺(jué)和語(yǔ)音方面的事情?,F(xiàn)在這個(gè)界限慢慢越來(lái)越模糊了,大家會(huì)互相借鑒,這個(gè)現(xiàn)象可能是歷史上沒(méi)有發(fā)生過(guò)的。然后你們剛剛說(shuō)的這個(gè)聲圖文,其實(shí)“文”里面有一個(gè)和聲、圖本質(zhì)上不一樣的地方,它有這個(gè)符號(hào)(symbol),它的本質(zhì)的特點(diǎn)就是在語(yǔ)音識(shí)別以后,轉(zhuǎn)換成了符號(hào)。在語(yǔ)言表達(dá)的時(shí)候,我們認(rèn)為我們能夠理解一些概念,傳達(dá)一些概念的時(shí)候,其實(shí)是有對(duì)應(yīng)的符號(hào)的,這個(gè)就是跟語(yǔ)音和圖像不太一樣的地方。
說(shuō)到深度學(xué)習(xí),剛才俞凱老師說(shuō)的我也挺同意的,2014年左右,有一個(gè)頂峰過(guò)去了,下一波從我們自然語(yǔ)言處理的角度來(lái)看的話,怎么樣能夠把深度學(xué)習(xí)的技術(shù)neural processing和symbol processing結(jié)合起來(lái),是自然語(yǔ)言未來(lái)必然要去解決的問(wèn)題。這里面有很多挑戰(zhàn),首先就是目前還不清楚人的大腦里面這種符號(hào)到底對(duì)應(yīng)的是什么東西,怎么樣能夠像做CNN一樣擴(kuò)展現(xiàn)在的深度模型也不是很清楚。符號(hào)其實(shí)是挺硬的東西,而深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)是很軟的東西,我們處理人的語(yǔ)言,包括對(duì)話的理解,從文本里面獲取知識(shí),理解文本的內(nèi)容,這些應(yīng)用都是需要這種軟、硬處理的結(jié)合。我認(rèn)為自然語(yǔ)言處理和深度學(xué)習(xí)未來(lái)發(fā)展的重要關(guān)鍵就是“怎樣做neural symbolic processing”,這塊是可能跟其他兩類不太一樣。
聲、圖、文怎樣落地?
山世光:我最近其實(shí)特別羨慕做語(yǔ)音的,為什么這么說(shuō)呢?因?yàn)檎Z(yǔ)音這個(gè)領(lǐng)域,它處理的結(jié)果直接變成了符號(hào),但是視覺(jué)這塊,我們自己說(shuō)一圖勝千言,好象是說(shuō)一張圖可以有很多很多的符號(hào)出來(lái),但是它其實(shí)和非常精確的命令,比如說(shuō)我們?nèi)タ刂埔粋€(gè)東西,和語(yǔ)音以及語(yǔ)言是直接相關(guān)的,從這點(diǎn)來(lái)講的話,語(yǔ)音就有非常豐富的內(nèi)容,可以很精確的去表達(dá),這也是為什么說(shuō)語(yǔ)音的應(yīng)用比視覺(jué)更早了一步。特別是語(yǔ)音識(shí)別,跟自然語(yǔ)言理解的連接更加直接一點(diǎn),而視覺(jué)這塊就稍微弱了一點(diǎn),但是最近兩年有一個(gè)專門話題是vision和language(視覺(jué)和語(yǔ)言),大概是從2015年才開始的,之前也有人做,但是做的很爛。2015年之后看起來(lái)好像有一些聲稱通過(guò)了圖靈測(cè)試,但是我覺(jué)得還是有點(diǎn)弱。從這點(diǎn)來(lái)講的話,比如說(shuō)做APP,我自己去創(chuàng)業(yè)的時(shí)候,別人都會(huì)說(shuō)視覺(jué)能不能做一個(gè)單獨(dú)的APP給用戶用,而不是說(shuō)作為一個(gè)錦上添花的東西嵌入到一個(gè)已有的系統(tǒng)里面去,是不是視覺(jué)會(huì)有這種缺陷?