而對(duì)于人機(jī)之間的交互,由于涉及到遠(yuǎn)場(chǎng),環(huán)境比較復(fù)雜,而且無(wú)屏交互,如果要像人與人之間的交流一樣自然、持續(xù)、雙向、可打斷, 整個(gè)交互過(guò)程需要解決的問(wèn)題更多,AIUI為完成類人的語(yǔ)音交互,是一個(gè)需要軟硬件一體、云+端相互配合的過(guò)程。

我們來(lái)看下交互的整個(gè)流程,從大的方面來(lái)說(shuō),還是以語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成為主線,只不過(guò)每個(gè)過(guò)程需要解決更多的問(wèn)題。
首先來(lái)看下 語(yǔ)音喚醒 ,喚醒是人機(jī)交互的主要觸發(fā)方式,就像你要和一個(gè)人說(shuō)話,就得首先喊一下這個(gè)人的名字,才能開(kāi)始進(jìn)行交流。而在交流的過(guò)程中,如果有其他人喊你呢,你也是需要響應(yīng)的,需要支持持續(xù)喚醒。
機(jī)器被喚醒后,就需要知道說(shuō)話人的方位,這樣機(jī)器才可以做出更友好的響應(yīng),比如轉(zhuǎn)身,移動(dòng)等。只有明確說(shuō)話人的方位后,才可以定向的拾音,做降噪處理,同時(shí)對(duì)說(shuō)話人進(jìn)行語(yǔ)音增強(qiáng)。這個(gè) 聲源定位 和 語(yǔ)音增強(qiáng) 主要是用麥克風(fēng)陣列的相關(guān)技術(shù),下面會(huì)有詳細(xì)解釋。
在語(yǔ)音識(shí)別這個(gè)重要模塊中,首先要解決的就是遠(yuǎn)場(chǎng)識(shí)別,通過(guò)上面提到的麥克風(fēng)陣列和聲源定位,可以較好的實(shí)現(xiàn)遠(yuǎn)距離拾音,解決噪聲、混響、回聲帶來(lái)的影響。作為全雙工交互,持續(xù)的音頻流拾取,就要解決人聲檢測(cè)和斷句問(wèn)題,機(jī)器需要能夠過(guò)濾無(wú)效語(yǔ)音,做出快速的反饋和響應(yīng)。
人聲和端點(diǎn)的檢測(cè)不能只依賴于能量檢測(cè)的技術(shù)方案,需要解決更為復(fù)雜的環(huán)境,具體怎么解決呢,下面再展開(kāi)。
對(duì)于識(shí)別來(lái)說(shuō),首先要保障的是遠(yuǎn)場(chǎng)環(huán)境下的識(shí)別率,除了前面提到的麥克風(fēng)陣列解決了前端聲學(xué)的問(wèn)題,還要有專門(mén)針對(duì)遠(yuǎn)場(chǎng)環(huán)境下,基于大量數(shù)據(jù)訓(xùn)練的聲學(xué)模型,這樣才能保證識(shí)別率滿足交互需求。
除了云端的語(yǔ)音識(shí)別,端上的識(shí)別也是需要做的,需要云+端方式進(jìn)行結(jié)合,這樣才能滿足復(fù)雜網(wǎng)絡(luò)下的使用場(chǎng)景。不過(guò)端上主要是去做一些命令式交互,響應(yīng)一些本地操作。比如關(guān)機(jī)、打電話、動(dòng)作指令等。
本地不做成無(wú)限制的響應(yīng)呢,因?yàn)閷?duì)于很多的用戶意圖來(lái)說(shuō),是需要基于網(wǎng)絡(luò)去獲取內(nèi)容的,所以本地只做輔助使用,是為了解決一些復(fù)雜網(wǎng)絡(luò)環(huán)境所做的手段。這個(gè)地方的難點(diǎn)是需要做好云和端的PK策略,需要基于置信度、響應(yīng)時(shí)間等信息來(lái)綜合決策。作為持續(xù)的語(yǔ)音交互,不可避免要吸收很多無(wú)效的語(yǔ)音,拒識(shí)成為必須,否則會(huì)造成對(duì)話的混亂和無(wú)意義的響應(yīng)。
對(duì)于支持多輪的交互理解,語(yǔ)義引擎不再是無(wú)狀態(tài)的,系統(tǒng)更加復(fù)雜,需要有對(duì)話管理、歷史信息存儲(chǔ)等模塊。語(yǔ)義理解不只包含用戶說(shuō)話意圖,還要包括內(nèi)容的獲取,這樣才能在接下來(lái)的端點(diǎn)檢測(cè)、語(yǔ)音識(shí)別等交互過(guò)程中,共享信息,做到場(chǎng)景自適應(yīng),以提高準(zhǔn)確率。
完成語(yǔ)音識(shí)別和語(yǔ)義的理解后,機(jī)器需要通過(guò)語(yǔ)音合成,把信息傳遞給用戶。合成這一塊沒(méi)有太多需要展開(kāi)的,訊飛提供了幾十種不同的發(fā)音人,而且支持不同情感進(jìn)行朗讀,至于該以何種情境、情感進(jìn)行播報(bào),這是在語(yǔ)義理解中需要給出的信息。 相比傳統(tǒng)的交互,現(xiàn)在的流程會(huì)看起來(lái)復(fù)雜很多。
功能:遠(yuǎn)場(chǎng)識(shí)別、全雙工、多輪交互
遠(yuǎn)場(chǎng)識(shí)別

遠(yuǎn)場(chǎng)識(shí)別,需要前后端結(jié)合去完成,一方面在前端使用麥克風(fēng)陣列硬件,通過(guò)聲源定位及自適應(yīng)波束形成做語(yǔ)音增強(qiáng)。在前端完成遠(yuǎn)場(chǎng)拾音,并解決噪聲、混響、回聲等帶來(lái)的影響。
不過(guò)這還不夠,因近場(chǎng)、遠(yuǎn)場(chǎng)的語(yǔ)音信號(hào),在聲學(xué)上有一定的規(guī)律差異,所以在后端的語(yǔ)音識(shí)別上,還需要結(jié)合基于大數(shù)據(jù)訓(xùn)練、針對(duì)遠(yuǎn)場(chǎng)環(huán)境的聲學(xué)模型,這樣才能較好解決識(shí)別率的問(wèn)題。
全雙工

全雙工交互,是一個(gè)全鏈路的貫穿過(guò)程,不只是持續(xù)的拾音和網(wǎng)絡(luò)傳輸,更需要包括持續(xù)的語(yǔ)音喚醒、智能有效人聲檢測(cè)、動(dòng)態(tài)語(yǔ)音端點(diǎn)檢測(cè)、無(wú)效語(yǔ)音拒識(shí)等各個(gè)模塊相互配合,才能完成。