支持連續(xù)的語音喚醒是必須。在傳統(tǒng)的語音喚醒方案中,是一次喚醒后,進行語音識別和交互,交互完成再進入待喚醒狀態(tài)。但是在實際人與人的交流中,人是可以與多人對話的,而且支持被其他人插入和打斷。AIUI中語音喚醒采用BN(Bottle Neck)技術方案,支持低功耗的待機。
全雙工交互作為一個持續(xù)的交互過程,語音識別和語義理解,需要能夠做出快速的響應。這就需要人聲檢測和智能斷句。傳統(tǒng)的斷句是基于能量的檢測來判定,但是有兩個主要缺點,一是無法過濾噪音和無效的語音,另外就是對說話人的要求較高,中間不能有停頓。如果后端點設置的太短,容易造成截斷;后端點太長,又會造成響應不及時。
AIUI的做法是,采用基于模型的有效人聲智能檢測和基于用戶意圖的動態(tài)語音端點檢測。基于模型的檢測可以有效解決噪音和無效語音。這塊主要是通過采集不同環(huán)境的噪音,基于深度神經(jīng)網(wǎng)絡的訓練出對應聲學模型,進行過濾,把有效的語音傳送到云端進行交互。
動態(tài)端點檢測算法實現(xiàn)從連續(xù)輸入的數(shù)據(jù)流中檢測出包含完整用戶意圖的語音送入語義理解模塊,可以很好的解決用戶的停頓,因為在人機的交流過程中,在一句包含完整意圖語音中,停頓是很常見的現(xiàn)象,這在我們對用戶的行為分析中得到驗證。
另外在持續(xù)的語音交互過程中,必然會有無效的語音和無關說話內(nèi)容被吸收進來,所以拒識是必須。在AIUI系統(tǒng)中,我們針對全雙工交互中的這個問題,專門構建了一套基于深度神經(jīng)網(wǎng)絡的拒識系統(tǒng),從聲學信號、語義等多個方面對接收的語音進行拒識判斷。
多輪交互

同樣的,對于多輪交互中的語義理解和對話管理兩個模塊,我們也采用深度學習+海量數(shù)據(jù)的方式,使用用戶的實際數(shù)據(jù),訓練魯棒的語義理解和對話管理模型。
結合基于LSTM(長短時記憶)的循環(huán)神經(jīng)網(wǎng)絡,使得模型具有長時記憶的能力,結合對話上下文進行準確的語義理解,相信配合科大訊飛深度神經(jīng)網(wǎng)絡+大數(shù)據(jù)+“漣漪效應”的研究思路,我們的多輪交互會越來越準確、好用。
關鍵技術:麥克風陣列

大家通過上圖可以看到,現(xiàn)實環(huán)境中噪音、混響、人聲干擾、回聲等因素,帶來的影響因素還是比較大的,我們一般是通過麥克風陣列來解決。

麥克風陣列是利用一定數(shù)目,一定空間構型的聲學傳感器(一般是麥克風)組成,用來對聲場的空間特性進行采樣并處理的系統(tǒng)。麥克風陣列能做很多事情,對于環(huán)境噪聲,它可以采用自適應波束形成做語音增強,從含噪語音信號中提取純凈語音;對于說話人說話位置的不確性,它可以通過聲源定位技術來計算目標說話人的角度,來跟蹤說話人以及后續(xù)的語音定向拾取;對于室內(nèi)聲音反射,導致語音音素交疊,識別率較低的問題,它可以通過去混響技術,減小混響,提高識別率。
線性、環(huán)形、球形麥克風在原理上并無太大區(qū)別,只是由于空間構型不同,導致它們可分辨的空間范圍也不同。比如,在聲源定位上,線性陣列只有一維信息,只能分辨180度;環(huán)形陣列是平面陣列,有兩維信息,能分辨360度;球性陣列是立體三維空間陣列,有三維信息,能區(qū)分360度方位角和180度俯仰角。
其次麥克風的個數(shù)越多,對說話人的定位精度越高,但是定位精度的差別體現(xiàn)在交互距離的遠近上,如果交互距離不是很遠,5麥和8麥的定位效果差異不是很大。此外,麥克風個數(shù)越多,波束能區(qū)分的空間越精細,在嘈雜環(huán)境下的拾音質(zhì)量越高,但是在一般室內(nèi)的安靜環(huán)境下,5麥和8麥的識別率相差不是很大。麥克風個數(shù)越多,成本也越高,具體的產(chǎn)品,要綜合考慮應用場景和實際的產(chǎn)品定位,選擇合適的麥克風個數(shù)和陣型。
方案:破解環(huán)境對語音識別的影響
