復(fù)雜的環(huán)境,一方面是外在環(huán)境的復(fù)雜,另一方面是方言和口音。外在環(huán)境復(fù)雜包括噪聲、混響、回聲等,而且噪音又分為不同的會(huì)議室、戶外、商場等不同環(huán)境,為了解決這些問題,除了單通道語音增強(qiáng)技術(shù),現(xiàn)在基本是采用上面提到的麥克風(fēng)陣列硬件和相關(guān)算法實(shí)現(xiàn)。
在方言、口音方面,大家都知道,在我們國家,幾十種方言,每個(gè)人都有自己的獨(dú)特口音,一般的解決方法的是基于各種方言數(shù)據(jù),通過深度神經(jīng)網(wǎng)絡(luò),訓(xùn)練各種方言模型,以提高識(shí)別率,這是業(yè)內(nèi)的通用做法。
為解決兩方面的問題,訊飛正通過以下的技術(shù)方案,去適應(yīng)各種復(fù)雜環(huán)境的要求。包括以下方面:
1) 提供條形、環(huán)形、球形的四麥、五麥、八麥等多種不同的麥克風(fēng)陣列構(gòu)型,以適應(yīng)不同的產(chǎn)品需求,比如叮咚音箱采用的就是環(huán)形8麥的方案。
麥克風(fēng)陣列技術(shù)雖然已經(jīng)可以達(dá)到相當(dāng)?shù)募夹g(shù)水平,但是總體上還是存在一些問題的,比如當(dāng)麥克風(fēng)和信號(hào)源距離太遠(yuǎn)時(shí)(比如10m、20m距離),錄制信號(hào)的信噪比會(huì)很低,算法處理難度很大;對于便攜設(shè)備來說,受設(shè)備尺寸以及功耗的限制,麥克風(fēng)的個(gè)數(shù)不能太多,陣列尺寸也不能太大。而分布式麥克風(fēng)陣列技術(shù)則是解決當(dāng)前問題的一個(gè)可能途徑。
所謂分布式陣列就是將子陣元或子陣列布局到更大的范圍內(nèi),相互之間通過有線或者無線的方式進(jìn)行數(shù)據(jù)的交換和共享,并在此基礎(chǔ)上進(jìn)行廣義上的聲源定位、波束形成等技術(shù)實(shí)現(xiàn)信號(hào)處理。
相對于目前集中式的麥克風(fēng)陣列,分布式陣列的優(yōu)勢也是非常明顯的。首先分布式麥克風(fēng)陣列(尤其無線傳輸)的尺寸的限制就不存在了;另外,陣列的節(jié)點(diǎn)可以覆蓋很大的面積。總會(huì)有一個(gè)陣列的節(jié)點(diǎn)距離聲源很近,錄音信噪比大幅度提升,算法處理難度也會(huì)降低,總體的信號(hào)處理的效果也會(huì)有非常顯著的提升,目前科大訊飛已經(jīng)開始了相關(guān)技術(shù)研究的布局工作。
2)不同環(huán)境的語音識(shí)別聲學(xué)模型,如上面提到的遠(yuǎn)場拾音,專門針對遠(yuǎn)距離拾音的環(huán)境進(jìn)行訓(xùn)練;
3)在方言方面,訊飛支持普通話、粵語等20多種方言,是目前涵蓋方言范圍最廣的。積累了一定量的多方言資源庫,并基于特殊的深度神經(jīng)網(wǎng)路結(jié)構(gòu)和上線數(shù)據(jù)的半監(jiān)督訓(xùn)練,實(shí)現(xiàn)了多方言數(shù)據(jù)信息的共享和方言的自動(dòng)迭代更新。
另外方言最大的難點(diǎn),在于方言的自適應(yīng),如何能夠根據(jù)用戶的語音,自動(dòng)匹配模型,訊飛已經(jīng)驗(yàn)證完成。
4)在口音的適配方面,訊飛已經(jīng)有一套完整的基于用戶的訓(xùn)練系統(tǒng),可以針對每個(gè)用戶,建立閉環(huán)的優(yōu)化流程,為每個(gè)用戶建立自己的個(gè)性化聲學(xué)模型,目前正在訊飛輸入法試點(diǎn),對于一些注冊用戶進(jìn)行灰度體現(xiàn);
5)基于特定人群的模型訓(xùn)練,目前已經(jīng)為面向兒童的玩具方案,專門訓(xùn)練針對兒童的聲學(xué)匹配模型;
6)為每個(gè)應(yīng)用、每個(gè)用戶,提供個(gè)性化的語言模型;
AIUI的服務(wù)

AIUI對外完全開放,不管是個(gè)人開發(fā)者還是公司,在我們的平臺(tái)上都可使用。因AIUI需要與硬件相結(jié)合,所以現(xiàn)在是以評(píng)估板的形式開放。如果評(píng)估效果滿足產(chǎn)品需求,我們提供模塊或者軟核的方式支持產(chǎn)品量產(chǎn)。
開放平臺(tái)除了提供整體的方案和幾十個(gè)業(yè)務(wù)場景,還提供產(chǎn)品的個(gè)性化定制能力,主要包括喚醒詞定制、發(fā)音人定制、交互語義理解定制、語音識(shí)別資源定制、流程參數(shù)配置等,這些都是在Web平臺(tái)上開放的功能,開發(fā)者可以根據(jù)產(chǎn)品需求,在平臺(tái)上進(jìn)行個(gè)性化的配置和編輯。
如語義開放平臺(tái),提供私有語義編寫、自定義問答導(dǎo)入,這一塊相信是大家最為關(guān)心的,每個(gè)機(jī)器人如何回答用戶的提問,主要就通過這方面來體現(xiàn)。
還有很重要一點(diǎn),AIUI允許第三方系統(tǒng)接入,AIUI作為可擴(kuò)展的伸縮服務(wù),經(jīng)過語音云處理的識(shí)別和語義結(jié)果,只要在平臺(tái)上配置,第三方業(yè)務(wù)系統(tǒng)即可通過Http服務(wù)接入,以滿足更為復(fù)雜的個(gè)性化需求。
當(dāng)然訊飛開放平臺(tái)還提供深度的定制服務(wù),包括喚醒詞訓(xùn)練、發(fā)音人訓(xùn)練、語義及內(nèi)容制作等。通過平臺(tái)開放和深度定制兩種方式,可以滿足各個(gè)產(chǎn)品之間的差異化。