語音識別是目前應用最成熟的人機交互方式,從最初大家體驗過的有屏手持設備這種近場的語音識別,如Siri以及各種語音助手,到現(xiàn)在,語音識別的應用已經完成了向智能硬件以及機器人上延伸,不過,新的人機交互對硬件、算法要求更加苛刻,各企業(yè)正面臨著巨大的挑戰(zhàn)。
那么實現(xiàn)人機交互需要解決哪些問題?這其中的關鍵技術有哪些?人機交互的未來趨勢如何?本期硬創(chuàng)公開課邀請了科大訊飛的研發(fā)主管趙艷軍為大家答疑解惑。

分享嘉賓:趙艷軍, AIUI項目負責人,科大訊飛云平臺研發(fā)主管,負責訊飛開放平語音識別、語音合成、聲紋、喚醒等多項產品研發(fā),同時負責人機交互解決方案AIUI的開發(fā),致力于把核心技術更好的產品化,使人與機器的交流像人與人之間一樣簡單,自然。
人機交互的痛點
語音作為目前人機交互的主要方式,大家如果使用過,應該都能舉出一些例子。比如說話要靠近,發(fā)音要標準,環(huán)境要安靜,不能持續(xù)對話,不能打斷等。

不只是語音,包括圖像、障礙物檢測等技術,都會遇到這樣的問題,比如人臉的識別,對光線、角度、距離都有一定的要求。歸結為一點就是,當前人機交互在復雜環(huán)境的自適應性方面,還有很多問題需要解決。這還只是感知層面,另外還包括認知層面,AI目前還不如我們想象的這么聰明,目前不能完全自主學習,仍然需要人的介入,比如知識庫的導入,機器行為的糾正等,都需要人的參與。
當前的人機交互產品,在真正面對用戶時,在面對復雜環(huán)境時,魯棒性還不夠好。今天的分享,我們一起探討如何解決這些問題,不管是通過算法,還是工程,抑或產品,都是我們可以選擇的途徑。
大家首先要有個共識,人機交互目前所面臨的問題,不是一朝一夕,一蹴而就能解決的,需要在各個方向在核心技術上不斷進步。
科大訊飛AIUI是怎么做的?

AIUI作為人機智能交互界面,旨在實現(xiàn)人機之間交互無障礙,使人與機器之間的交流,像人與人一樣,可以通過語音、圖像、手勢等自然交互的方式,進行持續(xù),雙向,自然地溝通。 它由一套由云和客戶端相結合服務框架構成,包括音視頻前端信號處理、云+端相配合交互引擎、內容和知識平臺以及接口、用戶個性化系統(tǒng)等。平臺具備開放性,第三方可進行靈活配置、業(yè)務擴展、內容對接等。
以前的語音交互產品,包括訊飛在內,大家提供的都是單點的能力,比如語音合成、語音喚醒、語音識別、語義理解,另外還有人臉識別、聲紋識別等。大家拿到這么多產品和能力,需要花很大的工作量,去開發(fā)人機交互功能。
這種方式問題比較明顯:
一方面是產品集成的工作量太大,造成很多中小開發(fā)者無力去承擔這部分工作量;
另外就是因為交互流程太長,細節(jié)不好處理,造成各家產品的交互體驗參差不齊。
所以AIUI交互方案首先要解決的就是這個問題。 AIUI是把麥克風陣列、前端聲學處理、語音喚醒、端點檢測、語音識別、語義理解、語音合成等技術在整個交互鏈上進行深度融合的系統(tǒng)。
而且AIUI還支持了全雙工、多輪交互等新特性,并在單點技術上進行突破和演進,包括聲源定位與追蹤、持續(xù)在線,有效人聲智能檢測、基于用戶意圖的動態(tài)語音端點檢測、支持上下文交互的語義理解、基于對話場景自適應的語音識別等。
科普:語音交互的過程

首先,人機之間的語音交互(這里主要指智能硬件、機器人等),區(qū)別于傳統(tǒng)的有屏手持設備,在傳統(tǒng)的語音交互中,因為是近場,語音信號質量相對較高,而且有觸摸屏輔助,所以交互鏈路可以相對簡單。 通過點擊屏幕觸發(fā),再通過點擊屏幕或者能量VAD檢測,來結束語音信號采集,即可完成一次交互,整個過程通過語音識別、語義理解、語音合成即可完成。