融合必然是未來人機(jī)交互的趨勢(shì)。
以AIUI為例,在定義之初,就沒有把語音作為唯一的交互方式,而是把它設(shè)想為結(jié)合了人臉、人體追蹤、手勢(shì)、紅外等多種方式為一體的人機(jī)交互解決方案。
我們也在不斷的嘗試把語音和其他方式相結(jié)合,比如我們現(xiàn)在已經(jīng)上線的人臉、聲紋融合身份驗(yàn)證,即是最直接的例子,通過這種方式將能夠有效解決用戶的身份認(rèn)證問題。
在AIUI中,也有很多的場(chǎng)景需要借助于不同方式來相互配合。舉個(gè)例子,在AIUI中,為解決遠(yuǎn)場(chǎng)的持續(xù)交互,使用了麥克風(fēng)陣列,采用定向拾音的方式來解決這個(gè)問題,但是由于定向拾音的角度有限,造成持續(xù)交互過程中,說話人的移動(dòng)成為問題,這個(gè)時(shí)候,就需要有移動(dòng)的聲源定位和追蹤,簡(jiǎn)單依靠聲音的辨識(shí)和追蹤,很難有效解決這個(gè)問題,這個(gè)時(shí)候如果能結(jié)合人體的追蹤,比如圖像和紅外手段,將可以進(jìn)一步降低出錯(cuò)概率。其他的場(chǎng)景還有人的年齡、性別等屬性識(shí)別,如果采用圖像、聲音相結(jié)合方式,將可以極高提升精準(zhǔn)度,提升機(jī)器的感知能力,AI也將更加智能。