國外許多科幻大片,在描述未來人的生活的時候,語音方式的操控?zé)o處不在。比如美國隊長中,神盾局的零頭用語音操控模擬桌面、窗簾和電視;在鋼鐵俠中,男主說想喝咖啡,咖啡機(jī)就開始重開費(fèi);在碟中諜中,阿湯哥可以用語音來開燈和電視。

科幻片中這樣的未來并非憑空想象,國內(nèi)外的 IT 巨頭已先后以智能家庭產(chǎn)品與語音相結(jié)合的方式進(jìn)入智能家庭領(lǐng)域:谷歌收購 NEST 布局智能家庭,不斷強(qiáng)化 Google Now 的語音入口;蘋果 HomeKit 智能家居平臺與 Siri 也不斷加強(qiáng)融合;微軟近期也發(fā)布語音助手 Cortana,為它在智能家庭領(lǐng)域擴(kuò)展交互入口;國內(nèi)的科大訊飛亦攜手京東宣告雙方將在智能家居和語音技術(shù)領(lǐng)域展開全面合作。從這些國內(nèi)外科技大佬們對語音產(chǎn)業(yè)的重視和投入,可以看出智能語音與智能家庭的融合是大勢所趨,業(yè)內(nèi)普遍認(rèn)為語音作為人類信息最自然、最便捷的交互方式,必將成為未來智能家居設(shè)備中的重要組成部分。
隨著國內(nèi)外巨頭們對語音交互領(lǐng)域投入的增加,語音核心技術(shù)正逐步成熟,曾經(jīng)的技術(shù)瓶頸亦在慢慢被突破。這其中語音識別技術(shù)是語音交互的基礎(chǔ)與核心,「語音識別」技術(shù)相當(dāng)于給計算機(jī)系統(tǒng)安裝上「耳朵」,使其具備「能聽」的功能。該技術(shù)經(jīng)過語音信號處理、語音特征處理、模型訓(xùn)練及解碼引擎等復(fù)雜步驟,使機(jī)器最終能夠?qū)⒄Z音中的內(nèi)容、說話人、語種等信息識別出來。

*主流的語音識別系統(tǒng)框架圖
了解了語音識別的基礎(chǔ)內(nèi)容和系統(tǒng)框架之后我們來看看,語音識別技術(shù)要在智能家居生活中真正實用,必須要過哪 5 關(guān)?
一、距離:遠(yuǎn)場識別技術(shù)打破距離瓶頸
近場識別技術(shù)目前已經(jīng)比較成熟,現(xiàn)在手機(jī)上使用的語音輸入功能就屬于近場識別技術(shù),用戶必須在離手機(jī)比較近的距離內(nèi)說話,但在智能家居環(huán)境中,用戶和智能終端之間的距離被大大增加了,用戶能隨意用語音控制智能家居的一個必要條件就是在無論你在客廳哪個角落發(fā)出指令,設(shè)備都能準(zhǔn)確的識別,語音識別技術(shù)必須突破距離的障礙。
目前室內(nèi)的語音交互受到背景噪音、其他人聲干擾、回聲、混響等多重復(fù)雜因素影響,導(dǎo)致識別率低甚至無法使用,只能在相對安靜、近距離的環(huán)境下使用。而遠(yuǎn)場識別技術(shù)將能夠很好的解決這些問題。
目前的遠(yuǎn)場識別技術(shù)已經(jīng)能夠支持超過 5 米的語音識別,突破了語音交互距離瓶頸,大幅度改進(jìn)了語音交互的自由度。該技術(shù)利用麥克風(fēng)陣列的空域濾波特性——在目標(biāo)說話人方向形成拾音波束(BeamForming),抑制波束之外的噪聲,結(jié)合獨(dú)特的去混響算法,最大程度的吸收反射聲,從而達(dá)到去除混響的目的,用戶在客廳的任意角落通過語音操控智能家電已成為現(xiàn)實。

二、效率:又快又準(zhǔn)
近年來,隨著深度學(xué)習(xí)理論的爆發(fā)式發(fā)展及其在語音識別領(lǐng)域獲得的顯著效果,同時 Kaldi 等開源語音識別工具也在工業(yè)界和學(xué)術(shù)界逐漸普及,語音識別的門檻持續(xù)降低,許多公司都具備了語音識別的能力及相關(guān)產(chǎn)品,但其實很多使用過 Siri 的國內(nèi)用戶都會有這樣的感覺: Siri 的反應(yīng)太慢,說出一句話往往要等待很久才能顯示結(jié)果,另外,準(zhǔn)確率也不高,離好用還有很遠(yuǎn)的距離。
要持續(xù)優(yōu)化準(zhǔn)確率和響應(yīng)速度的問題,必須要在核心技術(shù)和產(chǎn)品特性上做出創(chuàng)新,目前國內(nèi)領(lǐng)先的解決方案是在把深度神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識別的基礎(chǔ)上,基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法對輸入語音進(jìn)行「識別關(guān)鍵信息無損」的降噪,通過海量訓(xùn)練語料基礎(chǔ)上的高精度聲學(xué)模型和語言模型訓(xùn)練,并結(jié)合極致的解碼引擎工程技術(shù),實現(xiàn)了在很小延遲的情況下,做到將去除原始語音的噪聲干擾和識別幾乎同時,大大提高了語音輸入的響應(yīng)速度和用戶體驗,最終實現(xiàn)在大詞匯連續(xù)語音識別率上可以達(dá)到 95% 以上,命令詞識別率達(dá)到 99% 以上,解碼引擎可以在用戶說完話 40 毫秒之內(nèi)給出結(jié)果,真正實現(xiàn)「秒懂」。