讓智能設(shè)備適應(yīng)每個人的使用習慣可能嗎?答案是肯定的。這里要用的到就是語音識別的另外一項關(guān)鍵技術(shù)—個性化識別技術(shù)。個性化識別指的是語音識別系統(tǒng)具備自動學(xué)習并適應(yīng)用戶使用習慣的能力,你用的越多,它越懂你。一般來說,個性化識別包括發(fā)音和語言兩方面。其中發(fā)音個性化主要是指系統(tǒng)對用戶語速、口音等發(fā)音習慣的學(xué)習,而語言個性化主要是指系統(tǒng)可以對用戶的特定詞匯(例如人名、地名、口頭禪、專業(yè)詞匯等)具備更好的辨識性。
目前業(yè)內(nèi)成熟的個性化識別技術(shù)已能針對每個人的興趣點、知識背景等來進行個性化語言模型建模,從而準確識別出個性化的詞匯內(nèi)容。以后你用的越多,語音識別系統(tǒng)就會越懂你。
四、方言:普通話標不標 zun 也照樣能用
眾所周知,中國的語音及語言博大精深,雖然國家在推廣標準普通話方面不遺余力,但是中國真正掌握標準普通話的人群比例還是比較低的,而中國的口音現(xiàn)象則是紛繁復(fù)雜,甚至會出現(xiàn)同城市中都有不同口音的情況。因此,當這些帶有或輕或重口音的人群在使用語音輸入時,如果按通常的方法使用標準普通話數(shù)據(jù)進行模型的訓(xùn)練,就會產(chǎn)生很嚴重的適配問題,從而影響語音輸入時的識別效果。
「方言」現(xiàn)在也不再是語音識別的障礙,得益于各類方言豐富的音頻數(shù)據(jù)、特殊詞匯、發(fā)音現(xiàn)象等專業(yè)資源以及充分利用深度神經(jīng)網(wǎng)絡(luò)的自學(xué)習特色,目前,訊飛輸入法已經(jīng)陸續(xù)支持四川話、河南話、東北話、天津話等 15 種方言識別,這些方言識別能力同樣適用于智能家居環(huán)境中。以后,無論你使用普通話還是方言,無論你說話語速快還是慢,普通話標不標 zun,在家里都能自由地使用語音控制智能設(shè)備。
五、語音喚醒:真正解放雙手
由于功耗等方面的限制,智能設(shè)備很難 24 小時都保持在激活狀態(tài)。因此,要想在家里自由地控制智能家居設(shè)備,我們還需要能即時「喚醒」功能,也就是給智能設(shè)備加入「語音喚醒」技術(shù)。
語音喚醒,是指通過含有特定喚醒詞的語音輸入來「觸發(fā)」語音識別系統(tǒng)以實現(xiàn)后續(xù)的語音交互。通過該技術(shù),任何人在任何環(huán)境、任何時間,無論是近場(0.5 米以內(nèi))還是遠場(2~5 米),面向設(shè)備直接說出預(yù)設(shè)的喚醒詞,就能激活產(chǎn)品的識別引擎,從而真正實現(xiàn)全程無觸控的語音交互。
除了說單個喚醒詞實現(xiàn)喚醒外,更自然便捷、在技術(shù)上更具有挑戰(zhàn)性的交互方式是在連續(xù)語流中帶上喚醒詞,以實現(xiàn)喚醒產(chǎn)品并同時實現(xiàn)操控的效果,比如直接在語音助手中說出「打電話給張三」就可以喚醒設(shè)備并自動完成人名識別與撥打電話。
隨著語音識別技術(shù)在距離、效率、個性化、方言、喚醒等多方面一一突破實用瓶頸,隨心所欲「聲」控智能家居的時代一觸即發(fā),那么這一變革多久會來?也許在明年,也許就在明天。