贊助本站
據(jù)行業(yè)預(yù)測,中國智能語音產(chǎn)業(yè)規(guī)模將達到101.4億元。而智能語音產(chǎn)業(yè)的快速發(fā)展,將帶動智能家居、智能汽車以及智能穿戴設(shè)備等相關(guān)領(lǐng)域市場規(guī)模增長上千億元。
智能語音市場規(guī)模得以如此神速擴張,并且應(yīng)用到多個領(lǐng)域,這必然離不開智能語音技術(shù)的不斷突破。那么,我們當(dāng)前的語音技術(shù)達到了什么地步?換句話說,能夠?qū)崿F(xiàn)什么樣的人機互動效果呢?
以歐拉蜜團隊為代表,我們一起來看看這些年國內(nèi)智能語音行業(yè)的技術(shù)突破。
技術(shù)門檻高,首先得保證語音識別準確率
中國的語音識別研究起始于1958年,由中國科學(xué)院聲學(xué)所利用電子管電路識別10個元音。雖然與國外語音識別研究起步時間同步,但由于當(dāng)時條件的限制,隨后一段時間內(nèi)技術(shù)的進展較為緩慢。
最初,我國語音技術(shù)的研究一直以學(xué)術(shù)界為主,隨后才有企業(yè)逐漸涉足這個領(lǐng)域。由于語音識別技術(shù)準入門檻高、人才稀缺,經(jīng)過多年研究與探索,一些國內(nèi)企業(yè)終于在這個行業(yè)冒頭,形成了“一超多強”的局面。
歐拉蜜團隊在智能語音方面的研究已達5年。初期,歐拉蜜以設(shè)計出一個中文理解能力超越Siri的智能語音助理為目標,開始投入人工智能相關(guān)研究領(lǐng)域,而長遠的目標則是致力于提供全方位的人機交互解決方案。
這5年里,歐拉蜜攻破了不少技術(shù)難關(guān)。首先要解決的,就是語音識別的精準度。
語音人機交互面臨著多重技術(shù)難題。例如,人聲距離不能過遠、發(fā)音要標準、環(huán)境要安靜、不能持續(xù)對話、不能被打斷……
(歐拉蜜開發(fā)套件拾音測試視頻截圖)
歐拉蜜團隊重點解決了這些語音識別方面的問題。目前,歐拉蜜的人聲識別準確度高達90%,并且可實現(xiàn)超遠距離識別(最遠可準確識別距離8米的人聲)。
同時,歐拉蜜團隊研發(fā)了具有強抗噪能力的語音識別技術(shù)與核心算法,包括語音活性檢測(Voice Activity Detection | Speech Activity Detection),回聲消除算法(AcousticEcho Cancellation),噪聲處理算法(Noise Reduction & Cancellation),混響處理算法(Reverberation)等多項專利技術(shù)。
歐拉蜜還為企業(yè)用戶提供深度定制服務(wù),比如對兒童聲音、嘈雜環(huán)境聲音進行訓(xùn)練,可達到特殊要求下的語音識別高準確度。
難點在于自然語言語義理解和處理
“能穿多少穿多少”,這句話的意思,到底是要你“多穿”呢,還是要你“少穿”呢。同樣的,中文語境下,類似的歧義句還不在少數(shù)。
例如,“中國隊大敗德國隊”,不知是中國贏了德國,還是德國贏了中國;“小王跟我請了假”,不知是小王向我請了假,還是小王和我都請了假……那么,在這種歧義的語境下,我們需要更多的信息來明確原句的意思。
比較常見的NLP/NLU現(xiàn)有技術(shù)與方案有這么幾種。一是基于關(guān)鍵詞和簡單規(guī)則,但這樣誤抓率高、歧義多,無法精準抓取參數(shù);二是基于ASR語法的擴展,但這種方式描述能力有限,可擴展性較低;三是基于統(tǒng)計的句法分析算法,這種算法準確率與性能不夠高,且不易處理上下文問題;最后呢,是處理語法擴展的編程,但這種程序復(fù)雜度很高。
那么,歐拉蜜是怎么解決這個問題的呢?
歐拉蜜團隊自主研發(fā)的語法描述語言(Syntax Language),可用靈活的規(guī)則來描述說法。同時,依托可全文檢索的結(jié)構(gòu)化知識庫,輔助確定語法參數(shù)的合法性,消除歧義。
歐拉蜜采用了結(jié)合規(guī)則和統(tǒng)計的有機算法、時間和數(shù)字識別技術(shù)、以編譯器技術(shù)動態(tài)解析和匹配規(guī)則,能夠?qū)崿F(xiàn)多維度的上下文支持能力,準確理解用戶的表達意圖。