
「 粹客網 8 月 17 日快訊 」 目前 VR 環(huán)境的交互方式還是以手柄和控制器為主,同時也有不少創(chuàng)業(yè)團隊正在進行手勢控制技術的研發(fā),但如果繼續(xù)探索更深層次的人機交互方式,我們會發(fā)現(xiàn)語音識別對 VR 技術巨大的推動作用。近日 Unity 也在一篇博文中詳細介紹了語音識別技術的相關信息,其中有大量講述語音識別技術如何提升 VR 體驗的理論內容。
語音識別的核心其實是人工智能,這也是它經過了長時間的發(fā)展至今仍舊不夠成熟的原因之一。博文中對于語音識別的基本實現(xiàn)方式進行了深入的探討,總的來說就是:“ 為了讓人們感受到真實的 VR 體驗,其中的人工智能(AI)系統(tǒng)要善于分析用戶的語音指令并給予恰當的回應。”
想準確地完成語義分析,就需要 AI 系統(tǒng)從用戶的言語中尋找到一些既定的模式,從而去理解它所代表的含義。原文中還提到,語音識別對于 AI 系統(tǒng)的深度學習能力有較高的要求,例如用戶在長期使用的情況下,成熟的語音識別應用能夠記住用戶的語言模式,不僅能根據指令做出反應,還能預測他在特定情境下可能會說的話。
Unity 在深入分析其技術原理的同時,也試圖投身該領域的實踐研發(fā)之中—— 它制作了不少用于實現(xiàn)這一功能的語音識別和分析的工具,以及一些語音文本的轉換方案。目前主要的研究成果是一個能將多種語音識別解決方案整合到 Unity C#腳本之中的工具包,其中包括一個用于比較文本轉換結果的場景,用戶可以通過朗讀句子來判斷它的準確度。
據了解,該工具包已經在 Asset Store 中免費提供,不過 Unity 表示,這一技術現(xiàn)在還處于比較基礎的階段,更多的目的還是讓開發(fā)者們加深對語音識別技術的了解。“ 我們的 Asset Store 工具包目前只整合了少量語音文本轉換工具,不過你已經可以用市面上最主流的解決方案來跟它比較,了解現(xiàn)有語音識別技術的優(yōu)勢和不足。”