今天,搜狗地圖發(fā)布了一款全語音 “搜狗智能導(dǎo)航”,該技術(shù)使用的是搜狗積累的語音技術(shù)和語義理解,在將數(shù)據(jù)重構(gòu)后,從而實現(xiàn)車內(nèi)的全語音交互。目前已實現(xiàn)在車內(nèi)通過自然語音交互實現(xiàn)撥打電話、發(fā)短信、實時天氣查詢、實時股票行情查詢、歌曲查找與播放、新聞查詢與推薦、導(dǎo)航信息查詢、火車票信息查詢、聊天小助手等功能。
這款產(chǎn)品可以運行在手機上,也可以通過手機車機互聯(lián)協(xié)議(例如在搜狗與捷豹路虎 XE 車型的合作中,手機車機互聯(lián)方案用的是博世 MySpin)連接到車機,或者直接運行在車機操作系統(tǒng)上(這個需要搜狗地圖與前裝車廠達(dá)成合作)。
搜狗地圖總經(jīng)理孔祥來向 36 氪介紹了搜狗智能語音,他告訴我,搜狗智能語音具備語音交互、語義理解以及搜索服務(wù)的完整能力,近一年來搜狗搜索日均語音搜索次數(shù)增長超過 4 倍,手機輸入法日均語音輸入超過了 1.2 億次,其語音技術(shù)也得以在用戶產(chǎn)品的迭代中取得了發(fā)展。
以下是孔祥來向我介紹的一些搜狗語音特點:
在線語音識別
通用識別準(zhǔn)確率高于 97%,響應(yīng)時間低于 500ms,每分鐘至少輸入 200 字以上,通用的噪聲及口音解決方案;
離線語音識別
命令詞識別準(zhǔn)確率高于 98%,隨便說高于 93%,實時率低于 0.5 倍實時,喚醒正確率高于 95%;
語音合成
離線 + 在線解決方案,男女聲多音色個性化定制,合成速度低于 0.05 倍實時。
語義理解
指令控制和服務(wù)獲取,知識問答和閑聊,多輪交互和語音糾錯,基于用戶場景和消費歷史的智能推薦
搜索服務(wù)
搜狗地圖提供的語音整合能力,搜狗移動搜索已打通的各行業(yè)資源,搜狗新聞的個性化新聞推薦能力,以及搜狗知立方的推理能力。
當(dāng)然,這次既然推出車載語音導(dǎo)航,搜狗也對其語音技術(shù)進(jìn)行了車載方案優(yōu)化,具體來說,優(yōu)化方案包括定向 MIC,以降低周圍干擾,做了一套降噪算法,其識別效果接近安靜環(huán)境,同時還做了回聲消除,支持語音打斷,另外,孔祥來表示搜狗地圖還針對 POI 進(jìn)行了專門優(yōu)化,識別正確率為 99%。之前搜狗共進(jìn)行了 4000 多小時的車載語音訓(xùn)練。
語義理解方面,搜狗可以實現(xiàn)全程人機對話,支持超過 10 萬級節(jié)點的語義網(wǎng)絡(luò),啟發(fā)式對話模型確保會話收斂度為 80%,可以理解用戶意圖。
在我看來,搜狗的語音導(dǎo)航有一個很大亮點,即它可以通過分析用戶意圖,看到用戶語音請求背后的真正意圖,加上它還可以與用戶進(jìn)行多輪交互,這樣就可以對用戶做出進(jìn)一步服務(wù)。例如用戶語音搜索 “虹橋機場”,搜狗語音會進(jìn)一步提問是去停車場還是出發(fā)層(對應(yīng)接送人)。
此外,可以延展的功能還包括,比如用戶要在五一期間去國展,搜狗會推薦用戶看車展,以及停車攻略等等;另外當(dāng)用戶開車去外地的時候會自動進(jìn)入旅行模式,這樣用戶路過著名地標(biāo)和建筑物搜狗會進(jìn)行主動的語音推送。孔祥來強調(diào),在這些過程中,用戶均可以對所輸入的信息進(jìn)行語音修正,以做到只用語音而不用手指。
除了導(dǎo)航,搜狗語音也可以用于開空調(diào)、打電話的指令控制,查天氣、找飯店的服務(wù)獲取、以及搜索、知識問答等功能。