18日晚,老羅的單口相聲給了我們不少驚喜,高配置、新系統(tǒng)、人性化功能、嚴(yán)肅導(dǎo)航語音包,然而令人非常意外的是,錘子發(fā)布會竟然還帶火了語音輸入。作為錘子的合作伙伴,訊飛沒錯(cuò)過錘子的每一場發(fā)布會,老羅在現(xiàn)場演示的語音輸入無論是識別率還是識別速度都令人十分驚嘆,但實(shí)際上,語音識別技術(shù)已經(jīng)發(fā)展到了一個(gè)極高的水平,如老羅所說,識別準(zhǔn)確率已經(jīng)達(dá)到了97%,經(jīng)過識別的文字基本不用修改便可以直接發(fā)送。
當(dāng)然在語音識別的行業(yè)中不僅有訊飛一家,前不久,搜狗發(fā)布了語音交互引擎“知音”,有了它,可讓人機(jī)的交互更加自然,不僅能聽會說,甚至可以理解和思考,進(jìn)一步提升語音輸入的準(zhǔn)確率與速度。根據(jù)搜狗官方數(shù)據(jù)顯示,其語音識別率同樣高達(dá)97%。兩家數(shù)據(jù)幾乎一樣,那么到底誰在語音識別技術(shù)上更勝一籌呢?
在按下“開始”按鍵后,搜狗語音會振動一下提示用戶已開始,訊飛語音則直接開始錄制,但在按下“結(jié)束”按鍵后,兩款應(yīng)用均會發(fā)出振動提示用戶錄制已完畢,馬上進(jìn)入識別環(huán)節(jié)。


左:搜狗語音識別 右:訊飛語音識別


左:搜狗語音識別 右:訊飛語音識別
在測試的過程當(dāng)中,兩款應(yīng)用在識別過程上有很大區(qū)別,首先搜狗語音會隨著語音不斷顯示文字,有一種正在打字的感覺,而訊飛語音則有明顯的停頓,待聲音停止后文字才會一起上屏,有種復(fù)制粘貼的感覺。
其次,搜狗語音在錄制結(jié)束后,還可以看到屏幕中的字在自動更改,這是根據(jù)語義在選擇正確的字,減少后續(xù)修改步驟。訊飛語音則不展示文字修改過程,經(jīng)識別后文字直接上屏。
最后,在對比了數(shù)次后發(fā)現(xiàn),搜狗語音會根據(jù)語義以及語氣停頓添加標(biāo)點(diǎn)符號,訊飛語音則更多為根據(jù)語氣停頓來添加標(biāo)點(diǎn)。
測試結(jié)果顯示,兩款語音識別系統(tǒng)各有識別錯(cuò)誤的地方,但并不影響閱讀,也不影響上下文意思,正確率都極高。但兩家總體在識別率、準(zhǔn)確率方面沒有太大的差距,只是操作方式略有區(qū)別而已,這也說明了兩家在語音識別技術(shù)方面都處于一個(gè)較高的水平,基本上可以代表當(dāng)前國內(nèi)語音識別技術(shù)的最高水準(zhǔn)。
訊飛已專注語音識別技術(shù)多年,但實(shí)際上,訊飛更多面向企業(yè)服務(wù),近幾年才將注意力轉(zhuǎn)向普通用戶,比如去年“訊飛聽見”驚艷亮相,發(fā)布會現(xiàn)場識別率高達(dá)95%。而搜狗旗下則擁有包括輸入法、瀏覽器、地圖、搜索引擎等等產(chǎn)品,每天擁有超過1.9億次的語音請求,目前國內(nèi)語音輸入量排名第一,坐擁海量語料數(shù)據(jù)的搜狗語音成長速度飛快,這是它能夠?qū)崿F(xiàn)“理解上下文意思、自動修改、自動添加標(biāo)點(diǎn)”的原因。
僅僅憑借這兩段語音輸入測試難以區(qū)分兩者的優(yōu)劣,眾所周知,語音輸入對場景的要求非常高,環(huán)境、口音、網(wǎng)絡(luò)都有可能影響識別的準(zhǔn)確率和速度,因此語音輸入在日常生活中的使用頻率并不高。
當(dāng)然,用戶對效率的追求是在不斷提升的,老羅也坦言語音輸入正是為了提高手機(jī)輸入效率而存在,錘子發(fā)布會帶火了語音,不少用戶也開始嘗試體驗(yàn)語音輸入的便捷和快感。未來,語音輸入定會成為主要輸入方式之一,語音識別也會在更多領(lǐng)域普及開來。