語音并不是一個新鮮事物,2011年,Siri被內(nèi)置在iPhone 4s之中橫空出世時,曾掀起一波語音技術(shù)和討論熱潮和語音助手的創(chuàng)業(yè)熱潮。時隔五年之后,Google AlphaGo人機大戰(zhàn)將AI(人工智能)從實驗室技術(shù)變成坊間熱議的話題,人工智能成為國內(nèi)外科技巨頭的爭奪焦點,語音則成為巨頭進軍AI的必經(jīng)之路。
Google I/O大會上,最重要的項目便是Google Assistant(谷歌助理)和Google Home(類似于Amazon Echo的智能家庭音箱助手),Google Home的基礎(chǔ)則是語音。
蘋果WWDC開發(fā)者大會上,5歲的Siri終于兼容了Mac,并向開發(fā)者開放,能完成更多任務(wù)。
Amazon Echo成為Amazon 最成功的硬件產(chǎn)品,這款產(chǎn)品銷量已達到400萬,家庭智能語音音箱,被視作是智能手機之后的又一個爆款品類。
KPCB合伙人、享有“互聯(lián)網(wǎng)女皇”稱號的瑪麗米克爾在今年的互聯(lián)網(wǎng)趨勢報告中,將超過十分之一的篇幅給了“語音”二字,在其看來,“觸摸屏+麥克風(fēng)”正在取代“鍵盤+鼠標(biāo)”的交互方式。
如此重要的技術(shù)革命,中國巨頭自然不會缺席。截止目前,中國市場還沒有與Amazon Echo媲美的中國版智能語音音箱,但在軟件層面互聯(lián)網(wǎng)公司卻一直在想方設(shè)法入局。Siri發(fā)布的第二年,搜狗便發(fā)布了語音助手,搜狗也是中國最積極投資語音的互聯(lián)網(wǎng)巨頭之一,阿里、騰訊、網(wǎng)易、京東等巨頭在語音上雖然偶爾有零星動作,但并未將之視作重點,要么是第三方合作,要么是蜻蜓點水。搜狗是搜索引擎,均崇尚技術(shù),這是其押注語音的原因所在。
輸入成中國玩家進軍語音的亮點
輸入是語音最典型的應(yīng)用場景,戶外、家里、走路、開車,人們有許多時候都不便于打字,或者說懶得打字,抑或打字效率不夠高,語音就成為一種選擇。隨著語音技術(shù)的發(fā)展,識別準(zhǔn)確率、方言兼容度、噪音抗干擾諸多難題都已得到解決,語音識別率已達到實用水平。
在語音輸入法上,搜狗輸入法、訊飛輸入法和百度輸入法是最主要的三個玩家??拼笥嶏w憑借著語音技術(shù)切入輸入法領(lǐng)域,宣稱用戶數(shù)已過億;百度輸入法也將語音當(dāng)做亮點,其宣稱借助于DeepSpeech技術(shù)解決了噪音問題。語音輸入量工具最大的則是搜狗輸入法,其7%的用戶會用到語音識別功能,這一功能每天會有超過1億次的語音轉(zhuǎn)化量,在整體1.4億的請求次數(shù)中占據(jù)相當(dāng)比例,這也側(cè)面表明,搜狗語音應(yīng)用最關(guān)鍵還是輸入。
搜狗輸入法做語音則有5年歷史,與訊飛語音輸入法強調(diào)識別率不同,搜狗輸入法更強調(diào)智能輸入。識別率再高,語音輸入依然會有錯字現(xiàn)象,手工更改成痛點用語音輸入就是因為不想動手。搜狗輸入法的解決方案是智能交互,比如用戶說“航天一院”很可能被識別為“航天醫(yī)院”,用戶就可再說“一二三四的一”,搜狗輸入法就會將“醫(yī)”改為“一”。這樣的交互能實現(xiàn),關(guān)鍵不在于識別率,而是語義理解,如果沒有語義理解技術(shù),就會直接將“一二三四的一”轉(zhuǎn)化為文字。好的語義理解,需要應(yīng)用深度學(xué)習(xí)為基礎(chǔ)的人工智能技術(shù),這是互聯(lián)網(wǎng)公司尤其是搜索公司擅長的地方。
語音輸入法成為中國互聯(lián)網(wǎng)巨頭做語音的一大亮點,美國用戶并不需要“輸入法”,系統(tǒng)自帶功能就可滿足,因此美國并沒有類似于搜狗這樣的輸入法巨頭。當(dāng)然,英文會需要語音輸入,不過這并沒有成為Siri的重點,未來或許會出現(xiàn)英文版的語音輸入法。
汽車成中國巨頭最親睞的場景
在語音使用場景方面,美國科技巨頭更親睞“家”,Amazon Echo、Google Home均是面向家庭這一場景。家是封閉空間,相對更安靜,并且干擾他人和被他人干擾的問題更小,還能與智能家居打通,是非常適合的語音場景。不過,由于做硬件需要較強的“硬實力”,與智能家居打通則需要大量的產(chǎn)業(yè)整合,不是一時半會能實現(xiàn)的,因此中國互聯(lián)網(wǎng)巨頭均對這個場景望而卻步,阿里、京東有嘗試與第三方合作推出與Echo類似的產(chǎn)品,市場表現(xiàn)卻很平淡。