從今年看,語音將成為科技界的“重頭戲”。亞馬遜可能已經(jīng)售出了1000萬部智能音箱Echo。在CES上,Alexa的合作伙伴幾乎隨處可見。谷歌也已經(jīng)有了自己的類似產(chǎn)品,而且看起來,它正成為一個新的平臺。語音領(lǐng)域的爆炸式增長有幾個不同的原因,還有幾個問題。
首先,讓我們看看原因。第一,語音是非常重要的領(lǐng)域,因為語音輸入的工作方式直到最近才開始取得突破。在過去的幾年里,機(jī)器學(xué)習(xí)的進(jìn)步意味著計算機(jī)在識別人們的話語方面正變得越來越好。從技術(shù)上講,這里有兩個不同的領(lǐng)域:語音識別和自然語言處理。
語音識別是把音頻轉(zhuǎn)換成文本,而自然語言處理則是接受這樣的文本,并找出其中的指令。自2012年以來,這些任務(wù)的錯誤率已經(jīng)從33%降低到不足5%。換句話說,大多數(shù)情況下,語音輸入過去并不好用。即使現(xiàn)在,它依然不夠完美,正常使用下,5%的錯誤率可能是你每天都會遇到的事情,Twitter上到處都是語音助理根本無法理解語句的例子。但這種情況正在持續(xù)改善。
第二,智能手機(jī)的供應(yīng)鏈意味著,制造帶有麥克風(fēng)、快速CPU和無線芯片的盒子要容易得多。2016年共銷售出15億部智能手機(jī),市面上有越來越多、越來越便宜的零部件,它們都是為這個市場大規(guī)模生產(chǎn)的,但它們也可以被用于其他方面。與此同時,以深圳為中心的智能手機(jī)和消費電子產(chǎn)品的專家和代工制造商的生態(tài)系統(tǒng),不僅意味著你能得到這些零件,還能讓別人幫你把它們組合起來。硬件仍然很困難,但其實并不像想象中的那么難。所以,如果你想要一個神奇的聲音盒,并打算借助智能手機(jī)供應(yīng)鏈,你就可以制造一個。
第三,主要的互聯(lián)網(wǎng)平臺公司(谷歌、蘋果、Facebook、亞馬遜或者GAFA)的收入可能是20世紀(jì)90年代Wintel(微軟+英特爾)的10倍,后兩者也曾是改變世界的公司。因此,它們有更多的錢(以及人員和分配)可以用于投資有趣的項目。
第四,智能手機(jī)并不是桌面網(wǎng)絡(luò)瀏覽器那樣的中立平臺,蘋果和谷歌幾乎已經(jīng)控制了移動互聯(lián)網(wǎng),而微軟從來沒有在桌面互聯(lián)網(wǎng)上做到這一點。這讓互聯(lián)網(wǎng)公司感到不安,它讓谷歌對蘋果感到緊張(這也是它收購Android的原因之一),而亞馬遜和Facebook都對這兩者都感到緊張。他們想要自己的消費平臺,但直到現(xiàn)在依然還沒有。這也是Kindle Fire、Alexa、Facebook Messenger聊天機(jī)器人和其他各種項目背后的重要驅(qū)動因素。
所有這些都增加了動機(jī)和機(jī)遇,然而這并不一定意味著語音“有效”,或者更確切地說,我們需要更具體地說明“有效”的含義。所以,當(dāng)我說語音輸入“有效”的時候,這意味著你現(xiàn)在可以使用音波形式來填充對話框,你可以把聲音變成文本(從音頻、聊天機(jī)器人等),并將文本變成結(jié)構(gòu)化的查詢,你還可以找到發(fā)送那個查詢的地方。
問題是,你可能沒有任何地方可以發(fā)送它。你可以用語音來填充對話框,但是對話框必須存在,你需要首先把它建立起來。你必須開發(fā)出航班訂票系統(tǒng)、餐館預(yù)訂系統(tǒng)、排班系統(tǒng)、音樂會預(yù)訂系統(tǒng)以及用戶可能想要做的任何事情的系統(tǒng),然后才能把語音與它們聯(lián)系起來。否則,如果用戶要求提出要求時,你可能準(zhǔn)確地將他們的聲音轉(zhuǎn)化為文本,但卻不能用它做任何事情,你所擁有的只是一個轉(zhuǎn)錄系統(tǒng)。
問題在于,你能構(gòu)建多少這樣的查詢?你需要多少?你能把它們直接扔到網(wǎng)上搜索,或者你需要(更多)嗎?機(jī)器學(xué)習(xí)意味著我們能夠使用大量的數(shù)據(jù)來生成可理解語音和自然語言模型,而不用依賴手工編寫語音和書寫規(guī)則的老方法。但我們沒有相應(yīng)的方法使用數(shù)據(jù)來構(gòu)建所有你想要連接的查詢,所有的對話框,你還是要用手來做。你已經(jīng)用機(jī)器學(xué)習(xí)來做一個專家系統(tǒng)的前端,但是專家系統(tǒng)仍然是一個預(yù)先數(shù)據(jù)、手工制作的模型。
雖然你可以用API和開發(fā)者生態(tài)系統(tǒng)來回答0.1%的問題,回答1%的問題(夸張的說),但仍然有99%的錯誤率。這是不可能的。從根本上說,你不可能對所有可能的問題做出回答。任何人類可能會問的問題,我們也沒有辦法通過機(jī)器來解決。如果我們這樣做了,我們就會有人工智能,基本上是按照定義,那是幾十年后的事了。換句話說,許多語音用戶界面陷入的陷阱是,你假裝用戶在與HAL 9000進(jìn)行對話,但實際上,你剛剛建立了更好的IVR,而且不知道如何從IVR變成HAL 9000。