鑒于你無法回答任何問題,還有第二個(gè)問題,用戶知道他們能問什么嗎?我懷疑語音用戶界面的理想功能實(shí)際上遵循著U型曲線:一個(gè)指令很好,回答10個(gè)問題可能是可以的,但50或100個(gè)就會(huì)很糟糕,不是你不能問任何問題,而是你自己可能都不記得自己問了些什么。當(dāng)你越來越接近一個(gè)能夠回答任何問題的系統(tǒng)時(shí),曲線的另一端就會(huì)出現(xiàn),不過這也會(huì)產(chǎn)生人工智能。
有趣的是,盡管有足夠的資金和足夠的開發(fā)人員,你或許可以建立一個(gè)系統(tǒng),能夠回答成百上千個(gè)不同的問題,但這實(shí)際上可能會(huì)適得其反。對(duì)此有人進(jìn)行反駁稱,一些大型平臺(tái)公司(比如谷歌、亞馬遜,或許還有Facebook)已經(jīng)擁有大量用戶,他們?cè)谒阉髡?qǐng)求時(shí)輸入自然語言進(jìn)行查詢。如今,他們通過返回搜索結(jié)果頁面來回答這些問題,但他們可以利用這條曲線的頭部,為前100或500種最常見的請(qǐng)求類型構(gòu)建結(jié)構(gòu)化的響應(yīng)這就是谷歌的知識(shí)圖譜。所以,這并不是說用戶必須知道他們能問的50件事,但是對(duì)于前50種(或500種)類型的問題,他們現(xiàn)在能得到更好的回答,遠(yuǎn)比僅僅一頁鏈接更好。
顯然,這在屏幕上可以很好地工作,但在音頻設(shè)備上卻失敗了。不過從更廣泛的角度來看,這種做法如何在實(shí)踐中發(fā)揮效果實(shí)際上屬于分配問題可能有半數(shù)問題屬于谷歌已經(jīng)構(gòu)建了結(jié)構(gòu)化響應(yīng)的前500種類型,但我每天問Google Home的問題中,有多少包含在這500種類型中,又有多少我無法得到答案?這往往讓許多大多數(shù)公司得出結(jié)論:為了讓聲音工作得很好,你需要一個(gè)狹窄的、可預(yù)測(cè)的領(lǐng)域。你需要知道用戶可能會(huì)問什么,用戶也需要知道他們能問什么。
這是Siri的結(jié)構(gòu)性問題,無論語音識(shí)別部分的效果如何,你都能問出20個(gè)問題,但蘋果卻給了人們一種印象,即你可以問任何問題,所以當(dāng)你問某些不在列表上的東西時(shí),電腦往往無法給出答案。相反,亞馬遜的Alexa似乎在溝通你能做什么和不能問的問題上做得更好。其他狹窄的領(lǐng)域(酒店房間、音樂、地圖)似乎也很有效,因?yàn)槟阒滥憧梢詥栃┦裁?。你必須選擇一個(gè)你無法衡量的領(lǐng)域。
與此同時(shí),對(duì)于某些任務(wù)來說,語音不一定是正確的界面,即使我們確實(shí)擁有HAL 9000這樣的系統(tǒng),而且所有擴(kuò)展性問題都得到了解決。即使是一個(gè)真正的人,通過電話預(yù)訂航班或預(yù)訂酒店,也會(huì)遇到錯(cuò)誤的用戶界面。在一個(gè)IVR上買衣服也會(huì)是很糟糕的經(jīng)歷。所以,也許語音面臨的問題不只是人工智能還不夠好,還因?yàn)槿祟惖穆曇粢蔡邢蘖恕?/p>
你可以通過添加屏幕來解決這個(gè)問題,就像亞馬遜的Echo那樣。但是,你也可以添加一個(gè)觸摸屏,以及一些不同服務(wù)的圖標(biāo)。你可以把它叫做“圖形用戶界面”,或者讓聲音成為可選的部分。當(dāng)我圍繞這個(gè)問題進(jìn)行討論時(shí),我發(fā)現(xiàn)將Alexa和蘋果手表Apple Watch進(jìn)行比較是很有用的。它們都不會(huì)做你在在手機(jī)上無法做到的事情,但他們會(huì)把它移到另一個(gè)不同的環(huán)境中,他們會(huì)用更少的摩擦來做,只要你還記得。
比如,當(dāng)你站在廚房里的時(shí)候,使用Alexa或智能手表做事或定時(shí)時(shí),你就會(huì)遇到更少的摩擦。你必須改變自己的思維模式,告訴自己如何實(shí)現(xiàn)某件事,而某件事是簡單的、幾乎是反射性的任務(wù),你已經(jīng)有了肌肉記憶來把你的手機(jī)拿出來,那么這個(gè)新設(shè)備能打破這個(gè)習(xí)慣,形成新的習(xí)慣嗎?一旦習(xí)慣或意識(shí)出現(xiàn),在某些事情上,語音助理或手表比掏出手機(jī)要好得多,但這個(gè)習(xí)慣必須先被創(chuàng)造出來。
通過擴(kuò)展,可能存在更適合語音用戶界面的行為,不是因?yàn)樗鼈兏菀讟?gòu)建,也不是因?yàn)檫@個(gè)命令在統(tǒng)計(jì)上更有可能被使用,而是因?yàn)樾闹悄P透行?,打開燈光、音樂(Echo的一個(gè)關(guān)鍵用例),或者是一個(gè)比處理預(yù)約更重要的計(jì)時(shí)器。也就是說,一種設(shè)備可以做一件事,并且有一個(gè)指令,這可能是最適合語音的,盡管理論上它是完全沒有限制的。
我認(rèn)為,這里存在一種矛盾。從概念上講,語音用戶界面看起來是比智能手機(jī)更不受限制、更通用的界面,但實(shí)際上它們更狹窄、更單一。他們的摩擦比掏出手機(jī)、打開手機(jī)、下載應(yīng)用等等都要小,而且只有當(dāng)你改變了你的思維模式時(shí),它們才會(huì)這么做。它們看起來就像智能手機(jī)的未來,但在它們(必然)封閉、鎖定的本質(zhì)上,它們看起來也很像功能手機(jī)或航母甲板。