例如,當(dāng)你詢問某個酒店在哪里時,Google的網(wǎng)頁搜索和地圖搜索就會派上用場;當(dāng)你要詢問NVIDIA是什么時,維基百科的信息就會被直接調(diào)用;而你要了解附近哪些餐館各自有什么特色時,谷歌和Yelp就會同時起作用。
總體來說,Siri不是某一種獨立的技術(shù),而是將若干現(xiàn)有技術(shù)進行了整合。這些技術(shù)并非革命性的,但當(dāng)它們整合后,在用戶面前就展現(xiàn)出了神奇的一面。
語音人機交互的技術(shù)模型
為什么是手機
如果你比較喜歡研究各種計算技術(shù),以上技術(shù)你應(yīng)該不會陌生。說白了,很多人都或多或少地用過以上提到的技術(shù),只是因為停留在應(yīng)用層面,沒有把它們技術(shù)化罷了。無論是語音識別、語音合成,還是各種后臺計算技術(shù),其實PC上都有。那么,為什么它在智能手機上一炮而紅?
整合,是一個原因,也是很重要的原因。在目前的科技公司中,對技術(shù)分類得非常詳盡,每個公司都在某一個領(lǐng)域鉆研得非常深,但想到要把它們整合起來的公司并不多。Siri做到了,喬布斯看到了,并把它收購了,專為自己所用(再次贊一下已逝去的喬布斯的眼力)。
另外,“給出回應(yīng)”也是重要原因。其實語音識別并進行相應(yīng)的動作,這一點很多廠商都在做,也有很多產(chǎn)品。例如桌面Windows系統(tǒng)和Windows Phone系統(tǒng)上就有語音控制和語音搜索功能。但是它缺乏智能的語言反饋,更沒有想到要把這種反饋合成為誘人的人聲來回應(yīng)用戶——這兩點中,語音合成技術(shù)不算難,但很多廠商都沒想到。
最后,也是最關(guān)鍵的原因:智能手機是隨身攜帶的。它的硬件雖然已經(jīng)“PC化”,比較強大,但輸入依舊是個麻煩事兒,而基于語音的交互恰好是最理想的解決方案。另外,智能手機還有很多PC不具備的特性:例如地理位置定位、聯(lián)系人列表、人們總是通過它在移動中解決問題。這些,也都為語音交互提供了更多更豐富的功能點。這一切因素的整合,促成了Siri,也促成了她在智能手機上的一炮而紅。
不只是手機:從PC中來到PC中去
有一點是不言而喻的,隨著Siri的出現(xiàn),下一波智能手機的應(yīng)用熱潮肯定是人機交互應(yīng)用了。《會說話的湯姆貓》這類變聲軟件將迅速淪為小兒科(其實它本來也是小兒科)。會有越來越多的“Siri”涌現(xiàn)。
實際上正如前文所述,目前黑客們已經(jīng)在忙著將Siri移植到其他iOS系統(tǒng)移動設(shè)備上,例如iPad,但目前能夠完成移植,Siri卻還無法連接服務(wù)器(云端),也就是說基本不可用。但我們相信,這種應(yīng)用一旦出現(xiàn),就會有大量的開發(fā)商蜂擁而至。在Android上、在Windows Phone上,也會涌現(xiàn)類似的應(yīng)用。事實上我們有理由相信,具備人機交互功能的語音助手將成為未來智能手機能否成功占領(lǐng)市場的關(guān)鍵點之一。
不過,我們認為Siri開啟的,不僅僅是手機應(yīng)用的新篇章,而是整個PC應(yīng)用的新篇章(其實,智能手機也算是PC——個人電腦的一種形態(tài))。未來,在平板上,在上網(wǎng)本上,在Ultrabook上,在傳統(tǒng)筆記本上,在一體機和臺式機上,甚至在工作站上,基于語音的人機交互系統(tǒng)將大放異彩。
這樣說是有根據(jù)的,首先,在微軟全新的手機操作系統(tǒng)Windows Phone上,已經(jīng)有了語音控制。而Windows 8和Windows Phone 8的統(tǒng)一,也會讓語音控制更加普及。而且,在PC端長期以老大自居的微軟肯定不會坐視蘋果借Siri霸占手機市場,肯定會對現(xiàn)有的語音控制進行改良做到人機交互。在未來的Win8和Windows Phone 8上,語音人機交互是完全有可能出現(xiàn)的。
而且,前面說了,Siri整合的技術(shù),實際上是各種現(xiàn)有的,基于PC開發(fā)的技術(shù),每個獨立的技術(shù)都在PC端有獨立的應(yīng)用。Google的搜索大家都異常熟悉了;維基百科、百度百科用過的人也不在少數(shù);大眾點評這類網(wǎng)站也是非常熱的。語音控制電腦操作也已相當(dāng)成熟(見注解1),只是由于缺乏足夠的吸引力和宣傳,用者寥寥罷了。只要做好自然語言的識別和理解,加上云端的自然語言知識搜索系統(tǒng),以及語音合成回饋技術(shù),這些來自于PC,經(jīng)整合后在智能手機上大放異彩的技術(shù),完全可以再回到PC中,在性能強大得多的PC上扮演更具誘惑力的個人語音助手,甚至是“商務(wù)助手”、“辦公助手”、“專業(yè)設(shè)計助手”等各種角色。我們甚至可以期待數(shù)字家電成型后,通過語音助手控制電腦,進一步完成對所有家電的控制。想遠點,或許幾年后,我會對著電腦說:請幫我關(guān)閉家里的電視,另外繳納上兩個月的電費,同時預(yù)訂下午2點使用會議室,另外在下午5點30分給家里打電話告訴家人我加班不回家吃飯,并在最近的必勝客幫我訂一塊肉香滿溢披薩上門”。我的電腦就會聯(lián)合手機,完成我所有的安排,并自動詢問我披薩送上門的時間,還自動將繳費發(fā)票信息提交到我的電腦屏幕上……