就在蘋果秋季發(fā)布會的前一天,近20家中國科技企業(yè)在北京召開發(fā)布會,其中最受關(guān)注的是一年一度的“百度世界”。百度世界大會對標(biāo)蘋果的WWDC或Google I/O,向開發(fā)者、合作伙伴和用戶傳遞百度在技術(shù)等方面的研究成果,因此每一年都會展出一些黑科技,2014年令外界印象最深刻的是“筷搜”,由百度CEO李彥宏親自發(fā)布。今年李彥宏推出了名為“度秘”的秘書式機(jī)器人,并演示了一個驚艷的DEMO(DEMO看看就好,最新版手機(jī)百度已上線該功能)。這個度秘跟筷搜一樣具有科技含量,不過相對于處于概念性階段的筷搜而言,更具實(shí)用價(jià)值。
語音助手大都只是玩具
2011年蘋果隨著iPhone 4S一起推出Siri,將語音助手帶入大眾視野。隨后Google Now、微軟Cortana以及中國的百度語音助手、搜狗語音助手、智能360、蟲洞、訊飛靈犀語音助手陸續(xù)面世。由于智能手機(jī)天然具備“聽”和“說”的硬件基礎(chǔ),再加上移動互聯(lián)網(wǎng)帶來的語音場景,人們都認(rèn)為語音助手是時候迎來爆發(fā)了。
這些年語音技術(shù)不斷提升。語音識別、語義理解、語音合成和聲紋識別幾個領(lǐng)域的進(jìn)展可謂突飛猛進(jìn)。不過,中國語音巨頭科大訊飛更多將技術(shù)應(yīng)用到教育等行業(yè)應(yīng)用中。而想要復(fù)制Siri的中國玩家們都沒能成為殺手級產(chǎn)品——實(shí)際上,Siri、Google Now以及微軟Cortana幾個老牌玩家也表現(xiàn)平平。
為什么會這樣?如你所見,智能手機(jī)的語音助手在過去很大程度只是“玩具”。人們許多時候都在調(diào)戲Siri,它的笨拙甚至?xí)づ脩魫赫Z相向。識別率不夠高、對噪音環(huán)境支持很弱、識別速度不夠快、能回答的問題太少、很多任務(wù)無法完成……這是語音助手過去被詬病的地方。語音助手是剛需,只不過大家都沒有完善的解決方案,正是因?yàn)榇耍Z音助手市場機(jī)會重重,這是一塊并未真正被開拓的處女地。
度秘要做秘書式機(jī)器人
很多人都幻想過擁有一位漂亮、貼心的秘書,對你言聽計(jì)從、完成各種任務(wù),不過聘請一個專職秘書可不是每個人都能負(fù)擔(dān)得起。但如果機(jī)器能夠做到這一點(diǎn),相信沒人會拒絕。遺憾的是,這類場景只存在于科幻片之中,機(jī)器想要跟人類一樣聰明還需要很漫長的時間。不過,這并未打消探索者的勇氣,百度世界大會推出的“度秘”則是采取秘書式機(jī)器人的思路——就像它的名字一樣。
相對于各類語音助手而言,度秘有兩個新的嘗試。
與用戶多輪對話,就像人與人之間的交流一樣,基于上下文理解用戶的意圖。要做到這一點(diǎn)主要是技術(shù)挑戰(zhàn)大——機(jī)器識別單句自然語言的語義都不容易。基于上下文等于要不斷記錄交互過程,不只是理解單句話,要知道人類有時候都“跟不上”別人說話。百度基于深度學(xué)習(xí)的Deep Speech技術(shù)部分實(shí)現(xiàn)了多輪交互,這是更加簡單、自然和便捷的方式。除了百度,微軟此前曾推出過小冰對話機(jī)器人,有小道消息稱微信或?qū)⑼瞥鲱愃频闹С侄噍唽υ挼臋C(jī)器人——它們都是文本形式。
可以完成更多任務(wù),主要是指獲取生活服務(wù)。李彥宏演示了通過度秘訂咖啡、訂餐廳、預(yù)訂寵物醫(yī)院、購買電影票等操作,整個過程是“連貫”進(jìn)行的。這走在了前面:Siri最多被使用的設(shè)置鬧鐘、問天氣、調(diào)用通信錄打電話這類功能,是在操作手機(jī)本身,互聯(lián)網(wǎng)內(nèi)容和生活服務(wù)獲取不是它的強(qiáng)項(xiàng)(最近Siri與百度百科達(dá)成合作來解決這些問題)。Google Now主要做信息推送,微軟Cortana解決個性化資訊獲取和設(shè)備數(shù)據(jù)處理,F(xiàn)acebook M正在小范圍測試預(yù)訂餐廳等服務(wù),Magic以及國內(nèi)的“神豬”通過人工處理用戶的語音指令——跟12580等電話呼叫中心本質(zhì)一樣。而度秘是自動化地獲取多樣化的生活服務(wù)。
幾大語音助理對比