“喂!您好先生,請問有什么可以幫到您的嗎?”這是運營商客服MM經(jīng)典的開篇服務(wù)話術(shù)。但若干年后,在聲音背后可能不再是真人,而是冷冰冰但聽起來依然甜美的智能機器系統(tǒng)。
若干天前,和同事張雨芹頭腦風(fēng)暴“中國移動入股科大訊飛意欲何為”時,突然提出了上述這個設(shè)想。我的觀點是:對中國移動、工商銀行等需要大量客服的企業(yè)來說,隨著技術(shù)的發(fā)展和政策的開放,智能語音識別交互技術(shù)不敢說完全取代現(xiàn)有人工客服,但至少可以替代,而且這個時間不會太久,10年內(nèi)就可規(guī)?;逃谩?/p>
在談?wù)Z音交互之前,首先不可避免的再次提及下語音識別,關(guān)于這個問題早已經(jīng)老生常談,在蘋果siri和科大訊飛出來之前就已經(jīng)有眾多企業(yè)和科研機構(gòu)的專家討論過很多年。很多專家會說:中國地域廣闊,光方言就有成百上千種,而且即便是同一種方言被不同的人說出來發(fā)音上也會就差距。機器系統(tǒng)哪怕采樣再全,識別率也不會太理想。
但專家們忽略的一個事實是:很多平時說方言的人在撥打銀行或者運營商客服電話時,會用普通話和客服人員交流。 試想我現(xiàn)在用山西呂梁方言和移動客服美女交流, 那對方肯定聽不懂,這個時候我們?yōu)槭裁纯燎髾C器要懂幾百種語言,而不要求客服人員懂幾百種方言。
為客戶解答疑惑辦理業(yè)務(wù)的客服人員雖然是真人,但相對來說處理的問題和辦理的業(yè)務(wù)都大同小異、非常簡單,從這個行業(yè)非常低的應(yīng)聘門檻就可以看的出來這是一個相對來說標(biāo)準(zhǔn)化且不需要太多大腦運算的工種。雖然沒有公開的數(shù)據(jù),但我個人估計中國最少有數(shù)百萬人從事這種枯燥的工作。一個客服人員會經(jīng)過專業(yè)的話術(shù)培訓(xùn),每年會接上萬通電話,但上萬通電話總結(jié)下來,常規(guī)的句子可能只有幾百個,而且絕大部分咨詢都可以用已經(jīng)培訓(xùn)好的話術(shù)解答。那這個時候,機器如果通過對大數(shù)據(jù)的利用,再加上日趨成熟的語音識別和語音交互系統(tǒng),是不是就可以代替大部分的人工?
答案是肯定的!
在以前智能語音識別技術(shù)只是“偽智能”,所有的識別都必須建立在已經(jīng)有的“庫”的基礎(chǔ)上,不能無中生有。舉個例子,魔術(shù)師可以憑空變出來一只鴿子,但不管是從帽子里還是褲兜拿出來鴿子,都必須事先就把這只鴿子準(zhǔn)備好。具體造成的結(jié)果是你說一聲“北京天氣”系統(tǒng)可以識別,但你說“北京的天氣“或者”今天天氣怎么樣”就可能無法識別。
但是,很幸運我們生活在一個變革的時代。在這個時代,在信息的沖擊下,很多障礙和隔閡都會被打破。隨著云計算等新型技術(shù)的發(fā)展,大數(shù)據(jù)的價值得以被挖掘和利用。機器系統(tǒng)再也不是只能識別預(yù)設(shè)好的詞語或者句子,而是“可以針對同一個意思但不同的表達”做出相同的回應(yīng)。再來舉一個簡單的例子,北京東城的用戶給114打電話咨詢“今天的天氣怎么樣?”、北京西城的用戶給114打電話“我要安排今天出行,給我介紹下天氣情況”、北京朝陽的用戶給114打電話“今天會下雨嗎”,這是三個不同的表述,但客服人員回答可以是相同的“今天北京陰轉(zhuǎn)陣雨,并有輕霧,北部陣雨,22到28℃。能見度較差,注意出行安全”。類似的生活情景還有很多,這種情況下采集到足夠取樣(當(dāng)然這個取樣系統(tǒng)的更新機制要健全)利用大數(shù)據(jù)的收集和分析,工作就可以用智能系統(tǒng)來完成。
細(xì)心的朋友,這個時候會發(fā)現(xiàn)我上述例子中一個致命的漏洞:每個人不可能都是給114打電話,而是打其他客服電話,甚至不是打電話而是通過互聯(lián)網(wǎng)平臺等方式獲取天氣信息,那我的那個舉例不就白假設(shè)了?但我要告訴大家:這個世界的運行方式和企業(yè)的競爭局面正在徹底的顛覆。在出臺有效的管控機制后,數(shù)據(jù)的共享可以跨企業(yè)甚至跨平臺。
在交互環(huán)節(jié)還有個“聲音聽起來和真人是否一樣”的問題需要解決。我們經(jīng)??春萌R塢大片的時候會出現(xiàn)人機對話的鏡頭,雖然系統(tǒng)非常智能,但機器那頭的聲音發(fā)出者依然是冷冰冰的機器聲音,導(dǎo)致大家認(rèn)為模擬真人發(fā)音的技術(shù)很難實現(xiàn)。事實上,真人發(fā)音技術(shù)比智能識別更容易實現(xiàn),這點顧慮完全不要擔(dān)心(這里有人會說,單詞的模擬容易實現(xiàn),但別認(rèn)為句子是單詞組成就以為句子也很容易。句子模擬非常難,因為句子有連貫性和邏輯性。“今天你吃飯了嗎”,模擬出來的發(fā)音就會變成“今天---你---吃飯---了---嗎”。 能做出這種反駁來的一般也都是科研了幾十年的老頭子,技術(shù)功底扎實,但思維方式固化。我之前已經(jīng)說過,在強大的存儲和計算能力支撐下,利用大數(shù)據(jù)的分析運用,這個故障解決起來不是太難的事情)。在國內(nèi)91熊貓讀書這樣的閱讀軟件都開始擁有真人閱讀的功能(當(dāng)然,這個功能應(yīng)該是采用了第三方的技術(shù),91自身還不具備這個研發(fā)能力),而且通過幾次的版本更新來看越來越接近真人發(fā)音,幾年以后我這樣的骨灰級書友估計都難以分辨真假。