最初2代iPhone是沒有語音功能的,蘋果當(dāng)時(shí)做了一個(gè)調(diào)查,75%用戶希望加一個(gè)語音的功能,在后兩代iPhone推出卻發(fā)現(xiàn)只有5%的用戶去使它。后來又做了一個(gè)研究,蘋果HROT的做的,當(dāng)初得出一個(gè)結(jié)論,不好的主要原因是你不是自然語言,如果不能和人自由交互這個(gè)東西沒有前途。
后來他們收購了一家公司,就是后來的Siri集成到蘋果的Iphone當(dāng)中,發(fā)現(xiàn)一個(gè)很有趣的現(xiàn)象,87%的用戶都是在調(diào)戲Siri,很少用Siri去真正完成任務(wù),發(fā)現(xiàn)這個(gè)語音特別不穩(wěn)定,有時(shí)候很準(zhǔn),有時(shí)候不準(zhǔn)。而且剛才都是我說一句,機(jī)器恢復(fù)一句,這樣一個(gè)模式,發(fā)現(xiàn)這樣的模式不行。
到了在2014年的時(shí)候,要判斷未來什么樣的東西是下一代,最后是看最終用戶的目標(biāo),單句的語音理解可能還不行,于是就提出一個(gè)很重要的概念,用對話的技術(shù)改造Siri,這是為什么在2015年收購了一家英國的人工智能公司,搞的語音交互。
收購這家公司后Siri原來的團(tuán)隊(duì)不滿意了,很多都離職了。離職之后又推出一個(gè)新的產(chǎn)品,是一個(gè)對話產(chǎn)品,這里面會強(qiáng)調(diào)不單單是單獨(dú)這樣的交互,我要用對話的方式去改造。人類對對話起碼會是什么樣的東西?
NLP(自然語言處理)與對話系統(tǒng)
很多人認(rèn)為,我們搞人工語音和機(jī)器交互界面,真正做這個(gè)對話交互的研究的時(shí)候,我們會發(fā)現(xiàn)自然語言處理里面出現(xiàn)一個(gè)新的任務(wù),隨著移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的產(chǎn)品新出現(xiàn)的——叫做自然口語對話,希望以自然口語對話的方式實(shí)現(xiàn)真正機(jī)器助理這樣思路。
這里面包括蘋果的Siri向這個(gè)方向走的,最近facebook出現(xiàn)了對話API,認(rèn)為是人工智能的未來,這里面到底有什么東西?
實(shí)際上在我們剛開始所有的東西里面,一開始我說到了搞語音還是那句話,大家反應(yīng)是識別,我說到對話它的新東西就在這,我們可能要解決三類,從技術(shù)上講有不同的類型:
1、問答式對話:一類是問答,我說一個(gè)你能夠告訴我答案,大家要注意是告訴答案,不是告訴我各種可選擇的搜索結(jié)果,答案意味著要去篩選,我給的圖片是IBM的沃森在這個(gè)節(jié)目上用這個(gè)機(jī)器對話的方式,就機(jī)器問答的方式戰(zhàn)勝人類選手的圖片。
2、閑聊式對話:第二類是閑聊,調(diào)戲Siri這塊,這類往往沒有商業(yè)模式但是體現(xiàn)了某種機(jī)器智能。
3、任務(wù)型對話:第三類是任務(wù)性對話,真的幫助你完成任務(wù)。比如郭買一杯咖啡,是買星巴克還是其他家,通過任務(wù)型對話幫你完成任務(wù),這是對話技術(shù)最關(guān)鍵的部分。
作為從公司的角度來講,思必馳最重要的特點(diǎn)是把對話交互技術(shù)作為核心組織各種各樣的語音智能,深耕垂直場景的語音交互技術(shù),現(xiàn)在主要是在做智能車載、智能家居、智能機(jī)器人的解決方案,核心一點(diǎn)就是在智能硬件上做語音交互。
我們這家公司做的就是智能硬件物聯(lián)網(wǎng)時(shí)代的交互智能平臺,在語音識別加上自然語言處理的基礎(chǔ)之上做架構(gòu)性的調(diào)整,去做后面交互反饋智能的實(shí)時(shí)。
自然語言交互的預(yù)期:交互與認(rèn)知
可以看一下,人類對交互反饋智能預(yù)期是什么,剛剛曾經(jīng)看過Siri,有人對這個(gè)Siri做了一個(gè)很有趣的視頻,Siri達(dá)不到我們的要求,Siri這種情況下怎么處理?(視頻)。
大家注意到很前一個(gè)視頻不大的最同不是什么,看著是一個(gè)笑話,最大的不同是這個(gè)機(jī)器介入到了人與人之間的交互,開始主動的做一些事,比如說想逃。
這樣一類涉及到單純的語音界面,解決不到交互認(rèn)知的問題,要同時(shí)解決記憶、推理、建議以及相應(yīng)的一些決策的問題。這個(gè)就是我們在人工智能和認(rèn)知計(jì)算上的角度上來說,去解決交互智能很關(guān)鍵的點(diǎn),思必馳是第一個(gè)把認(rèn)知智能層次的概念引入到國內(nèi)公司。
一、人工智能與認(rèn)知計(jì)算
簡單說一下,現(xiàn)在智能本身大概有這么幾個(gè)層面,計(jì)算,感知認(rèn)知到抽象思維,這幾個(gè)層面里面,感知的部分沒有強(qiáng)調(diào),實(shí)際上可以單獨(dú)講一次,我們今天主要強(qiáng)調(diào)認(rèn)知。
認(rèn)知本身有三層次,大部分人認(rèn)識到理解很重要,這是靜態(tài)認(rèn)知;所謂動態(tài)認(rèn)知是指給了一句話知道要反饋什么,叫做反饋控制;還有認(rèn)知進(jìn)化,想反饋的時(shí)候我的習(xí)慣是什么,這一類產(chǎn)生進(jìn)化,這是三個(gè)不同的層次。
我們看的比較具體的東西。到底交互和這個(gè)識別之間是什么關(guān)系,我們看一個(gè)關(guān)于糾正方面的錄像。(視頻)