90%的人甚至更多,在我第一次放這個(gè)錄像,第一個(gè)反應(yīng)就是這機(jī)器方言識(shí)別不好,真的是這樣嗎?如果各位在你們的手機(jī)里面,沒(méi)有發(fā)現(xiàn)識(shí)別率是百分之百軟件的話(huà),我說(shuō)這么一句話(huà),山東話(huà)識(shí)別率到90%以上你們會(huì)覺(jué)得什么樣?一定會(huì)覺(jué)得不錯(cuò)。如果識(shí)別到90%錯(cuò)一個(gè)數(shù)字。
問(wèn)題的關(guān)鍵難點(diǎn)不在于本身,不在于百分之百的識(shí)別率,而在于容錯(cuò)與糾正。左邊這個(gè)例子是說(shuō)到蘇州后在九寨溝吃飯,這話(huà)理解有非常多不確定性,只有在你有上下文的情況下,你知道我在什么條件下說(shuō)這個(gè)事,才能更加準(zhǔn)確的理解。
類(lèi)似剛才說(shuō)135的時(shí)候,如果上海跟大家說(shuō)三個(gè)字這么大一個(gè)舞臺(tái),沒(méi)有人知道。我現(xiàn)在說(shuō)135你一定知道,所以這樣一類(lèi)理解上的錯(cuò)誤。除了容錯(cuò)還得能推理,到底糾正哪一段,需要后面的智能,重要的是這哥們是一個(gè)真實(shí)的用戶(hù),他不是一個(gè)工程師。所以不按常理出牌,老打段這個(gè)機(jī)器,人被打段好辦,機(jī)器被打斷全都亂套。
二、認(rèn)知性自然口語(yǔ)交互
這樣一個(gè)事情,理解、推理問(wèn)題的處理和單純的語(yǔ)音識(shí)別其實(shí)是互補(bǔ)。而這個(gè)就是我們所說(shuō),要做認(rèn)知性的自然口語(yǔ)交互,它和普通的框架有什么不一樣呢?

各位看到了紅色的部分是原始的框架,白色的部分是認(rèn)知性的框架,最大的特點(diǎn)就是加入對(duì)話(huà)管理和環(huán)境感知,使得對(duì)語(yǔ)音識(shí)別錯(cuò)誤更加的容忍,實(shí)在容忍不了的部分,通過(guò)交互去糾正過(guò)來(lái),在這個(gè)里面不認(rèn)為語(yǔ)音識(shí)別精確,認(rèn)為語(yǔ)音是是高效的管道而已,這些不確定性在情節(jié)理解中被消除掉的。
各位可以看到,這是加入了對(duì)話(huà)環(huán)境以后,可以去處理這樣的問(wèn)題。當(dāng)然這只是一個(gè)局限撥號(hào)領(lǐng)域,相關(guān)的東西已經(jīng)在車(chē)載一些產(chǎn)品當(dāng)中應(yīng)用的還在不斷的拓展相關(guān)的領(lǐng)域。
給大家這個(gè)概念,從交互平臺(tái)上講,不單單有感知,還要有認(rèn)知,這個(gè)就是所謂自然語(yǔ)言認(rèn)知交互的未來(lái),把理解和決策表述這樣認(rèn)知技術(shù),與前端非常強(qiáng)大的識(shí)別和非常好的合成技術(shù)結(jié)合在一起,在以后認(rèn)知還會(huì)向后邊擴(kuò)展,會(huì)進(jìn)行更多的搜索和數(shù)據(jù)處理,實(shí)現(xiàn)知識(shí)意義上更加自由的交互。
所以我們?cè)谥悄苡布r(shí)代,今天核心講的是認(rèn)知智能當(dāng)中的理解和對(duì)話(huà)控制,以及打斷搶話(huà)這樣一類(lèi)的技術(shù),真正涉及到的技術(shù),其實(shí)還包括了感知中的噪聲處理技術(shù)、遠(yuǎn)場(chǎng)技術(shù)、提示糾正推理的技術(shù),這些感知認(rèn)知抽象思維技術(shù)合在一起,就成為智能硬件物聯(lián)網(wǎng)時(shí)代的工智能綜合技術(shù)。