(上圖為歐拉蜜語音助手截圖)
例如,當(dāng)用戶連續(xù)輸入“今天上海的天氣”,“北京呢”,“買一張去那里的機(jī)票”。經(jīng)過算法處理以及數(shù)據(jù)庫檢索,歐拉蜜能夠結(jié)合上下文,準(zhǔn)確將“北京呢”理解為“北京今天的天氣如何”,并給出當(dāng)天北京的天氣狀況。
同樣的,歐拉蜜也能獲取最后一句中的“那里”指代的是“北京”,并為用戶反饋當(dāng)?shù)厝ケ本┑臋C(jī)票信息。
以視覺行為偵測(cè)技術(shù)為輔助的語音人機(jī)交互
如果人機(jī)交互可以更加“智能”,那么它應(yīng)該擁有哪些能力呢?歐拉蜜團(tuán)隊(duì)進(jìn)一步改進(jìn)了語音機(jī)器人的喚醒功能,使人機(jī)交互更加流暢。
市面上主流的智能音響,目前使用的都是語音喚醒。由于智能音響沒有屏幕,一切功能都是通過語音來操控,喚醒功能也不例外。往往會(huì)用一句喚醒話術(shù)(通常是產(chǎn)品的名稱)來作為啟動(dòng)標(biāo)志,當(dāng)人們對(duì)著智能音響說出這句話時(shí),智能音響就會(huì)進(jìn)行答復(fù)并開始接收你傳遞給它的信息。
你可能會(huì)說,語音喚醒已經(jīng)很方便了,難道還能有什么改進(jìn)余地嗎?
試想一下,日常生活中,當(dāng)我們想要對(duì)另一人說話時(shí)常常會(huì)面向他,這時(shí)候,不需要叫對(duì)方的名字,對(duì)方也知道我們正在與他對(duì)話。如果機(jī)器也能做到這樣,那么“語音喚醒”都可以省略掉了。
(歐拉蜜人臉與視線追蹤視頻截圖)
歐拉蜜正是想賦予語音機(jī)器人這樣“人性化”的功能。因此,歐拉蜜團(tuán)隊(duì)使用聲源定位并結(jié)合視線檢測(cè)(Eye Gaze Detection)技術(shù),來幫助機(jī)器人確認(rèn)用戶的說話對(duì)象。這樣一來,機(jī)器人們除了知道你在說話,還能夠判斷出你是否是在跟它說話,并自動(dòng)喚醒。