国产真实愉拍系列在线视频,免费无码又爽又刺激高潮的视频国产,国产精品xvideos

　　而對(duì)于人機(jī)之間的交互，由于涉及到遠(yuǎn)場(chǎng)，環(huán)境比較復(fù)雜，而且無(wú)屏交互，如果要像人與人之間的交流一樣自然、持續(xù)、雙向、可打斷，整個(gè)交互過(guò)程需要解決的問(wèn)題更多，AIUI為完成類人的語(yǔ)音交互，是一個(gè)需要軟硬件一體、云+端相互配合的過(guò)程。

　　我們來(lái)看下交互的整個(gè)流程，從大的方面來(lái)說(shuō)，還是以語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成為主線，只不過(guò)每個(gè)過(guò)程需要解決更多的問(wèn)題。

　　首先來(lái)看下語(yǔ)音喚醒，喚醒是人機(jī)交互的主要觸發(fā)方式，就像你要和一個(gè)人說(shuō)話，就得首先喊一下這個(gè)人的名字，才能開(kāi)始進(jìn)行交流。而在交流的過(guò)程中，如果有其他人喊你呢，你也是需要響應(yīng)的，需要支持持續(xù)喚醒。

　　機(jī)器被喚醒后，就需要知道說(shuō)話人的方位，這樣機(jī)器才可以做出更友好的響應(yīng)，比如轉(zhuǎn)身，移動(dòng)等。只有明確說(shuō)話人的方位后，才可以定向的拾音，做降噪處理，同時(shí)對(duì)說(shuō)話人進(jìn)行語(yǔ)音增強(qiáng)。這個(gè) 聲源定位和語(yǔ)音增強(qiáng) 主要是用麥克風(fēng)陣列的相關(guān)技術(shù)，下面會(huì)有詳細(xì)解釋。

　　在語(yǔ)音識(shí)別這個(gè)重要模塊中，首先要解決的就是遠(yuǎn)場(chǎng)識(shí)別，通過(guò)上面提到的麥克風(fēng)陣列和聲源定位，可以較好的實(shí)現(xiàn)遠(yuǎn)距離拾音，解決噪聲、混響、回聲帶來(lái)的影響。作為全雙工交互，持續(xù)的音頻流拾取，就要解決人聲檢測(cè)和斷句問(wèn)題，機(jī)器需要能夠過(guò)濾無(wú)效語(yǔ)音，做出快速的反饋和響應(yīng)。

　　人聲和端點(diǎn)的檢測(cè)不能只依賴于能量檢測(cè)的技術(shù)方案，需要解決更為復(fù)雜的環(huán)境，具體怎么解決呢，下面再展開(kāi)。

　　對(duì)于識(shí)別來(lái)說(shuō)，首先要保障的是遠(yuǎn)場(chǎng)環(huán)境下的識(shí)別率，除了前面提到的麥克風(fēng)陣列解決了前端聲學(xué)的問(wèn)題，還要有專門(mén)針對(duì)遠(yuǎn)場(chǎng)環(huán)境下，基于大量數(shù)據(jù)訓(xùn)練的聲學(xué)模型，這樣才能保證識(shí)別率滿足交互需求。

　　除了云端的語(yǔ)音識(shí)別，端上的識(shí)別也是需要做的，需要云+端方式進(jìn)行結(jié)合，這樣才能滿足復(fù)雜網(wǎng)絡(luò)下的使用場(chǎng)景。不過(guò)端上主要是去做一些命令式交互，響應(yīng)一些本地操作。比如關(guān)機(jī)、打電話、動(dòng)作指令等。

　　本地不做成無(wú)限制的響應(yīng)呢，因?yàn)閷?duì)于很多的用戶意圖來(lái)說(shuō)，是需要基于網(wǎng)絡(luò)去獲取內(nèi)容的，所以本地只做輔助使用，是為了解決一些復(fù)雜網(wǎng)絡(luò)環(huán)境所做的手段。這個(gè)地方的難點(diǎn)是需要做好云和端的PK策略，需要基于置信度、響應(yīng)時(shí)間等信息來(lái)綜合決策。作為持續(xù)的語(yǔ)音交互，不可避免要吸收很多無(wú)效的語(yǔ)音，拒識(shí)成為必須，否則會(huì)造成對(duì)話的混亂和無(wú)意義的響應(yīng)。

　　對(duì)于支持多輪的交互理解，語(yǔ)義引擎不再是無(wú)狀態(tài)的，系統(tǒng)更加復(fù)雜，需要有對(duì)話管理、歷史信息存儲(chǔ)等模塊。語(yǔ)義理解不只包含用戶說(shuō)話意圖，還要包括內(nèi)容的獲取，這樣才能在接下來(lái)的端點(diǎn)檢測(cè)、語(yǔ)音識(shí)別等交互過(guò)程中，共享信息，做到場(chǎng)景自適應(yīng)，以提高準(zhǔn)確率。

　　完成語(yǔ)音識(shí)別和語(yǔ)義的理解后，機(jī)器需要通過(guò)語(yǔ)音合成，把信息傳遞給用戶。合成這一塊沒(méi)有太多需要展開(kāi)的，訊飛提供了幾十種不同的發(fā)音人，而且支持不同情感進(jìn)行朗讀，至于該以何種情境、情感進(jìn)行播報(bào)，這是在語(yǔ)義理解中需要給出的信息。相比傳統(tǒng)的交互，現(xiàn)在的流程會(huì)看起來(lái)復(fù)雜很多。

　　功能：遠(yuǎn)場(chǎng)識(shí)別、全雙工、多輪交互

　　遠(yuǎn)場(chǎng)識(shí)別

　　遠(yuǎn)場(chǎng)識(shí)別，需要前后端結(jié)合去完成，一方面在前端使用麥克風(fēng)陣列硬件，通過(guò)聲源定位及自適應(yīng)波束形成做語(yǔ)音增強(qiáng)。在前端完成遠(yuǎn)場(chǎng)拾音，并解決噪聲、混響、回聲等帶來(lái)的影響。

　　不過(guò)這還不夠，因近場(chǎng)、遠(yuǎn)場(chǎng)的語(yǔ)音信號(hào)，在聲學(xué)上有一定的規(guī)律差異，所以在后端的語(yǔ)音識(shí)別上，還需要結(jié)合基于大數(shù)據(jù)訓(xùn)練、針對(duì)遠(yuǎn)場(chǎng)環(huán)境的聲學(xué)模型，這樣才能較好解決識(shí)別率的問(wèn)題。

　　全雙工

　　全雙工交互，是一個(gè)全鏈路的貫穿過(guò)程，不只是持續(xù)的拾音和網(wǎng)絡(luò)傳輸，更需要包括持續(xù)的語(yǔ)音喚醒、智能有效人聲檢測(cè)、動(dòng)態(tài)語(yǔ)音端點(diǎn)檢測(cè)、無(wú)效語(yǔ)音拒識(shí)等各個(gè)模塊相互配合，才能完成。

2/5 首頁(yè) 上一頁(yè) 1 2 3 4 5 下一頁(yè) 尾頁(yè)

語(yǔ)音識(shí)別的痛點(diǎn)在哪，從交互到精準(zhǔn)識(shí)別如何做

語(yǔ)音識(shí)別的痛點(diǎn)在哪，從交互到精準(zhǔn)識(shí)別如何做