聲紋識(shí)別,也稱作說話人識(shí)別,是一種通過聲音判別說話人身份的技術(shù)。從直覺上來說,聲紋雖然不像人臉、指紋的個(gè)體差異那樣直觀可見,但由于每個(gè)人的聲道、口腔和鼻腔也具有個(gè)體的差異性,因此反映到聲音上也具有差異性。如果說將口腔看作聲音的發(fā)射器,那作為接收器的人耳生來也具備辨別聲音的能力。
http://www.leiphone.com/news/201609/BybmDzXINsFxyASK.html
最直觀的是當(dāng)我們打電話給家里的時(shí)候,通過一聲“喂?”就能準(zhǔn)確地分辨出接電話的是爸媽或是兄弟姐妹,這種語音中承載的說話人身份信息的唯一性使得聲紋也可以像人臉、指紋那樣作為生物信息識(shí)別技術(shù)的生力軍,輔助甚至替代傳統(tǒng)的數(shù)字符號(hào)密碼,在安防和個(gè)人信息加密的領(lǐng)域發(fā)揮重要的作用。本文意在和讀者一起分享聲紋識(shí)別中主流的技術(shù)以及優(yōu)圖實(shí)驗(yàn)室在聲紋識(shí)別的研發(fā)積累中取得的成果,希望能讓讀者對(duì)于聲紋識(shí)別這個(gè)糅合語音信號(hào)處理+模式識(shí)別,且理論研究與工程背景兼具的領(lǐng)域有一個(gè)基本又全面的認(rèn)識(shí)。
1. 撥云見日 – 聲紋的基礎(chǔ)“姿勢(shì)”
我們常常會(huì)用“花言巧語”來形容一個(gè)嘴皮子不靠譜的人,但其實(shí)這個(gè)成語用來形容語音信號(hào)也是十分貼切的。人臉、指紋都是基于圖像的二維信號(hào),而語音是一種時(shí)變的一維信號(hào),語音承載的首先是語意的信息,即我們說了什么內(nèi)容,在語意信息的背后才是身份信息的體現(xiàn)。我們講的話可以對(duì)應(yīng)到成百上千個(gè)字詞信息,但是這背后卻只對(duì)應(yīng)了一個(gè)不變的身份。

圖1. 說話人A對(duì)應(yīng)“四”的語音波形
圖2. 說話人B對(duì)應(yīng)“四”的語音波形

圖3. 說話人A對(duì)應(yīng)“九”的語音波形
如果上方的時(shí)域波形不夠直觀的話,那下方的短時(shí)語譜圖從二維圖像的角度能提供更多的直觀信息。似乎圖1和圖2的相似度更高一些,圖3因?yàn)閷?duì)應(yīng)了不同的語意,因此和圖1,2差別更明顯,但實(shí)際上圖1和圖3來自于同一個(gè)說話人,按照需求,1和3應(yīng)該被分在同一類別! 似乎有點(diǎn)難,那我們干脆不要比較九了,只比較四好了…
因此,從語音字典是否受限的角度上來區(qū)分,聲紋識(shí)別可以文本無關(guān)識(shí)別與文本相關(guān)識(shí)別。文本無關(guān),顧名思義就是說系統(tǒng)對(duì)于輸入的語音的內(nèi)容并不做限制,識(shí)別系統(tǒng)應(yīng)當(dāng)可以克服語音中字典信息(亦或語意信息)的多變性和差異性,對(duì)語音背后的身份做出準(zhǔn)確判斷;而文本相關(guān)識(shí)別,意思是我們預(yù)先會(huì)限制語音的字典集合的規(guī)模。
再往細(xì)了區(qū)分又有兩種常用的應(yīng)用場(chǎng)景: 一種是固定口令 ,用戶必須要說“天王蓋地虎”,系統(tǒng)才會(huì)去識(shí)別聲紋,你說“寶塔鎮(zhèn)河妖”,對(duì)不起,不管你是誰,一概不行;另一種是有限搭配的字典集合 ,系統(tǒng)會(huì)隨機(jī)搭配一些數(shù)字或符號(hào),用戶需正確念出對(duì)應(yīng)的內(nèi)容才可識(shí)別聲紋,這種隨機(jī)性的引入使得文本相關(guān)識(shí)別中每一次采集到的聲紋都有內(nèi)容時(shí)序上的差異。
相較于指紋和人臉等靜態(tài)的圖像特征,這種數(shù)序的隨機(jī)性無疑提升了安全性和防盜取能力。優(yōu)圖實(shí)驗(yàn)室自研的隨機(jī)數(shù)字聲紋識(shí)別方案已經(jīng)應(yīng)用于線上系統(tǒng)中,通過自主研發(fā)的人臉識(shí)別、活體檢測(cè)、語音+聲紋的多重驗(yàn)證手段,在最大程度上保障了用戶的安全,杜絕了仿冒、竊取或復(fù)制用戶自身生物信息的可能性.

圖4:優(yōu)圖人臉核身示意圖
文本相關(guān)識(shí)別因?yàn)橄拗屏丝蛇x的字典信息,因此在系統(tǒng)復(fù)雜度和識(shí)別準(zhǔn)確率上都要遠(yuǎn)好于文本無關(guān)的系統(tǒng),只要采集相對(duì)比較短的一段語音即可實(shí)現(xiàn)聲紋的識(shí)別;但文本無關(guān)的識(shí)別系統(tǒng)在某些領(lǐng)域也會(huì)有重要的作用,例如刑偵比對(duì),我們可以采集到嫌疑人的一段聲音,但是沒法對(duì)聲音對(duì)應(yīng)的內(nèi)容做限制,這時(shí)候文本無關(guān)識(shí)別就會(huì)派上重要的用場(chǎng)。