
在識(shí)別性能上,我們以團(tuán)隊(duì)內(nèi)部真實(shí)環(huán)境下采集的數(shù)據(jù)作為測(cè)試樣例將數(shù)字i-vector與傳統(tǒng)的i-vector、和RSR 2015一起發(fā)布的HiLAM文本相關(guān)識(shí)別框架進(jìn)行了比較,包括了數(shù)萬規(guī)模的目標(biāo)樣本測(cè)試與數(shù)十萬規(guī)模的攻擊樣本測(cè)試,實(shí)現(xiàn)了等錯(cuò)誤概率(EER)小于1%,千分之一錯(cuò)誤率下的召回率大于95%的識(shí)別性能。我們自主研發(fā)的數(shù)字i-vector,性能要遠(yuǎn)好于現(xiàn)有的聲紋識(shí)別框架。
6. 且行且思-關(guān)于聲紋的展望與反思
盡管在適配i-vector與文本相關(guān)識(shí)別中,我們的嘗試與探索有了一些突破,但我們?nèi)匀恍枰吹铰暭y識(shí)別在應(yīng)用中的局限:動(dòng)態(tài)變化的發(fā)聲器官與聲音,它們的穩(wěn)定性依然還不及人臉與圖像。除非哪天中風(fēng)了,很難想像會(huì)有什么理由使得人臉識(shí)別失靈;但是感冒發(fā)燒則會(huì)改變我們的聲道結(jié)構(gòu),自己的聲音也會(huì)發(fā)生變化。
而聲紋的識(shí)別精度相較人臉與圖像還有比較明顯的差距。深度學(xué)習(xí)的浪潮中,聲紋的演進(jìn)似乎也還是不溫不火,而聲紋識(shí)別的“兄弟”語(yǔ)音識(shí)別早已乘著深度學(xué)習(xí)的航母向前馳騁,這其中的原因有聲紋固有的難點(diǎn),想啃下這塊硬骨頭,我們要做的事情還有很多。
而優(yōu)圖在聲紋的深度學(xué)習(xí)推進(jìn)中也從未停下腳步,除了隨機(jī)數(shù)字識(shí)別,在文本無關(guān)識(shí)別應(yīng)用中,我們自研的從基于DNN的說話人分類網(wǎng)絡(luò)中提取的深度特征(也稱為瓶頸特征(bottleneck feature)),輔助i-vector進(jìn)行分?jǐn)?shù)層面的融合也讓i-vector的識(shí)別性能在過去的基礎(chǔ)上跨進(jìn)了扎實(shí)的一步。在未來,優(yōu)圖團(tuán)隊(duì)有信心在人工智能的這股浪潮中激流勇進(jìn),貢獻(xiàn)出更多更好的產(chǎn)品,服務(wù)大眾,讓每個(gè)人都能感受到科技為生活帶來的便捷。
參考文獻(xiàn)
[1] http://www.itl.nist.gov/iad/mig/tests/spk/
[2] Larcher, Anthony, et al. "RSR2015: Database for Text-Dependent Speaker Verification using Multiple Pass-Phrases." INTERSPEECH. 2012.
[3] Fu Tianfan, et al. "Tandem deep features for text-dependent speaker verification." INTERSPEECH. 2014.
[4] Vasilakakis, Vasileios, Sandro Cumani, and Pietro Laface. "Speaker recognition by means of deep belief networks." (2013).
[5] Kenny, Patrick. "Joint factor analysis of speaker and session variability: Theory and algorithms." CRIM, Montreal,(Report) CRIM-06/08-13 (2005).
[6] Dehak, Najim, et al. "Front-end factor analysis for speaker verification." IEEE Transactions on Audio, Speech, and Language Processing 19.4 (2011): 788-798.
雷鋒網(wǎng)注:本文為騰訊優(yōu)圖授權(quán)雷鋒網(wǎng)發(fā)布,如需轉(zhuǎn)載請(qǐng)聯(lián)系授權(quán),并保留出處和作者,不得刪減內(nèi)容。