在過去的20年中,學界研究的重點大部分放在了更具挑戰(zhàn)性的文本無關識別上(科學家の精神…),所取得的突破也都是圍繞著文本無關的識別展開。美國國家標準技術局(National Institute of Standard and Technology,NIST)從90年代開始都會不定期地舉辦聲紋識別評測競賽(Speaker Recognition Evaluation, NIST SRE)[1],也是針對文本無關的識別進行評測,吸引了學術界和工業(yè)界的諸多重量級團隊參與。
2014年,在語音界的學術盛會interspeech上,新加坡的I2R實驗室發(fā)布了一套用于評測文本相關識別的標準數(shù)據(jù)集RSR 2015,涵蓋了文本相關領域的多個應用場景[2]。自此,文本相關識別的研究熱度開始漸漸提升,而近幾年大熱的“深度學習”也是最先在文本相關識別上取得了比較大的突破 [3]。這里不再過多展開,有興趣的讀者可以參考各大學術數(shù)據(jù)庫的資源,或者和我們團隊進行交流。
而從識別的場景上考慮的話,聲紋識別又可以分為說話人辨識(Speaker Identification,SI)和說話人確認(Speaker Verification,SV)兩個不同的應用場景:SI指的是我們有了一段待測的語音,需要將這段語音與我們已知的一個集合內的一干說話人進行比對,選取最匹配的那個說話人。
這方面的應用案例是刑偵比對,暗中收集到的一段嫌疑人(身份未知)的聲音,需要與數(shù)個可能的嫌疑人身份進行比對,選取最相似的那一個,則我們就可以認為收集到的這段語音在很大程度上就是來自于鎖定的這個嫌疑人,SI是一個1對多的判別問題;而SV指的是我們只有一個目標身份,對于一段未知的語音,我們只需要判斷這段語音是否來源于這個目標用戶即可,SV本質上是一1對1的二分類問題。這方面典型的應用是手機端的聲紋鎖或聲紋驗證工具,對于一段驗證語音,系統(tǒng)只需要回答“通過”或者“拒絕”即可。而SI可以間接分解為多個SV的問題,因此對于聲紋識別系統(tǒng)性能的評測多是以SV的方式進行。
2. 動中取靜-從離散信號到特征
前面提到了,聲紋之所以能被識別,是因為每個人的口腔、鼻腔與聲道結構都存在唯一的差異性,但這種差異性既看不到又摸不著,更要命的是,它是一個時刻都在運動著的器官構造。我們只能通過錄音設備采集到的離散語音信號,間接去分析發(fā)聲器官的差異性。
既然語音一直在變,那我們該如何去對語音進行分析呢?答案是:語音具備了一個良好的性質,稱為短時平穩(wěn),在一個20-50毫秒的范圍內,語音近似可以看作是良好的周期信號。

圖5:圖1中話者A“四”的發(fā)聲中截取出的30毫秒長度的信號。
這種良好的平穩(wěn)性為我們針對語音進行信號處理層面的分析提供了極大的便利。讀者都應該還記得,在音調,響度和音色這三個聲音(注意,這里我用了聲音,而不是語音)的基本屬性中,音色是最能反映一個人身份信息的屬性(講道理,老婆對你吼的時候,響度和音調都可以極速飆升,但老婆的音色是不大會發(fā)生劇烈變化的)。
而音色上的差異在信號處理的層面可以表示為在頻域不同頻段能量的差異,因此我們通過抽取不同頻段上的能量值,即可以表示在這個短時語音范圍內頻譜的性質。通常我們會綜合考慮人耳的聽覺屬性(人耳的一個聽覺屬性是在可聽到的頻段內,對于低頻的變化更加敏感,而對于高頻相對弱一些)、均衡不同頻段的能量差異(對于一段8KHz采樣的音頻,盡管語音會分布于0-4KHz的范圍內,但能量更多的集中在相對比較低頻的區(qū)域)、噪聲魯棒性(我們希望特征只對語音的變化敏感,而對其他噪聲等無關信息不變)以及后續(xù)的計算便利(系數(shù)之間盡可能要去除相關性)設計合適的短時聲學特征,通過一系列復雜的信號處理層面的變換,一段20-50毫秒長度的語音(以8KHz采樣為例,這個長度的語音對應著160-400個采樣點)可以映射為一段39-60維的向量。為了充分保留語音中的原始信息,同時不增加計算的負擔,通常會以15-20毫秒為間隔依次取短時段語音,然后提取特征。

圖6:短時聲學特征的提取
在聲紋識別,包括語音識別領域,傳統(tǒng)的聲學特征包括梅爾倒譜系數(shù)MFCC、感知線性預測系數(shù)PLP、近幾年的逐漸受到關注的深度特征Deep Feature [4]、以及15年公開發(fā)表的能量規(guī)整譜系數(shù)PNCC [5]等,都能作為聲紋識別在特征提取層面可選且表現(xiàn)良好的聲學特征。