從模式識(shí)別的相關(guān)定義上來(lái)說(shuō),GMM是一種參數(shù)化(Parameterized)的生成性模型(Generative Model),具備對(duì)實(shí)際數(shù)據(jù)極強(qiáng)的表征力;但反過(guò)來(lái),GMM規(guī)模越龐大,表征力越強(qiáng),其負(fù)面效應(yīng)也會(huì)越明顯:參數(shù)規(guī)模也會(huì)等比例的膨脹,需要更多的數(shù)據(jù)來(lái)驅(qū)動(dòng)GMM的參數(shù)訓(xùn)練才能得到一個(gè)更加通用(或稱泛化)的GMM模型。
假設(shè)對(duì)維度為50的聲學(xué)特征進(jìn)行建模,GMM包含1024個(gè)高斯分量,并簡(jiǎn)化多維高斯的協(xié)方差為對(duì)角矩陣,則一個(gè)GMM待估參數(shù)總量為1024(高斯分量的總權(quán)重?cái)?shù))+1024×50(高斯分量的總均值數(shù))+1024×50(高斯分量的總方差數(shù))=103424,超過(guò)10萬(wàn)個(gè)參數(shù)需要估計(jì)(搞深度學(xué)習(xí)的同學(xué)你們中箭了嗎?)!
這種規(guī)模的變量別說(shuō)目標(biāo)用戶幾分鐘的訓(xùn)練數(shù)據(jù),就算是將目標(biāo)用戶的訓(xùn)練數(shù)據(jù)量增大到幾個(gè)小時(shí),都遠(yuǎn)遠(yuǎn)無(wú)法滿足GMM的充分訓(xùn)練要求,而數(shù)據(jù)量的稀缺又容易讓GMM陷入到一個(gè)過(guò)擬合(Over-fitting)的陷阱中,導(dǎo)致泛化能力急劇衰退。因此,盡管一開(kāi)始GMM在小規(guī)模的文本無(wú)關(guān)數(shù)據(jù)集合上表現(xiàn)出了超越傳統(tǒng)技術(shù)框架的性能,但它卻遠(yuǎn)遠(yuǎn)無(wú)法滿足實(shí)際場(chǎng)景下的需求(畢竟95年的技術(shù)了...)。
時(shí)間來(lái)到了2000年前后,仍然是DA Reynolds的團(tuán)隊(duì),提出了一種改進(jìn)的方案:既然沒(méi)法從目標(biāo)用戶那里收集到足夠的語(yǔ)音,那就換一種思路,可以從其他地方收集到大量非目標(biāo)用戶的聲音,積少成多,我們將這些非目標(biāo)用戶數(shù)據(jù)(聲紋識(shí)別領(lǐng)域稱為背景數(shù)據(jù))混合起來(lái)充分訓(xùn)練出一個(gè)GMM,這個(gè)GMM可以看作是對(duì)語(yǔ)音的表征,但是又由于它是從大量身份的混雜數(shù)據(jù)中訓(xùn)練而成,它又不具備表征具體身份的能力。
那它有什么用呢?
學(xué)術(shù)圈的人就會(huì)告訴你:從貝葉斯框架的角度上來(lái)說(shuō),這個(gè)四不像GMM可以看作是某一個(gè)具體說(shuō)話人模型的先驗(yàn)?zāi)P?。形象的比方就是說(shuō)你準(zhǔn)備去相親,媒人給你看了小莉的照片,你耳邊浮現(xiàn)的肯定是小莉各種可能的溫柔的聲音,而不是你家旺財(cái)?shù)慕新暋?/p>
這個(gè)混合GMM就是起到了類似的作用,它對(duì)語(yǔ)音特征在空間分布的概率模型給出了一個(gè)良好的預(yù)先估計(jì),我們不必再像過(guò)去那樣從頭開(kāi)始計(jì)算GMM的參數(shù)(GMM的參數(shù)估計(jì)是一種稱為EM的迭代式估計(jì)算法),只需要基于目標(biāo)用戶的數(shù)據(jù)在這個(gè)混合GMM上進(jìn)行參數(shù)的微調(diào)即可實(shí)現(xiàn)目標(biāo)用戶參數(shù)的估計(jì),這個(gè)混合GMM也有一個(gè)很洋氣的名字,叫通用背景模型(Universal Background Model,UBM)。
UBM的一個(gè)重要的優(yōu)勢(shì)在于它是通過(guò)最大后驗(yàn)估計(jì)(Maximum A Posterior,MAP)的算法對(duì)模型參數(shù)進(jìn)行估計(jì),避免了過(guò)擬合的發(fā)生。MAP算法的另外一個(gè)優(yōu)勢(shì)是我們不必再去調(diào)整目標(biāo)用戶GMM的所有參數(shù)(權(quán)重,均值,方差)只需要對(duì)各個(gè)高斯成分的均值參數(shù)進(jìn)行估計(jì),就能實(shí)現(xiàn)最好的識(shí)別性能。 這下子待估的參數(shù)一下子減少了一半還多(103424 -> 51200),越少的參數(shù)也意味著更快的收斂,不需要那么多的目標(biāo)用戶數(shù)據(jù)即可模型的良好訓(xùn)練。(八卦時(shí)間:據(jù)說(shuō)Douglas A. Reynolds正是因?yàn)樘岢隽薌MM-UBM的框架而當(dāng)選了IEEE的Fellow,如果有誤請(qǐng)忽略)

圖10:基于UBM的MAP用戶模型訓(xùn)練算法
但GMM-UBM框架夠好了嗎?并沒(méi)有 (咳咳,2000年前后…),至少有兩個(gè)問(wèn)題GMM-UBM框架仍然沒(méi)法解決:
待估的參數(shù)仍然還是太多了。在NIST SRE的標(biāo)準(zhǔn)測(cè)試中,一個(gè)目標(biāo)用戶的可用語(yǔ)音約在5min左右,去掉靜音段和停頓,大約只能保留1分半到2分半左右的有效長(zhǎng)度,看起來(lái)已經(jīng)挺短了,但是你能想象在在實(shí)際產(chǎn)品中一個(gè)用戶對(duì)著手機(jī)連續(xù)讀五分鐘進(jìn)行注冊(cè)嗎?absolutely no!這個(gè)長(zhǎng)度的有效語(yǔ)音對(duì)于一個(gè)1024個(gè)高斯分量組成的GMM模型來(lái)說(shuō)還是太短了,MAP算法只能對(duì)其中一部分落在某些高斯分量上的特征進(jìn)行相應(yīng)的高斯分量進(jìn)行參數(shù)優(yōu)化,而另外相當(dāng)一部分得不到觀測(cè)數(shù)據(jù)的高斯分量怎么辦?那就只能老老實(shí)實(shí)待在原地不動(dòng)了。這就造成了目標(biāo)用戶GMM某些區(qū)域具備良好的目標(biāo)用戶身份表達(dá)能力,而另外一些GMM區(qū)域則基本和UBM的參數(shù)相同,這無(wú)疑降低了文本無(wú)關(guān)識(shí)別應(yīng)用中模型的表達(dá)能力;
GMM-UBM缺乏對(duì)應(yīng)于信道多變性的補(bǔ)償能力,直白點(diǎn)說(shuō)就是它不抗干擾,你拿愛(ài)瘋手機(jī)在云端注冊(cè)模型,換個(gè)小米手機(jī)拿來(lái)做識(shí)別,不通過(guò)!這下真的發(fā)燒了。但了不起的科學(xué)家們總有改進(jìn)的辦法,WM Campbell將支持向量機(jī)(Support Vector Machine,SVM)引入了GMM-UBM的建模中,通過(guò)將GMM每個(gè)高斯分量的均值單獨(dú)拎出來(lái),構(gòu)建一個(gè)高斯超向量(Gaussian Super Vector,GSV)作為SVM的樣本,利用SVM核函數(shù)的強(qiáng)大非線性分類能力,在原始GMM-UBM的基礎(chǔ)上大幅提升了識(shí)別的性能,同時(shí)基于GSV的一些規(guī)整算法,例如擾動(dòng)屬性投影(Nuisance Attribute Projection, NAP),類內(nèi)方差規(guī)整(Within Class Covariance Normalization,WCCN)等,都在一定程度上補(bǔ)償了由于信道易變形對(duì)聲紋建模帶來(lái)的影響,這里也不多過(guò)多展開(kāi),有興趣的讀者們也可以查閱相關(guān)文獻(xiàn)或與我們一起討論。