
圖10:常見人臉識別場景類型
互聯(lián)網(wǎng)上有海量的人臉照片,通過搜索引擎優(yōu)圖也積累了海量帶身份標(biāo)注的互聯(lián)網(wǎng)人臉數(shù)據(jù)。這部分?jǐn)?shù)據(jù)無論從人數(shù),圖像數(shù)、數(shù)據(jù)多樣性上都是最好的,為優(yōu)圖人臉識別技術(shù)的研發(fā)提供了基礎(chǔ)條件。隨著人臉識別技術(shù)的日漸成熟,實(shí)際業(yè)務(wù)中涌現(xiàn)出大量新場景下的應(yīng)用需求,例如微眾銀行的核身業(yè)務(wù),會議簽到業(yè)務(wù)都涉及證件照和手機(jī)自拍照的比對,公安的監(jiān)控需要視頻監(jiān)控?cái)?shù)據(jù)與證件照的比對。不同場景下獲取的人臉圖像存在巨大差異,如何對人臉識別模型進(jìn)行快速調(diào)整,在各個不同場景下快速落地就成為一個非常具有挑戰(zhàn)性的問題。
為了在日趨白熱化的市場競爭中占得先機(jī),優(yōu)圖在三年深耕人臉識別和深度學(xué)習(xí)的基礎(chǔ)上建立了自己在場景遷移與適應(yīng)上的一整套方法論。這個方法論可以用一句話來概括:祖母模型的「進(jìn)化」。這句話有兩個關(guān)鍵點(diǎn)。首先我們需要建立適用于一般場景的、功能強(qiáng)大的人臉識別模型,也就是祖母模型。其次祖母模型通過「進(jìn)化」來適應(yīng)新場景下的人臉識別。
建立祖母模型家族
祖母模型并不特指一個深度神經(jīng)網(wǎng)絡(luò)模型,而是具有某種結(jié)構(gòu)特點(diǎn)的一類神經(jīng)網(wǎng)絡(luò)模型,因此更為合適的叫法應(yīng)該是祖母模型族。不同業(yè)務(wù)場景下的應(yīng)用,用戶對人臉識別的速度和精度可能有不一樣的需求。祖母模型族必須像一個兵器庫,既包含能夠快速發(fā)射的機(jī)關(guān)槍也需要?dú)?qiáng)大冷卻時間長的原子彈。

圖11:深度神經(jīng)網(wǎng)絡(luò)局部結(jié)構(gòu)分類
目前最為流行的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)大致可以歸為三類:1.直線型(如AlexNet,VGGNet);2.局部雙分支型(ResNet);3.局部多分支型(GoogleNet)。其中直線型網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)最為簡單,但是當(dāng)網(wǎng)絡(luò)深度超過 20 后這種結(jié)構(gòu)的網(wǎng)絡(luò)將變的難以優(yōu)化。局部多分支型網(wǎng)絡(luò)模型能力強(qiáng),計(jì)算效率更高,但是設(shè)計(jì)也最為復(fù)雜。在建立祖母模型家族的初期,我們選擇了模型能力相對較強(qiáng)設(shè)計(jì)又相對簡單的局部雙分支型網(wǎng)絡(luò) ResNet 來構(gòu)建優(yōu)圖人臉識別的祖母模型族。一方面 ResNet 本身具有強(qiáng)大的學(xué)習(xí)能力,是去年深度學(xué)習(xí)領(lǐng)域最新的研究進(jìn)展。MSRA 憑借一個 152 層的 ResNet 深度網(wǎng)絡(luò)摘取了圖像識別領(lǐng)域最具影響力的 ImageNet2015 競賽多個單項(xiàng)的第一名。另一方面 ResNet 設(shè)計(jì)相對簡單,一個最大的特點(diǎn)就是識別能力基本與神經(jīng)網(wǎng)絡(luò)深度成正比。神經(jīng)網(wǎng)絡(luò)的深度又與計(jì)算復(fù)雜度直接相關(guān),這就為訓(xùn)練不同識別精度與運(yùn)行速度的多個模型從而建立祖母模型族提供了極大的方便。當(dāng)選定了祖母模型的網(wǎng)絡(luò)結(jié)構(gòu)后,我們將其在數(shù)據(jù)量最大的互聯(lián)網(wǎng)生活照數(shù)據(jù)集上訓(xùn)練,以保證祖母模型的通用人臉識別能力,圖12所示。

圖12:優(yōu)圖人臉識別祖母模型
在基于局部雙分支模型族建立完成后,我們也開始嘗試使用更復(fù)雜的局部多分支組件來進(jìn)一步提高模型效率,豐富我們的祖母模型族。
祖母模型的「進(jìn)化」
遷移學(xué)習(xí)是近些年來在人工智能領(lǐng)域提出的處理不同場景下識別問題的主流方法。相比于淺時代的簡單方法,深度神經(jīng)網(wǎng)絡(luò)模型具備更加優(yōu)秀的遷移學(xué)習(xí)能力。并有一套簡單有效的遷移方法,概括來說就是在復(fù)雜任務(wù)上進(jìn)行基礎(chǔ)模型的預(yù)訓(xùn)練(pre-train),在特定任務(wù)上對模型進(jìn)行精細(xì)化調(diào)整(fine-tune)。套用在人臉識別問題上,只需要將訓(xùn)練好的優(yōu)圖祖母模型在新場景的新數(shù)據(jù)上進(jìn)行精細(xì)化調(diào)整。

圖13:優(yōu)圖祖母模型的進(jìn)化
這種傳統(tǒng)的遷移學(xué)習(xí)方法確實(shí)能幫助祖母模型更好的完成新場景下的人臉識別任務(wù)。但這只能算特異化,無法將遷移學(xué)習(xí)中學(xué)到的新信息反饋給祖母模型。遷移之后的特異化模型只能應(yīng)用在特定場景,在原集合上的性能甚至可能會大幅下降。在沒有深度學(xué)習(xí)的「淺」時代,模型沒有同時處理多個場景的能力,這可能是最好的適應(yīng)新場景的方法。然而在實(shí)踐中我們發(fā)現(xiàn),由于深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大表達(dá)能力,完全可以在遷移學(xué)習(xí)過程中保持祖母模型的通用性能。采用增量學(xué)習(xí)的方式進(jìn)行新場景的適應(yīng),在完成新場景下識別的同時也能保持其他場景下的能力,從而得到通用性更好的優(yōu)圖祖母模型,即優(yōu)圖祖母模型的「進(jìn)化」。