
圖2:基于幾何特征的人臉識(shí)別
這樣的樸素想法具有特征維數(shù)少的優(yōu)點(diǎn),所以不會(huì)遭遇維數(shù)災(zāi)難問(wèn)題。然而由于穩(wěn)定性差、區(qū)分能力弱和難以自動(dòng)化等原因,這種做法很早就被拋棄。研究人員們發(fā)現(xiàn),設(shè)計(jì)各種幾何特征,折騰大半天還不如直接比較像素區(qū)域的差別準(zhǔn)確,也就是所謂的模板匹配技術(shù)。然而,直接比對(duì)像素誤差有個(gè)很容易想到的缺點(diǎn),不同人臉區(qū)域?qū)^(qū)分人的身份的重要性并不一樣。事實(shí)上研究[2]表明眉毛和眼睛是區(qū)分人身份最重要的區(qū)域,其次是嘴巴,而大片臉頰區(qū)域所包含的身份信息是有限的。如圖 3 所示,人類最難鑒別身份的是去掉眉毛和眼睛的人臉。

圖3:不同區(qū)域?qū)θ四樧R(shí)別的重要性
為了解決這樣的問(wèn)題,很長(zhǎng)時(shí)間人臉識(shí)別都非常依賴于判別性特征的學(xué)習(xí),最有代表性的工作莫過(guò)于 fisherfaces[3],所謂判別性信息就是那種獨(dú)一無(wú)二特征,就好像圖 4 中所示,成龍的大鼻子,姚晨的大嘴,李勇的招牌馬臉,姚明的魔性笑容??偠灾?,只要能找到你獨(dú)特的「氣質(zhì)」就能更好的認(rèn)識(shí)你。

圖4:具有判別性的人臉
判別性特征的想法非常直觀有效也取得了一定成功,但是由于人臉的像素特征非常不穩(wěn)定,不同拍攝設(shè)備和拍攝場(chǎng)景、不同的光照條件和拍攝角度等都會(huì)造成相同人臉的像素差異巨大。想要在各種復(fù)雜影響因素下找到一張人臉?lè)€(wěn)定且獨(dú)特的特征就很難了。為了解決這些問(wèn)題,研究人員開(kāi)始研究比簡(jiǎn)單像素值更加穩(wěn)定的圖像描述子。其中比較主流的一種描述子 Gabor 描述子借鑒了人類大腦的視覺(jué)皮層中對(duì)視覺(jué)信息進(jìn)行預(yù)處理的過(guò)程。大腦皮層中對(duì)視覺(jué)信息加工處理的操作主要有兩種,一種是在簡(jiǎn)單細(xì)胞中進(jìn)行的線性操作,一種是在復(fù)雜細(xì)胞中進(jìn)行的非線性匯聚。如圖 5 所示的是 MIT 大腦和認(rèn)知科學(xué)學(xué)院人工智能實(shí)驗(yàn)室的主任 Poggio 教授提出的一個(gè)叫 HMAX[4] 的類腦視覺(jué)信息處理流程:

圖5: HMAX 圖像信息處理過(guò)程
這其中的簡(jiǎn)單單元「S1 units」和「S2 units」進(jìn)行了一種叫做 Gabor 小波濾波的操作。而復(fù)雜單元「C1 units」和「C2 units」進(jìn)行了一種叫做 Max Pooling 的取局部區(qū)域最大值的操作。事實(shí)上除卻直接使用事先設(shè)定的 Gabor 濾波器,HMAX 等價(jià)于一個(gè)四層的神經(jīng)網(wǎng)絡(luò),實(shí)際上已經(jīng)初步具備了現(xiàn)代深度模型的雛形。
在深度學(xué)習(xí)誕生前的「淺」時(shí)代,人臉識(shí)別研究人員不斷改進(jìn)預(yù)處理過(guò)程、使用更好的描述子,提取更有判別性的特征,這些都在慢慢的提高計(jì)算機(jī)識(shí)別人臉的能力。然而直到深度學(xué)習(xí)橫空出世前,「淺」時(shí)代的各種人臉識(shí)別方法,對(duì)人類本身所具有的人臉識(shí)別能力仍然望塵莫及。
擁抱——人臉識(shí)別的「深」時(shí)代
要賦予計(jì)算機(jī)完整的人臉識(shí)別能力,除了能認(rèn)識(shí)人外其實(shí)還有幾步非常重要的預(yù)處理過(guò)程。如圖 6 所示,完整的人臉自動(dòng)識(shí)別算法需要能自己從圖像里找到哪有人臉,學(xué)界稱之為人臉檢測(cè)?哪里是眼睛鼻子嘴,學(xué)界稱之為人臉特征點(diǎn)定位?最后才是提取前面說(shuō)到的具有判別性的特征進(jìn)行身份的識(shí)別,即狹義上的人臉識(shí)別。

圖6:完整的自動(dòng)人臉識(shí)別流程
在深度學(xué)習(xí)出現(xiàn)以前關(guān)于人臉檢測(cè)、特征點(diǎn)定位和人臉識(shí)別這三個(gè)子任務(wù)的研究都是相對(duì)獨(dú)立的展開(kāi)的。從上個(gè)世紀(jì) 90 年代開(kāi)始到 2010 年左右,經(jīng)過(guò)不斷的摸索,研究人員們對(duì)每個(gè)子任務(wù)都發(fā)現(xiàn)了一些比較有效的特征與方法的組合來(lái)解決問(wèn)題如圖 7 所示。然而由于研究人員需要根據(jù)每個(gè)子任務(wù)本身的特點(diǎn)設(shè)計(jì)不同的特征,選擇不同的機(jī)器學(xué)習(xí)方法,因此技術(shù)的發(fā)展相對(duì)緩慢。
從 2012 年左右,受深度學(xué)習(xí)在整個(gè)機(jī)器視覺(jué)領(lǐng)域迅猛發(fā)展的影響,人臉識(shí)別的「深」時(shí)代正式拉開(kāi)序幕。短短的四年時(shí)間里,基于深度卷積神經(jīng)網(wǎng)絡(luò)的方法不斷在這三個(gè)子任務(wù)中刷新人工智能算法的世界記錄。人臉識(shí)別「淺」時(shí)代讓人眼花繚亂的各種技術(shù)和方法仿佛一頁(yè)之間成為歷史。人臉識(shí)別研究人員,不需要在挖空心思的設(shè)計(jì)特征,也不需要擔(dān)心后面需要什么樣的學(xué)習(xí)算法。所有的經(jīng)驗(yàn)的積累過(guò)程轉(zhuǎn)換為了深度神經(jīng)網(wǎng)路算法自動(dòng)學(xué)習(xí)過(guò)程。這正式深度學(xué)習(xí)算法最大的優(yōu)點(diǎn):自動(dòng)學(xué)習(xí)對(duì)特定任務(wù)最有用的特征!