人臉識(shí)別是公認(rèn)的模式識(shí)別難題,在過(guò)去幾十年間,世界頂尖科研機(jī)構(gòu)和科研人員一直在為計(jì)算機(jī)全自動(dòng)人臉識(shí)別而努力。最近幾年,隨著理論發(fā)展和硬件計(jì)算能力的指數(shù)增長(zhǎng),人臉識(shí)別迎來(lái)了一次研究熱潮。微軟亞洲研究院、Facebook、Face++、香港中文大學(xué),在LFW(業(yè)內(nèi)用于評(píng)估非受限環(huán)境下人臉識(shí)別技術(shù)的權(quán)威數(shù)據(jù)庫(kù))上都得到了接近乃至超過(guò)人類(lèi)識(shí)別水平的結(jié)果,在公眾一片驚呼聲中,人臉識(shí)別的謎題,是不是被徹底解決了?
優(yōu)圖團(tuán)隊(duì)是來(lái)自騰訊的專(zhuān)業(yè)圖像團(tuán)隊(duì),也在直面這個(gè)問(wèn)題并形成了自己的獨(dú)特思考:人臉識(shí)別技術(shù)當(dāng)前遠(yuǎn)沒(méi)有達(dá)到放諸四海皆準(zhǔn)的水準(zhǔn),特定場(chǎng)景的實(shí)際應(yīng)用遠(yuǎn)比通用性指標(biāo)評(píng)測(cè)更為重要。
優(yōu)圖項(xiàng)目組建于2012年下半年,致力于為騰訊業(yè)務(wù)提供圖像領(lǐng)域最專(zhuān)業(yè)的技術(shù)。至今已有五十項(xiàng)以上公司業(yè)務(wù)接入優(yōu)圖服務(wù),日處理圖片數(shù)過(guò)2億。優(yōu)圖團(tuán)隊(duì)累積獲公司微創(chuàng)新獎(jiǎng)數(shù)十次,并在2013年憑借優(yōu)圖服務(wù)獲得了公司重大技術(shù)突破獎(jiǎng)。在人臉識(shí)別技術(shù)領(lǐng)域,優(yōu)圖在兩年不到的時(shí)間,逐步解決了人臉檢測(cè)、人臉配準(zhǔn)、人臉特征表示等關(guān)鍵問(wèn)題,目前已經(jīng)深入到人臉識(shí)別的核心:賦予計(jì)算機(jī)與人類(lèi)相當(dāng)?shù)淖詣?dòng)驗(yàn)證人臉身份的能力。針對(duì)人臉識(shí)別技術(shù),優(yōu)圖團(tuán)隊(duì)有著自己的獨(dú)特理解。
實(shí)際場(chǎng)景應(yīng)用更重要。優(yōu)圖認(rèn)為,近期在LFW上獲得超過(guò)人類(lèi)的結(jié)果并不足以說(shuō)明技術(shù)的真正實(shí)用化。雖然LFW提供了絕佳的人臉?biāo)惴▽W(xué)術(shù)評(píng)估平臺(tái),但其規(guī)模、場(chǎng)景、人群分布仍然無(wú)法代表真實(shí)的應(yīng)用環(huán)境。Face++在其CVPR 2014年的論文中特別指出,在LFW的成功并不代表問(wèn)題的終結(jié),在規(guī)模更為龐大的互聯(lián)網(wǎng)環(huán)境中,控制錯(cuò)誤率0.1%時(shí),命中率僅為44%。學(xué)術(shù)界大量研究表明:在一個(gè)特殊集合上訓(xùn)練得到的模型,無(wú)法很好的應(yīng)用到別的集合上。人臉識(shí)別技術(shù)的完全實(shí)用化還有很多挑戰(zhàn),比如:如何適應(yīng)各種人臉姿態(tài)、各種表情、年齡變化、人種、性別、變化的光線、分辨率的差別、圖像退化;根據(jù)目前的科研積累,要全部解決這些問(wèn)題并實(shí)現(xiàn)通用人臉技術(shù)的難度極高。優(yōu)圖團(tuán)隊(duì)在半年不到的時(shí)間內(nèi),基于統(tǒng)計(jì)學(xué)習(xí)框架迅速積累起人臉認(rèn)證技術(shù),在LFW上也已經(jīng)達(dá)到96%的準(zhǔn)確率。然而優(yōu)圖的目標(biāo),不僅僅限于在LFW上獲得高分,而是致力于應(yīng)用人臉識(shí)別技術(shù)去真正解決社交網(wǎng)絡(luò)和互聯(lián)網(wǎng)應(yīng)用中的實(shí)際問(wèn)題。比如隨著互聯(lián)網(wǎng)的飛速發(fā)展,基于移動(dòng)設(shè)備的人臉身份認(rèn)證變得越來(lái)越重要。在面向移動(dòng)端人臉認(rèn)證的1000人的優(yōu)圖內(nèi)部人臉身份驗(yàn)證測(cè)試集合中,優(yōu)圖著力于解決自拍照片與標(biāo)準(zhǔn)照片之間的對(duì)比認(rèn)證,當(dāng)控制錯(cuò)誤率小于0.1%時(shí), 優(yōu)圖可以達(dá)到57%的命中率(與之對(duì)比的是,某權(quán)威人臉技術(shù)開(kāi)放平臺(tái)僅達(dá)到48%的命中率)在通用性和專(zhuān)用性上,優(yōu)圖選擇了后者。
深度學(xué)習(xí)并不是唯一的選擇。人臉識(shí)別是一項(xiàng)高度復(fù)雜的技術(shù),其中最關(guān)鍵問(wèn)題的是人臉特征表示和相似度計(jì)算。特征表示分為人工特征設(shè)計(jì)和自動(dòng)特征學(xué)習(xí),人工特征包括Gabor小波、LBP等,深度學(xué)習(xí)則屬于自動(dòng)特征學(xué)習(xí)的一種框架。這幾年,深度學(xué)習(xí)被廣泛的應(yīng)用于模式識(shí)別的諸多應(yīng)用場(chǎng)景。然而優(yōu)圖團(tuán)隊(duì)在人臉識(shí)別研究的過(guò)程中也發(fā)現(xiàn),當(dāng)前最成功的人臉識(shí)別框架中,深度學(xué)習(xí)和非深度學(xué)習(xí)都可以取得很好的結(jié)果。比如 Facebook、Face++是基于深度學(xué)習(xí)的人臉識(shí)別框架,而微軟和CUHK是基于非深度學(xué)習(xí)的框架。優(yōu)圖嘗試了各種深度和非深度的特征表示,但最終還是在相似度計(jì)算方面取得了更大的突破。相似度計(jì)算是給出兩個(gè)人臉之間的相似度數(shù)值,具體包括歐氏距離、非歐氏距離到廣義的度量學(xué)習(xí),這也是人臉識(shí)別中關(guān)鍵的一環(huán)。優(yōu)圖基于微軟研究院提出的高維LBP特征的變體,同時(shí)結(jié)合最新度量學(xué)習(xí)成果,從統(tǒng)計(jì)推理的角度出發(fā),利用海量訓(xùn)練集合中的對(duì)等約束來(lái)快速訓(xùn)練馬氏矩陣,最后通過(guò)似然比來(lái)計(jì)算兩張人臉的相似度距離,獲得了很好的人臉識(shí)別結(jié)果。在僅使用LFW訓(xùn)練圖像時(shí),在LFW上達(dá)到93.7%的準(zhǔn)確率,同等條件比公開(kāi)的最好結(jié)果93.18%還要高;而在采用數(shù)十萬(wàn)外部訓(xùn)練數(shù)據(jù)以后,可以在LFW上迅速達(dá)到96%以上的準(zhǔn)確率。
擁有海量數(shù)據(jù)和海量計(jì)算能力才有更多的機(jī)會(huì)?;ヂ?lián)網(wǎng)時(shí)代,數(shù)據(jù)為王。優(yōu)圖人臉技術(shù)的進(jìn)步也是依托互聯(lián)網(wǎng)平臺(tái)海量數(shù)據(jù)的結(jié)果。人臉識(shí)別的一個(gè)挑戰(zhàn)來(lái)自于千變?nèi)f化的實(shí)際環(huán)境,光照、場(chǎng)景、姿態(tài)、表情、人群等等都是多種多樣。為此,人臉技術(shù)對(duì)于訓(xùn)練數(shù)據(jù)的需求量很大。優(yōu)圖通過(guò)對(duì)互聯(lián)網(wǎng)公開(kāi)照片的數(shù)據(jù)收集和篩選,至今已經(jīng)積累了百萬(wàn)人臉訓(xùn)練數(shù)據(jù)用于學(xué)術(shù)研究。另一方面,優(yōu)圖團(tuán)隊(duì)為QQ空間圈人功能部署了人臉檢測(cè)處理平臺(tái),通過(guò)上千臺(tái)服務(wù)器,日處理圖片能力達(dá)到5億,累計(jì)已處理數(shù)百億人臉。于此同時(shí),優(yōu)圖團(tuán)隊(duì)也會(huì)根據(jù)實(shí)際應(yīng)用場(chǎng)景來(lái)調(diào)整訓(xùn)練數(shù)據(jù)和人臉技術(shù)并快速部署,根據(jù)實(shí)際應(yīng)用反饋來(lái)迭代更新算法。