其中Rl、Rr表示左眼右眼眼影的loss,Rf表示臉部粉底的loss,Rup、Rlow表示上唇下唇唇彩的loss,Rs表示結(jié)構(gòu)的loss(計(jì)算公式與眼影l(fā)oss相同,但Sb、Sr中元素值都為1)。人臉妝容的平滑性可以通過以下公式進(jìn)行進(jìn)一步約束:
本文用end-to-end深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)出妝前妝后面部特征部位的對(duì)應(yīng)關(guān)系,并進(jìn)行妝容的遷移,流程較為簡(jiǎn)單,在考慮了人臉結(jié)構(gòu)對(duì)稱性和平滑性約束后達(dá)到了理想的效果,部分實(shí)驗(yàn)結(jié)果如下:
Feature Learning based Deep Supervised Hashing with Pairwise Labels
在信息檢索中,哈希學(xué)習(xí)算法將圖像/文本/視頻等復(fù)雜數(shù)據(jù)表示成一串緊致的二值編碼(只由0/1或者±1構(gòu)成的特征向量),從而實(shí)現(xiàn)時(shí)間、空間高效的最近鄰搜索。在哈希學(xué)習(xí)算法中,給定一個(gè)訓(xùn)練集,目標(biāo)是學(xué)到一組映射函數(shù),使得訓(xùn)練集中的數(shù)據(jù)經(jīng)過映射后,相似的樣本被映射到相似的二值編碼(二值編碼的相似性用Hamming距離度量)。
南京大學(xué)李武軍組的這篇文章中,作者提出了一種使用pairwise label進(jìn)行哈希學(xué)習(xí)的方法。通常的圖像標(biāo)簽指示的可能是圖像中的物體屬于哪個(gè)類別,或者圖像所描繪的場(chǎng)景屬于哪個(gè)類別,而這里的pairwise label則是基于一對(duì)圖像定義的,指示的是這一對(duì)圖像是否相似(通??梢愿鶕?jù)這一對(duì)圖像是否屬于同一類別定義它們是否相似)。具體來說,對(duì)于一個(gè)數(shù)據(jù)庫(kù)中的第i,j兩幅圖像,sij=1代表這兩個(gè)圖像相似,sij=0代表這兩個(gè)圖像不相似。
具體到這篇文章,作者使用了上圖所示的網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)的輸入為成對(duì)的圖像,以及相應(yīng)的pairwise label。該網(wǎng)絡(luò)結(jié)構(gòu)中包含了共享權(quán)值的兩路子網(wǎng)絡(luò)(這種結(jié)構(gòu)被稱為Siamese Network),每路子網(wǎng)絡(luò)處理一對(duì)圖像中的一張。在網(wǎng)絡(luò)的后端,根據(jù)得到的樣本的二值編碼和pairwise label,作者設(shè)計(jì)了損失函數(shù)來指導(dǎo)網(wǎng)絡(luò)的訓(xùn)練。
具體來說,理想情況下,網(wǎng)絡(luò)前端的輸出應(yīng)該是只由±1構(gòu)成的二值向量,在這種情況下,兩個(gè)樣本的二值編碼向量的內(nèi)積事實(shí)上是等價(jià)于Hamming距離的?;谶@個(gè)事實(shí),作者提出了如下的損失函數(shù),希望用樣本二值編碼之間的相似性(內(nèi)積)去擬合pairwise label(logistic regression):
在實(shí)際中,如果想讓網(wǎng)絡(luò)前端輸出為只由±1構(gòu)成的二值向量,則需要在網(wǎng)絡(luò)中插入量化操作(如sign函數(shù))。但是,因?yàn)榱炕瘮?shù)在定義域上要么導(dǎo)數(shù)為0,要么不可導(dǎo),因此在訓(xùn)練網(wǎng)絡(luò)的時(shí)候無法使用基于梯度的算法,因此作者提出將網(wǎng)絡(luò)前端的輸出進(jìn)行松弛,不再要求輸出是二值的,轉(zhuǎn)而通過在損失函數(shù)中增加一個(gè)正則項(xiàng)的方法,對(duì)網(wǎng)絡(luò)輸出進(jìn)行約束:
其中U表示松弛后的“二值編碼”,其余定義與J1相同。
在訓(xùn)練的時(shí)候,J2中的第一項(xiàng)可以直接根據(jù)圖像對(duì)的標(biāo)簽和Ui計(jì)算得到,第二項(xiàng)需要對(duì)Ui進(jìn)行量化得到bi后再計(jì)算。利用上述損失函數(shù)訓(xùn)練好網(wǎng)絡(luò)后,當(dāng)查詢樣本出現(xiàn)時(shí),只需要將圖像通過網(wǎng)絡(luò),并對(duì)最后一個(gè)全連接層的輸出進(jìn)行量化,即可得到樣本的二值編碼。
本文中的部分實(shí)驗(yàn)結(jié)果如下,文章提出的方法取得了state-of-the-art的性能,即使和使用了CNN特征作為輸入的一些非深度哈希方法相比,在性能上也有比較顯著的優(yōu)勢(shì):
總體來說,本文提出的方法通過聯(lián)合學(xué)習(xí)圖像特征和哈希函數(shù),在圖像檢索任務(wù)上取得了顯著的性能提升。但是由于文中使用的pairwise label在描述一對(duì)樣本的時(shí)候只有相似、不相似兩種可能,相對(duì)比較粗糙,因此不可避免地限制了本文方法的適用場(chǎng)合。作者在后續(xù)的工作中可能會(huì)考慮使用更加靈活的監(jiān)督信息形式來擴(kuò)展方法的通用性。