(1) 先使用棧式降噪自編碼器(stacked denoising autoencoder,SDAE)在Tiny Images dataset這樣的大規(guī)模自然圖像數(shù)據(jù)集上進(jìn)行無監(jiān)督的離線預(yù)訓(xùn)練來獲得通用的物體表征能力。預(yù)訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)如上圖(b)所示,一共堆疊了4個(gè)降噪自編碼器, 降噪自編碼器對(duì)輸入加入噪聲,通過重構(gòu)出無噪聲的原圖來獲得更魯棒的特征表達(dá)能力。SDAE1024-2560-1024-512-256這樣的瓶頸式結(jié)構(gòu)設(shè)計(jì)也使獲得的特征更加compact。
(2) 之后的在線跟蹤部分結(jié)構(gòu)如上圖(c)所示,取離線SDAE的encoding部分疊加sigmoid分類層組成了分類網(wǎng)絡(luò)。此時(shí)的網(wǎng)絡(luò)并沒有獲取對(duì)當(dāng)前被跟蹤物體的特定表達(dá)能力。此時(shí)利用第一幀獲取正負(fù)樣本,對(duì)分類網(wǎng)絡(luò)進(jìn)行fine-tune獲得對(duì)當(dāng)前跟蹤目標(biāo)和背景更有針對(duì)性的分類網(wǎng)絡(luò)。在跟蹤過程中,對(duì)當(dāng)前幀采用粒子濾波(particle filter)的方式提取一批候選的patch(相當(dāng)于detection中的proposal),這些patch輸入分類網(wǎng)絡(luò)中,置信度最高的成為最終的預(yù)測(cè)目標(biāo)。
(3) 在目標(biāo)跟蹤非常重要的模型更新策略上,該論文采取限定閾值的方式,即當(dāng)所有粒子中最高的confidence低于閾值時(shí),認(rèn)為目標(biāo)已經(jīng)發(fā)生了比較大的表觀變化,當(dāng)前的分類網(wǎng)絡(luò)已經(jīng)無法適應(yīng),需要進(jìn)行更新。
小結(jié):DLT作為第一個(gè)將深度網(wǎng)絡(luò)運(yùn)用于單目標(biāo)跟蹤的跟蹤算法,首先提出了“離線預(yù)訓(xùn)練+在線微調(diào)”的思路,很大程度的解決了跟蹤中訓(xùn)練樣本不足的問題,在CVPR2013提出的OTB50數(shù)據(jù)集上的29個(gè)跟蹤器中排名第5。
但是DLT本身也存在一些不足:
(1) 離線預(yù)訓(xùn)練采用的數(shù)據(jù)集Tiny Images dataset只包含32*32大小的圖片,分辨率明顯低于主要的跟蹤序列,因此SDAE很難學(xué)到足夠強(qiáng)的特征表示。
(2) 離線階段的訓(xùn)練目標(biāo)為圖片重構(gòu),這與在線跟蹤需要區(qū)分目標(biāo)和背景的目標(biāo)相差甚大。
(3) SDAE全連接的網(wǎng)絡(luò)結(jié)構(gòu)使其對(duì)目標(biāo)的特征刻畫能力不夠優(yōu)秀,雖然使用了4層的深度模型,但效果仍低于一些使用人工特征的傳統(tǒng)跟蹤方法如Struck等。
SO-DLT(arXiv2015)
Transferring Rich Feature Hierarchies for Robust Visual Tracking
SO-DLT延續(xù)了DLT利用非跟蹤數(shù)據(jù)預(yù)訓(xùn)練加在線微調(diào)的策略,來解決跟蹤過程中訓(xùn)練數(shù)據(jù)不足的問題,同時(shí)也對(duì)DLT存在的問題做了很大的改進(jìn)。

(1) 使用CNN作為獲取特征和分類的網(wǎng)絡(luò)模型。如上圖所示,SO-DLT使用了的類似AlexNet的網(wǎng)絡(luò)結(jié)構(gòu),但是有幾大特點(diǎn):一、針對(duì)跟蹤候選區(qū)域的大小將輸入縮小為100*100,而不是一般分類或檢測(cè)任務(wù)中的224*224。 二、網(wǎng)絡(luò)的輸出為50*50大小,值在0-1之間的概率圖(probability map),每個(gè)輸出像素對(duì)應(yīng)原圖2*2的區(qū)域,輸出值越高則該點(diǎn)在目標(biāo)bounding-box中的概率也越高。這樣的做法利用了圖片本身的結(jié)構(gòu)化信息,方便直接從概率圖確定最終的bounding-box,避免向網(wǎng)絡(luò)輸入數(shù)以百計(jì)的proposal,這也是SO-DLT structured output得名的由來。三、在卷積層和全連接層中間采用SPP-NET中的空間金字塔采樣(spatial pyramid pooling)來提高最終的定位準(zhǔn)確度。
(2) 在離線訓(xùn)練中使用ImageNet 2014的detection數(shù)據(jù)集使CNN獲得區(qū)分object和非object(背景)的能力。

SO-DLT在線跟蹤的pipeline如上圖所示:
(1) 處理第t幀時(shí),首先以第t-1幀的的預(yù)測(cè)位置為中心,從小到大以不同尺度crop區(qū)域放入CNN當(dāng)中,當(dāng)CNN輸出的probability map的總和高于一定閾值時(shí),停止crop, 以當(dāng)前尺度作為最佳的搜索區(qū)域大小。
(2) 選定第t幀的最佳搜索區(qū)域后,在該區(qū)域輸出的probability map上采取一系列策略確定最終的bounding-box中心位置和大小。
(3) 在模型更新方面,為了解決使用不準(zhǔn)確結(jié)果fine-tune導(dǎo)致的drift問題,使用了long-term 和short-term兩個(gè)CNN,即CNNS和CNNL。CNNS更新頻繁,使其對(duì)目標(biāo)的表觀變化及時(shí)響應(yīng)。CNNL更新較少,使其對(duì)錯(cuò)誤結(jié)果更加魯棒。二者結(jié)合,取最confident的結(jié)果作為輸出。從而在adaptation和drift之間達(dá)到一個(gè)均衡。
小結(jié):SO-DLT作為large-scale CNN網(wǎng)絡(luò)在目標(biāo)跟蹤領(lǐng)域的一次成功應(yīng)用,取得了非常優(yōu)異的表現(xiàn):在CVPR2013提出的OTB50數(shù)據(jù)集上OPE準(zhǔn)確度繪圖(precision plot)達(dá)到了0.819, OPE成功率繪圖(success plot)達(dá)到了0.602。遠(yuǎn)超當(dāng)時(shí)其它的state of the art。