SO-DLT有幾點值得借鑒:
(1) 針對tracking問題設(shè)計了有針對性的網(wǎng)絡(luò)結(jié)構(gòu)。
(2) 應(yīng)用CNNS和CNNL用ensemble的思路解決update 的敏感性,特定參數(shù)取多值做平滑,解決參數(shù)取值的敏感性。這些措施目前已成為跟蹤算法提高評分的殺手锏。
但是SO-DLT離線預(yù)訓(xùn)練依然使用的是大量無關(guān)聯(lián)圖片,作者認(rèn)為使用更貼合跟蹤實質(zhì)的時序關(guān)聯(lián)數(shù)據(jù)是一個更好的選擇。
利用現(xiàn)有大規(guī)模分類數(shù)據(jù)集預(yù)訓(xùn)練的CNN分類網(wǎng)絡(luò)提取特征
2015年以來,在目標(biāo)跟蹤領(lǐng)域應(yīng)用深度學(xué)習(xí)興起了一股新的潮流。即直接使用ImageNet這樣的大規(guī)模分類數(shù)據(jù)庫上訓(xùn)練出的CNN網(wǎng)絡(luò)如VGG-Net獲得目標(biāo)的特征表示,之后再用觀測模型(observation model)進(jìn)行分類獲得跟蹤結(jié)果。這種做法既避開了跟蹤時直接訓(xùn)練large-scale CNN樣本不足的困境,也充分利用了深度特征強大的表征能力。這樣的工作在ICML15,ICCV15,CVPR16均有出現(xiàn)。下面介紹兩篇發(fā)表于ICCV15的工作。
FCNT(ICCV15)
Visual Tracking with Fully Convolutional Networks
作為應(yīng)用CNN特征于物體跟蹤的代表作品,F(xiàn)CNT的亮點之一在于對ImageNet上預(yù)訓(xùn)練得到的CNN特征在目標(biāo)跟蹤任務(wù)上的性能做了深入的分析,并根據(jù)分析結(jié)果設(shè)計了后續(xù)的網(wǎng)絡(luò)結(jié)構(gòu)。
FCNT主要對VGG-16的Conv4-3和Conv5-3層輸出的特征圖譜(feature map)做了分析,并得出以下結(jié)論:
(1) CNN 的feature map可以用來做跟蹤目標(biāo)的定位。
(2) CNN 的許多feature map存在噪聲或者和物體跟蹤區(qū)分目標(biāo)和背景的任務(wù)關(guān)聯(lián)較小。
(3) CNN不同層的特征特點不一。高層(Conv5-3)特征擅長區(qū)分不同類別的物體,對目標(biāo)的形變和遮擋非常魯棒,但是對類內(nèi)物體的區(qū)分能力非常差。低層(Conv4-3)特征更關(guān)注目標(biāo)的局部細(xì)節(jié),可以用來區(qū)分背景中相似的distractor,但是對目標(biāo)的劇烈形變非常不魯棒。

依據(jù)以上分析,F(xiàn)CNT最終形成了如上圖所示的框架結(jié)構(gòu):
(1) 對于Conv4-3和Conv5-3特征分別構(gòu)建特征選擇網(wǎng)絡(luò)sel-CNN(1層dropout加1層卷積),選出和當(dāng)前跟蹤目標(biāo)最相關(guān)的feature map channel。
(2) 對篩選出的Conv5-3和Conv4-3特征分別構(gòu)建捕捉類別信息的GNet和區(qū)分distractor(背景相似物體)的SNet(都是兩層卷積結(jié)構(gòu))。
(3) 在第一幀中使用給出的bounding-box生成熱度圖(heat map)回歸訓(xùn)練sel-CNN, GNet和SNet。
(4) 對于每一幀,以上一幀預(yù)測結(jié)果為中心crop出一塊區(qū)域,之后分別輸入GNet和SNet,得到兩個預(yù)測的heatmap,并根據(jù)是否有distractor決定使用哪個heatmap 生成最終的跟蹤結(jié)果。
小結(jié):FCNT根據(jù)對CNN不同層特征的分析,構(gòu)建特征篩選網(wǎng)絡(luò)和兩個互補的heat-map預(yù)測網(wǎng)絡(luò)。達(dá)到有效抑制distractor防止跟蹤器漂移,同時對目標(biāo)本身的形變更加魯棒的效果,也是ensemble思路的又一成功實現(xiàn)。在CVPR2013提出的OTB50數(shù)據(jù)集上OPE準(zhǔn)確度繪圖(precision plot)達(dá)到了0.856,OPE成功率繪圖(success plot)達(dá)到了0.599,準(zhǔn)確度繪圖有較大提高。實際測試中FCNT的對遮擋的表現(xiàn)不是很魯棒,現(xiàn)有的更新策略還有提高空間。
Hierarchical Convolutional Features for Visual Tracking(ICCV15)
這篇是作者在2015年度看到的最簡潔有效的利用深度特征做跟蹤的論文。其主要思路是提取深度特征,之后利用相關(guān)濾波器確定最終的bounding-box。
這篇論文簡要分析了VGG-19特征( Conv3_4, Conv4_4, Conv5_4 )在目標(biāo)跟蹤上的特性,得出的結(jié)論和FCNT有異曲同工之處,即:
(1) 高層特征主要反映目標(biāo)的語義特性,對目標(biāo)的表觀變化比較魯棒。
(2) 低層特征保存了更多細(xì)粒度的空間特性,對跟蹤目標(biāo)的精確定位更有效。

基于以上結(jié)論,作者給出了一個粗粒度到細(xì)粒度(coarse-to-fine)的跟蹤算法即:
(1) 第一幀時,利用Conv3_4,Conv4_4,Conv5_4特征的插值分別訓(xùn)練得到3個相關(guān)濾波器。
(2) 之后的每幀,以上一幀的預(yù)測結(jié)果為中心crop出一塊區(qū)域,獲取三個卷積層的特征,做插值,并通過每層的相關(guān)濾波器預(yù)測二維的confidence score。
(3) 從Conv5_4開始算出confidence score上最大的響應(yīng)點,作為預(yù)測的bounding-box的中心位置,之后以這個位置約束下一層的搜索范圍,逐層向下做更細(xì)粒度的位置預(yù)測,以最低層的預(yù)測結(jié)果作為最后輸出。具體公式如下: