
(4) 利用當(dāng)前跟蹤結(jié)果對(duì)每一層的相關(guān)濾波器做更新。
小結(jié):這篇文章針對(duì)VGG-19各層特征的特點(diǎn),由粗粒度到細(xì)粒度最終準(zhǔn)確定位目標(biāo)的中心點(diǎn)。在CVPR2013提出的OTB50數(shù)據(jù)集上OPE準(zhǔn)確度繪圖達(dá)到了0.891,OPE成功率繪圖達(dá)到了0.605,相較于FCNT和SO-DLT都有提高,實(shí)際測試時(shí)性能也相當(dāng)穩(wěn)定,顯示出深度特征結(jié)合相關(guān)濾波器的巨大優(yōu)勢。但是這篇文章中的相關(guān)濾波器并沒有對(duì)尺度進(jìn)行處理,在整個(gè)跟蹤序列中都假定目標(biāo)尺度不變。在一些尺度變化非常劇烈的測試序列上如CarScale上最終預(yù)測出的bounding-box尺寸大小和目標(biāo)本身大小相差較大。
以上兩篇文章均是應(yīng)用預(yù)訓(xùn)練的CNN網(wǎng)絡(luò)提取特征提高跟蹤性能的成功案例,說明利用這種思路解決訓(xùn)練數(shù)據(jù)缺失和提高性能具有很高的可行性。但是分類任務(wù)預(yù)訓(xùn)練的CNN網(wǎng)絡(luò)本身更關(guān)注區(qū)分類間物體,忽略類內(nèi)差別。目標(biāo)跟蹤時(shí)只關(guān)注一個(gè)物體,重點(diǎn)區(qū)分該物體和背景信息,明顯抑制背景中的同類物體,但是還需要對(duì)目標(biāo)本身的變化魯棒。分類任務(wù)以相似的一眾物體為一類,跟蹤任務(wù)以同一個(gè)物體的不同表觀為一類,使得這兩個(gè)任務(wù)存在很大差別,這也是兩篇文章融合多層特征來做跟蹤以達(dá)到較理想效果的動(dòng)機(jī)所在。
利用跟蹤序列預(yù)訓(xùn)練,在線跟蹤時(shí)微調(diào)
1和2中介紹的解決訓(xùn)練數(shù)據(jù)不足的策略和目標(biāo)跟蹤的任務(wù)本身存在一定偏離。有沒有更好的辦法呢?VOT2015冠軍MDNet給出了一個(gè)示范。該方法在OTB50上也取得了OPE準(zhǔn)確度繪圖0.942,OPE成功率繪圖0.702的驚人得分。
MDNet(CVPR2016)
Learning Multi-Domain Convolutional Neural Networks for Visual Tracking
意識(shí)到圖像分類任務(wù)和跟蹤之間存在巨大差別,MDNet提出直接用跟蹤視頻預(yù)訓(xùn)練CNN獲得general的目標(biāo)表示能力的方法。但是序列訓(xùn)練也存在問題,即不同跟蹤序列跟蹤目標(biāo)完全不一樣,某類物體在一個(gè)序列中是跟蹤目標(biāo),在另外一個(gè)序列中可能只是背景。不同序列中目標(biāo)本身的表觀和運(yùn)動(dòng)模式、環(huán)境中光照、遮擋等情形相差甚大。這種情況下,想要用同一個(gè)CNN完成所有訓(xùn)練序列中前景和背景區(qū)分的任務(wù),困難重重。

最終MDNet提出Multi-Domain的訓(xùn)練思路和如上圖所示的Multi-Domain Network。該網(wǎng)絡(luò)分為共享層和domain-specific層兩部分。即:將每個(gè)訓(xùn)練序列當(dāng)成一個(gè)單獨(dú)的domain,每個(gè)domain都有一個(gè)針對(duì)它的二分類層(fc6),用于區(qū)分當(dāng)前序列的前景和背景,而網(wǎng)絡(luò)之前的所有層都是序列共享的。這樣共享層達(dá)到了學(xué)習(xí)跟蹤序列中目標(biāo)general的特征表達(dá)的目的,而domain-specific層又解決了不同訓(xùn)練序列分類目標(biāo)不一致的問題。
具體訓(xùn)練時(shí),MDNet的每個(gè)mini-batch只由一個(gè)特定序列的訓(xùn)練數(shù)據(jù)構(gòu)成,只更新共享層和針對(duì)當(dāng)前序列的特定fc6層。這樣共享層中獲得了對(duì)序列共有特征的表達(dá)能力,如對(duì)光照、形變等的魯棒性。MDNet的訓(xùn)練數(shù)據(jù)也非常有意思,即測試OTB100數(shù)據(jù)集時(shí),利用VOT2013-2015的不重合的58個(gè)序列來做預(yù)訓(xùn)練。測試VOT2014數(shù)據(jù)集時(shí),利用OTB100上不重合的89個(gè)序列做預(yù)訓(xùn)練。這種交替利用的思路也是第一次在跟蹤論文中出現(xiàn)。
在線跟蹤階段針對(duì)每個(gè)跟蹤序列,MDNet主要有以下幾步:
(1) 隨機(jī)初始化一個(gè)新的fc6層。
(2) 使用第一幀的數(shù)據(jù)來訓(xùn)練該序列的bounding box回歸模型。
(3) 用第一幀提取正樣本和負(fù)樣本,更新fc4, fc5和fc6層的權(quán)重。
(4) 之后產(chǎn)生256個(gè)候選樣本,并從中選擇置信度最高的,之后做bounding-box regression得到最終結(jié)果。
(5) 當(dāng)前幀最終結(jié)果置信度較高時(shí),采樣更新樣本庫,否則根據(jù)情況對(duì)模型做短期或者長期更新。
MDNet有兩點(diǎn)值得借鑒之處:
(1) MDNet應(yīng)用了更為貼合跟蹤實(shí)質(zhì)的視頻數(shù)據(jù)來做訓(xùn)練,并提出了創(chuàng)新的Multi-domain訓(xùn)練方法和訓(xùn)練數(shù)據(jù)交叉運(yùn)用的思路。
(2) 此外MDNet從檢測任務(wù)中借鑒了不少行之有效的策略,如難例挖掘(hard negative mining),bounding box回歸等。尤其是難例回歸通過重點(diǎn)關(guān)注背景中的難點(diǎn)樣本(如相似物體等)顯著減輕了跟蹤器漂移的問題。這些策略也幫助MDNet在TPAMI2015 OTB100數(shù)據(jù)集上OPE準(zhǔn)確度繪圖從一開始的0.825提升到0.908, OPE成功率繪圖從一開始的0.589提升到0.673。