但是也可以發(fā)現(xiàn)MDNet的總體思路和RCNN比較類似,需要前向傳遞上百個proposal,雖然網(wǎng)絡(luò)結(jié)構(gòu)較小,速度仍較慢。且boundingbox回歸也需要單獨訓(xùn)練,因此MDNet還有進一步提升的空間。
運用遞歸神經(jīng)網(wǎng)絡(luò)進行目標跟蹤的新思路
近年來RNN尤其是帶有門結(jié)構(gòu)的LSTM,GRU等在時序任務(wù)上顯示出了突出的性能。不少研究者開始探索如何應(yīng)用RNN來做解決現(xiàn)有跟蹤任務(wù)中存在的問題,以下簡要介紹兩篇在這方面比較有代表性的探索文章。
RTT(CVPR16)
Recurrently Target-Attending Tracking
這篇文章的出發(fā)點比較有意思,即利用多方向遞歸神經(jīng)網(wǎng)絡(luò)(multi-directional recurrent neural network)來建模和挖掘?qū)φw跟蹤有用的可靠目標部分(reliable part),實際上是二維平面上的RNN建模,最終解決預(yù)測誤差累積和傳播導(dǎo)致的跟蹤漂移問題。其本身也是對part-based跟蹤方法和相關(guān)濾波(correlation filter)方法的改進和探索。

RTT的整體框架如上圖所示:
(1) 首先對每一幀的候選區(qū)域進行網(wǎng)狀分塊,對每個分塊提取HOG特征,最終相連獲得基于塊的特征

(2) 得到分塊特征以后,RTT利用前5幀訓(xùn)練多方向RNN來學(xué)習(xí)分塊之間大范圍的空間關(guān)聯(lián)。
通過在4個方向上的前向推進,RNN計算出每個分塊的置信度,最終每個塊的預(yù)測值組成了整個候選區(qū)域的置信圖(confidence map)。受益于RNN的recurrent結(jié)構(gòu),每個分塊的輸出值都受到其他關(guān)聯(lián)分塊的影響,相比于僅僅考慮當(dāng)前塊的準確度更高,避免單個方向上遮擋等的影響,增加可靠目標部分在整體置信圖中的影響。
(3) 由RNN得出置信圖之后,RTT執(zhí)行了另外一條pipeline。即訓(xùn)練相關(guān)濾波器來獲得最終的跟蹤結(jié)果。值得注意的是,在訓(xùn)練過程中RNN的置信圖對不同塊的filter做了加權(quán),達到抑制背景中的相似物體,增強可靠部分的效果。
(4) RTT提出了一個判斷當(dāng)前跟蹤物體是否被遮擋的策略,用其判斷是否更新。即計算目標區(qū)域的置信度和,并與歷史置信度和的移動平均數(shù)(moving average)做一個對比,低于一定比例,則認為受到遮擋,停止模型更新,防止引入噪聲。
小結(jié):RTT是第一個利用RNN來建模part-based跟蹤任務(wù)中復(fù)雜的大范圍關(guān)聯(lián)關(guān)系的跟蹤算法。在CVPR2013提出的OTB50數(shù)據(jù)集上OPE準確度繪圖為0.827,OPE成功率繪圖達到了0.588。相比于其他基于傳統(tǒng)特征的相關(guān)濾波器算法有較大的提升,說明RNN對關(guān)聯(lián)關(guān)系的挖掘和對濾波器的約束確實有效。RTT受制于參數(shù)數(shù)目的影響,只選用了參數(shù)較少的普通RNN結(jié)構(gòu)(采用HOG特征其實也是降低參數(shù)的另外一種折中策略)。結(jié)合之前介紹的解決訓(xùn)練數(shù)據(jù)缺失的措施,RTT可以運用更好的特征和RNN結(jié)構(gòu),效果還有提升空間。
DeepTracking: Seeing Beyond Seeing Using Recurrent Neural Networks(AAAI16)
這篇文章的應(yīng)用場景是機器人視覺,目標是將傳感器獲得的有遮擋的環(huán)境信息還原為真實的無遮擋的環(huán)境信息。嚴格來說這篇文章僅輸出還原后的圖片,沒有明確預(yù)測目標的位置和尺寸等狀態(tài)信息,和之前介紹的所有文章的做法都不一樣,不妨稱為一種新的跟蹤任務(wù)。
在模型方面,不同于RTT用RNN建模二維平面關(guān)聯(lián),DeepTracking利用RNN來做序列關(guān)聯(lián)的建模,并最終實現(xiàn)了端到端的跟蹤算法。
傳統(tǒng)的貝葉斯跟蹤方法一般采用高斯分布(卡爾曼濾波Kalman filter)或者離散的采樣點權(quán)重(粒子濾波particle filter)來近似需要求解的后驗概率 P(yt|x1:t) (yt 為需要預(yù)測的機器人周圍的真實場景, xt 為傳感器直接獲得的場景信息),其表達能力有限。DeepTracking拓展了傳統(tǒng)的貝葉斯跟蹤框架,并利用RNN強大的表征能力來建模后驗概率。
具體而言DeepTracking引入了一個具有馬爾可夫性質(zhì)的隱變量 ht ,認為其反映了真實環(huán)境的全部信息。最終需要預(yù)測的 yt 包含了 ht,包含了 ht 的部分信息,可由 ht 得到。假設(shè) Bt 為關(guān)于 ht 的信念(belief),對應(yīng)于后驗概率:Bel(ht) = P(yt|ht) 。之后經(jīng)典貝葉斯跟蹤框架中由 P(yt-1|x1:t-1) 到 P(yt|x1:t) 到的時序更新在這里轉(zhuǎn)化為:Bt = F(Bt-1,xt)和 P(ty|x1:t) = P(yt|Bt)。
