
開始本文之前,我們首先看上方給出的3張圖片,它們分別是同一個(gè)視頻的第1,40,80幀。在第1幀給出一個(gè)跑步者的邊框(bounding-box)之后,后續(xù)的第40幀,80幀,bounding-box依然準(zhǔn)確圈出了同一個(gè)跑步者。以上展示的其實(shí)就是目標(biāo)跟蹤(visual object tracking)的過程。目標(biāo)跟蹤(特指單目標(biāo)跟蹤)是指:給出目標(biāo)在跟蹤視頻第一幀中的初始狀態(tài)(如位置,尺寸),自動(dòng)估計(jì)目標(biāo)物體在后續(xù)幀中的狀態(tài)。
人眼可以比較輕松的在一段時(shí)間內(nèi)跟住某個(gè)特定目標(biāo)。但是對機(jī)器而言,這一任務(wù)并不簡單,尤其是跟蹤過程中會(huì)出現(xiàn)目標(biāo)發(fā)生劇烈形變、被其他目標(biāo)遮擋或出現(xiàn)相似物體干擾等等各種復(fù)雜的情況。過去幾十年以來,目標(biāo)跟蹤的研究取得了長足的發(fā)展,尤其是各種機(jī)器學(xué)習(xí)算法被引入以來,目標(biāo)跟蹤算法呈現(xiàn)百花齊放的態(tài)勢。2013年以來,深度學(xué)習(xí)方法開始在目標(biāo)跟蹤領(lǐng)域展露頭腳,并逐漸在性能上超越傳統(tǒng)方法,取得巨大的突破。本文首先簡要介紹主流的傳統(tǒng)目標(biāo)跟蹤方法,之后對基于深度學(xué)習(xí)的目標(biāo)跟蹤算法進(jìn)行介紹,最后對深度學(xué)習(xí)在目標(biāo)跟蹤領(lǐng)域的應(yīng)用進(jìn)行總結(jié)和展望。
經(jīng)典目標(biāo)跟蹤方法
目前跟蹤算法可以被分為產(chǎn)生式(generative model)和判別式(discriminative model)兩大類別。
產(chǎn)生式方法運(yùn)用生成模型描述目標(biāo)的表觀特征,之后通過搜索候選目標(biāo)來最小化重構(gòu)誤差。比較有代表性的算法有稀疏編碼(sparse coding),在線密度估計(jì)(online density estimation)和主成分分析(PCA)等。產(chǎn)生式方法著眼于對目標(biāo)本身的刻畫,忽略背景信息,在目標(biāo)自身變化劇烈或者被遮擋時(shí)容易產(chǎn)生漂移。
與之相對的,判別式方法通過訓(xùn)練分類器來區(qū)分目標(biāo)和背景。這種方法也常被稱為tracking-by-detection。近年來,各種機(jī)器學(xué)習(xí)算法被應(yīng)用在判別式方法上,其中比較有代表性的有多示例學(xué)習(xí)方法(multiple instance learning), boosting和結(jié)構(gòu)SVM(structured SVM)等。判別式方法因?yàn)轱@著區(qū)分背景和前景的信息,表現(xiàn)更為魯棒,逐漸在目標(biāo)跟蹤領(lǐng)域占據(jù)主流地位。值得一提的是,目前大部分深度學(xué)習(xí)目標(biāo)跟蹤方法也歸屬于判別式框架。
近年來,基于相關(guān)濾波(correlation filter)的跟蹤方法因?yàn)樗俣瓤?效果好吸引了眾多研究者的目光。相關(guān)濾波器通過將輸入特征回歸為目標(biāo)高斯分布來訓(xùn)練 filters。并在后續(xù)跟蹤中尋找預(yù)測分布中的響應(yīng)峰值來定位目標(biāo)的位置。相關(guān)濾波器在運(yùn)算中巧妙應(yīng)用快速傅立葉變換獲得了大幅度速度提升。目前基于相關(guān)濾波的拓展方法也有很多,包括核化相關(guān)濾波器(kernelized correlation filter, KCF), 加尺度估計(jì)的相關(guān)濾波器(DSST)等。
基于深度學(xué)習(xí)的目標(biāo)跟蹤方法
不同于檢測、識(shí)別等視覺領(lǐng)域深度學(xué)習(xí)一統(tǒng)天下的趨勢,深度學(xué)習(xí)在目標(biāo)跟蹤領(lǐng)域的應(yīng)用并非一帆風(fēng)順。其主要問題在于訓(xùn)練數(shù)據(jù)的缺失:深度模型的魔力之一來自于對大量標(biāo)注訓(xùn)練數(shù)據(jù)的有效學(xué)習(xí),而目標(biāo)跟蹤僅僅提供第一幀的bounding-box作為訓(xùn)練數(shù)據(jù)。這種情況下,在跟蹤開始針對當(dāng)前目標(biāo)從頭訓(xùn)練一個(gè)深度模型困難重重。目前基于深度學(xué)習(xí)的目標(biāo)跟蹤算法采用了幾種思路來解決這個(gè)問題,下面將依據(jù)思路的不同展開介紹,并在最后介紹目前跟蹤領(lǐng)域出現(xiàn)的運(yùn)用遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network)解決目標(biāo)跟蹤問題的新思路。
利用輔助圖片數(shù)據(jù)預(yù)訓(xùn)練深度模型,在線跟蹤時(shí)微調(diào)
在目標(biāo)跟蹤的訓(xùn)練數(shù)據(jù)非常有限的情況下,使用輔助的非跟蹤訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,獲取對物體特征的通用表示(general representation ),在實(shí)際跟蹤時(shí),通過利用當(dāng)前跟蹤目標(biāo)的有限樣本信息對預(yù)訓(xùn)練模型微調(diào)(fine-tune), 使模型對當(dāng)前跟蹤目標(biāo)有更強(qiáng)的分類性能,這種遷移學(xué)習(xí)的思路極大的減少了對跟蹤目標(biāo)訓(xùn)練樣本的需求,也提高了跟蹤算法的性能。
這個(gè)方面代表性的作品有DLT和SO-DLT,都出自香港科技大學(xué)王乃巖博士。
DLT(NIPS2013)
Learning a Deep Compact Image Representation for Visual Tracking

DLT是第一個(gè)把深度模型運(yùn)用在單目標(biāo)跟蹤任務(wù)上的跟蹤算法。它的主體思路如上圖所示: