有了這樣的知識(shí),可以用它架構(gòu)友好的智能監(jiān)控識(shí)別體系。現(xiàn)在即使有個(gè)算法很好,比如266出來(lái)了,它編碼的效率和AVS2是一樣的,我說(shuō)那也不行,為什么?因?yàn)槟銐和暌院筮€有解,解的時(shí)候才知道哪個(gè)地方是識(shí)別的。現(xiàn)在壓的時(shí)候就知道哪個(gè)東西是有用,哪個(gè)東西沒(méi)有用,有用的可以壓得輕一點(diǎn),這樣構(gòu)建分析架構(gòu),底層是完全的視頻流,視頻流上面可以構(gòu)架一個(gè)區(qū)域描述,不是有ROI么,這個(gè)“R”就是region,根據(jù)區(qū)域描述,然后若干的區(qū)域構(gòu)成個(gè)對(duì)象,它們的關(guān)聯(lián)就可以構(gòu)成事件,只要處理能力足夠強(qiáng),我就把這個(gè)東西表述出來(lái)了,這是對(duì)識(shí)別非常有用的幫助。
三、找不到:以大規(guī)模視覺(jué)搜索解決跨攝像頭搜索問(wèn)題
第三個(gè)挑戰(zhàn),跨攝像頭怎么辦?我們可以對(duì)跨攝像頭的數(shù)據(jù)進(jìn)行矯正,然后進(jìn)行一些后續(xù)的工作。這方面已經(jīng)有很多工作在做了,比如我們?cè)囼?yàn)室學(xué)生搭了一個(gè)系統(tǒng),你在北大校園的一個(gè)地方走,其他幾個(gè)框是別的幾個(gè)攝像頭,從一個(gè)攝像頭跨到另外一個(gè)攝像頭時(shí)候,現(xiàn)在有一個(gè)專(zhuān)門(mén)技術(shù)是再認(rèn)證,一個(gè)人在一個(gè)攝像頭里出現(xiàn)過(guò),當(dāng)你就到第二個(gè)攝像頭,那么我能夠再識(shí)別出來(lái)你。因?yàn)橛袝r(shí)候可能不是正臉,靠人臉識(shí)別已經(jīng)不管用了,就要靠顏色、身體、步態(tài)、外形等等綜合識(shí)別就是你。

多攝像頭協(xié)同的對(duì)象檢測(cè)與追蹤
怎么做好這個(gè)系統(tǒng)?除了剛才的技術(shù)以外,還有一個(gè)重要的技術(shù)是能做到大規(guī)模的搜索。大規(guī)模的搜索這一塊我們組有個(gè)很好的工作叫CDVS,它可以用很少的特征去搜索你要的東西,就是說(shuō)我用手機(jī)拍一張照片或者拍一個(gè)景色,拍完以后傳送到服務(wù)器,搜索后會(huì)告訴你拍的是哪里。這個(gè)過(guò)程它需要你的特征選得非常好、非常準(zhǔn),然后有代表性,這樣才能使得搜索比較準(zhǔn)。
具體想法是這樣的,可以用一組特征,這組特征我們把它命名叫“CDVS”,CD是一個(gè)緊縮的描述詞,就是面向視覺(jué)搜索的緊縮描述詞,這也是在國(guó)際標(biāo)準(zhǔn)化框架下面做的。前一段時(shí)間有個(gè)多媒體描述標(biāo)準(zhǔn)是MEPG7,最近很少人提了,但是最近有人開(kāi)玩笑說(shuō)它給MEPG7注入了新生命。
這里面的關(guān)鍵技術(shù),一個(gè)是選擇特征點(diǎn),然后選擇特征,把這些特征進(jìn)行聚合、進(jìn)行壓縮、進(jìn)行點(diǎn)壓縮,最后形成個(gè)非常小的。舉例來(lái)說(shuō)有多小,比如你照了個(gè)照片,這個(gè)照片有3、4兆大的尺寸,我們從中提出來(lái)大概500個(gè)bit,連1K都不到,就可以進(jìn)行搜索了,最高可以到16K,16K檢索的效率就更高,我們判斷特征好不好是用召回率來(lái)判斷,我們都希望召回率達(dá)到90%,低于90%就認(rèn)為這個(gè)特征沒(méi)有選好。什么叫召回率90%?我用完整的照片到庫(kù)里搜出來(lái)的東西,和我這用521個(gè)去搜,是不是有90%都在我剛才搜的100個(gè)里面,如果是的話那你這個(gè)特征是可以的,我們是根據(jù)這個(gè)準(zhǔn)則。
它后臺(tái)的技術(shù)涉及到,比如數(shù)據(jù)壓縮的技術(shù),涉及到計(jì)算機(jī)視覺(jué)特征提取,涉及到機(jī)器學(xué)習(xí)和視覺(jué)挖掘。特征和視覺(jué)有關(guān)的主要是局部描述子,如果大家對(duì)模式識(shí)別知道一點(diǎn)的話,里面有個(gè)非常好的描述詞叫“SIFT特征”,這個(gè)特征它有一些特點(diǎn),它可以保持平移不變、旋轉(zhuǎn)不變、伸縮尺度不變等,有這個(gè)特征在識(shí)別里面是蠻有用的。但是這個(gè)特征有點(diǎn)毛病,一個(gè)是專(zhuān)利問(wèn)題,另外是耗費(fèi)存儲(chǔ)比較大,耗費(fèi)計(jì)算時(shí)間比較大。
這個(gè)在目前互聯(lián)網(wǎng)上和視頻監(jiān)控里已經(jīng)有一些應(yīng)用,這是我們搭的驗(yàn)證系統(tǒng),左邊是攝像頭實(shí)時(shí)對(duì)著馬路,中間是這個(gè)系統(tǒng),經(jīng)過(guò)這個(gè)系統(tǒng),右邊的這個(gè)是車(chē)的車(chē)牌號(hào)、是哪個(gè)攝像頭的、顏色等等馬上就出來(lái)了。所以這套系統(tǒng)只要一上線,將來(lái)做布控是非常簡(jiǎn)單的事。
總結(jié)
總結(jié)一下,對(duì)多媒體大數(shù)據(jù)、對(duì)智慧城市或智能城市有三個(gè)挑戰(zhàn)問(wèn)題:壓縮問(wèn)題、模式識(shí)別問(wèn)題、視覺(jué)搜索問(wèn)題。針對(duì)這些問(wèn)題,壓縮主要是靠提高編碼壓縮的效率來(lái)應(yīng)對(duì);識(shí)別問(wèn)題我們要想法做好編碼,做些ROI的支持,把這些信息盡可能包含進(jìn)去,使得后面丟失的信息更少一點(diǎn);視覺(jué)搜索的問(wèn)題可以采用緊縮的描述形式,使得搜索的速度更快,現(xiàn)在這個(gè)系統(tǒng)基本上是100萬(wàn)張圖片可以在1秒之內(nèi)完成搜索,這個(gè)速度是非??斓?。
這個(gè)領(lǐng)域關(guān)注的人沒(méi)有像金融那么多,但是它對(duì)整個(gè)系統(tǒng)的影響是比較大的,所以也請(qǐng)做系統(tǒng)的人稍微留心一下,另外也需要和做數(shù)據(jù)科學(xué)的其他領(lǐng)域多交流溝通,使得這個(gè)系統(tǒng)融入真的大數(shù)據(jù)平臺(tái)里。謝謝大家!