除了面部識(shí)別之外,圖像識(shí)別還在很多領(lǐng)域也有應(yīng)用。我們?cè)倏匆粋€(gè),這是上海的一個(gè)全景圖,大家使用百度地圖有時(shí)候需要看這樣一個(gè)景,到一個(gè)陌生的地方之前,想看看到那看到的樣子是什么。當(dāng)然,這個(gè)圖不是一個(gè)簡(jiǎn)單的圖像的采集,我們采集了圖像之后要對(duì)圖像中各種各樣的目標(biāo)進(jìn)行識(shí)別,這個(gè)大樓是什么樣的大樓,那個(gè)路牌上面寫(xiě)的什么字,對(duì)寫(xiě)的這個(gè)字識(shí)別的話(huà),跟人臉識(shí)別還不太一樣,這里面有一個(gè)特殊的圖像識(shí)別的技術(shù)就是OCR,這個(gè)是二十多年前我們的一個(gè)專(zhuān)利,到今天它的準(zhǔn)確率已經(jīng)非常高了,下面我們也是用一段視頻給大家看一下百度地圖是如何利用圖像識(shí)別的。
【播放百度地圖視頻】
這是百度地圖利用圖像識(shí)別的情況,其實(shí)還有一個(gè)很重要的領(lǐng)域也是非常需要圖像識(shí)別的技術(shù),這個(gè)領(lǐng)域是什么呢?這就是我們過(guò)去一年來(lái)講得比較多的無(wú)人駕駛汽車(chē)。無(wú)人駕駛汽車(chē)涉及到很多很多的技術(shù),比如說(shuō)我們需要計(jì)算機(jī)視覺(jué)的技術(shù),需要高精度地圖,需要對(duì)環(huán)境的感知,需要定位,甚至需要語(yǔ)音的通話(huà)。但應(yīng)該說(shuō),計(jì)算機(jī)視覺(jué)或者是圖像識(shí)別的技術(shù)是“最后一公里”,無(wú)人駕駛汽車(chē)真的要變成沒(méi)有人,真的要能夠解決99.999%、甚至100%的情況,最終還是要依靠計(jì)算機(jī)視覺(jué)的能力,要識(shí)別各種各樣的極端的情況。
去年年底開(kāi)始,我們給大家展示過(guò)百度的無(wú)人車(chē)在五環(huán)上跑,在高速上跑的情況,過(guò)去一年左右的時(shí)間我們也花了不少精力去提升我們?cè)诔鞘械缆飞线\(yùn)營(yíng)的水平,下面我們也放一段視頻給大家看一下。
【播放無(wú)人車(chē)視頻】
大家看到左下角這是人能夠看到的視野,這個(gè)視野其實(shí)是比較窄的,主屏幕是無(wú)人車(chē)能夠看到的路面情況,大家可以感受到,它感知的范圍其實(shí)比人要寬了很多,很多比較遠(yuǎn)的目標(biāo)都可以感知到,每個(gè)目標(biāo)都給出它唯一的編號(hào)進(jìn)行識(shí)別。對(duì)面有什么車(chē)過(guò)來(lái)了,遇到紅綠燈,遇到障礙怎么辦,行人怎么能識(shí)別出來(lái),或者是樹(shù)木,周邊的汽車(chē)等等,每一個(gè)目標(biāo)我們都進(jìn)行了識(shí)別和編號(hào),這就是實(shí)際的、一個(gè)百度無(wú)人駕駛汽車(chē)在城市道路中行駛的情況,上面的45是限速。
這是大致的一個(gè)車(chē)看到的世界是什么樣的。這里面涉及了很多計(jì)算機(jī)視覺(jué)或者是圖像識(shí)別的技術(shù),尤其是這兩個(gè)技術(shù):一個(gè)是我們叫做車(chē)輛的檢測(cè),你行駛過(guò)程中怎么能夠知道旁邊有車(chē)輛,這個(gè)車(chē)輛在哪?這個(gè)車(chē)輛的檢測(cè)我們現(xiàn)在按照國(guó)際權(quán)威的評(píng)測(cè)來(lái)看,車(chē)輛檢測(cè)的能力,百度無(wú)人車(chē)已經(jīng)排名第一了。還有一個(gè)很重要的能力是車(chē)輛跟蹤的能力。這個(gè)不僅是全自動(dòng)的無(wú)人車(chē),即使是對(duì)半自動(dòng)的、高度自動(dòng)駕駛來(lái)說(shuō),也是一個(gè)很基本的能力。你怎樣能夠準(zhǔn)確地跟著前面的車(chē)走,這個(gè)技術(shù)在包括準(zhǔn)確性、全面性、連續(xù)性等六項(xiàng)指標(biāo)中,我們已經(jīng)有四項(xiàng)拿到了第一。
這是無(wú)人車(chē)對(duì)于圖像識(shí)別依賴(lài)的情況。我們?cè)俳o大家展示一個(gè)領(lǐng)域,就是增強(qiáng)現(xiàn)實(shí)AR,AR其實(shí)也是非常依賴(lài)(圖像識(shí)別)。拿著手機(jī)拍一下現(xiàn)實(shí)的情況,我們要能夠識(shí)別出來(lái)這是哪,這里面有什么,然后才能跟用戶(hù)進(jìn)行互動(dòng),才能產(chǎn)生真實(shí)世界和一些虛擬世界的完美的結(jié)合。那么這個(gè)東西有什么應(yīng)用呢?我們也覺(jué)得很高興我們的周總、我們的廣告主非常敏銳地把握到了這么一個(gè)機(jī)會(huì),他說(shuō)OK,我可以把現(xiàn)實(shí)世界中我的產(chǎn)品和虛擬世界中我希望用戶(hù)感知的東西結(jié)合在一起,這樣的一個(gè)做法也可以說(shuō)是一種新型的廣告形式,下面我們就來(lái)看一個(gè)具體的例子。這是我們跟歐萊雅中國(guó)合作的一個(gè)例子。我們放視頻。
【播放歐萊雅視頻】
所以大家看到無(wú)論你拿手機(jī)拍一張明信片,還是拍一個(gè)實(shí)物的洗發(fā)水,它都可以準(zhǔn)確地識(shí)別出來(lái)這個(gè)東西,和用戶(hù)進(jìn)行互動(dòng),這里面不僅有圖像識(shí)別的技術(shù),也很大程度上取決于廣告主的創(chuàng)意,如果創(chuàng)意和這個(gè)技術(shù)結(jié)合,對(duì)消費(fèi)者的吸引力也非常大,所以我們也期待將來(lái)的時(shí)間和客戶(hù)很好地合作,把這個(gè)創(chuàng)意,把最優(yōu)秀的想法和最優(yōu)秀的技術(shù)結(jié)合起來(lái),給消費(fèi)者帶來(lái)實(shí)惠。
這是有關(guān)圖像識(shí)別方面的幾個(gè)例子。下面我們?cè)倏醋匀徽Z(yǔ)言處理。自然語(yǔ)言處理其實(shí)我剛才也講了,它的成熟程度應(yīng)該不如語(yǔ)音,甚至不如圖像識(shí)別,但是即使在目前的狀態(tài)下,它也能夠給大家?guī)?lái)很多很多不一樣的體驗(yàn)。最直接的例子應(yīng)該是我們?nèi)ツ暝诎俣仁澜绱髸?huì)上講的一個(gè)例子,就是度秘。度秘是一個(gè)個(gè)人智能的助理。這個(gè)個(gè)人智能助理今天我們可以在手機(jī)百度里面找到,度秘跟用戶(hù)進(jìn)行交互,現(xiàn)在已經(jīng)有超過(guò)一半的交互是通過(guò)語(yǔ)音和圖像來(lái)完成的,去年我們也講了,語(yǔ)音和圖像將來(lái)會(huì)變成一個(gè)主流。