超越了人類就過了一條紅線,而過了這條紅線就可以在工業(yè)上進行應(yīng)用了。但是在真正應(yīng)用的時候,又發(fā)現(xiàn)了很多問題,過了紅線還是不夠用的,從實驗室到大規(guī)模產(chǎn)業(yè)化還有很長的路要走。2014年,我們用20萬人臉來對機器進行訓(xùn)練做到了98.5%的準確率,而人是97.5%;2015年我們用30萬人臉進行訓(xùn)練,達到了99.55%的準確率;2016年,我們用6000萬人臉訓(xùn)練可以達到了百萬分之一的誤識率;2017年,我們用20億人臉訓(xùn)練可以達到一億分之一的誤識率,而這樣的誤識率才可以真正地應(yīng)用到各行各業(yè),包括監(jiān)控、金融、安防、手機等行業(yè)。所以,我們和高通簽署了全球AI戰(zhàn)略合作協(xié)議。
那么除了人臉識別,我們現(xiàn)在還做什么?由于時間關(guān)系,我從我們做的十幾個行業(yè)里選出一個來簡單介紹一下——視頻分析。
下面這個技術(shù)是行為檢測,這是里約奧運會的跳水比賽直播,大家可以看到過了9分鐘也沒有看到跳水的內(nèi)容,要花一大堆時間看一些枯燥的內(nèi)容介紹。所以,我們用計算機視覺分析的方法,可以從很長的一段視頻里把重點內(nèi)容檢測出來,你就可以直接跳過沒有意義的部分,直接看這些有趣的、真正的跳水的鏡頭。
下面這個演示是基于內(nèi)容的視頻搜索
在電影中我們可以把各種各樣的片段搜索出來,比如說你想搜索武打動作片段,或者喜劇片段,我們可以直接把它搜索出來,或者你想搜索科幻的,我們可以把科幻的片段搜索出來。
下面這個演示是用自然語言描述來進行場景搜索,我們用自然語言來描述一個電影中的場景,然后它就可以自動根據(jù)你的描述把這個電影片段搜索出來,比如,我們要搜house of cards中的一個片段,“Claire和Frank坐在藍色沙發(fā)上”,大家看到下面這段場景就出來了。
另外我們不但能把視頻分析出來,還能理解這個視頻,然后用自然語言描述出來。比如下面這些運動視頻,機器就可以像解說員一樣來描述運動場上發(fā)生的事情。
IJCV是我們這個領(lǐng)域的兩大頂級雜志之一,作為IJCV的主編,我會在每年的ICCV和CVPR兩個計算機視覺頂級會議上,主辦IJCV Night晚會,邀請幾百位頂級學(xué)者參加。去年10月份,我們在威尼斯的Lido酒店舉辦了這個晚會。
上世紀的一部美國電影《美國往事》就是在這個酒店拍攝的,下面這個演示里我們把電影場景里的所有物體都檢測出來,演員是哪一個演員,他穿的是什么衣服,這個場景是在餐廳里,所有的桌子、花、椅子全部能夠?qū)崟r的自動檢測出來,這樣的技術(shù)在以前是非常難的,但是現(xiàn)在我們都可以做到了。
再回頭來看我們?nèi)绾斡眠@些技術(shù)來分析前面提到的電影《戰(zhàn)狼》和《羞羞的鐵拳》,我們通過分析這些演員的動作和他們之間的關(guān)系,可以分析出來在不同的場景之下,這兩個演員是誰,在做什么,這個片段是什么類的情節(jié)。
同時,我們可以識別每一幀情節(jié)分類,每一個鏡頭是打斗場景還是戀愛場景。我們也可以把一個電影最精彩的鏡頭提取出來,大家可以挑選比如動作的精彩鏡頭、感情戲的精彩鏡頭、悲劇的精彩鏡頭等等。
那么總結(jié)起來,我們在做什么呢?我們是在教機器看電影,一開始我們是教機器來識別人臉,Google是在教機器來下圍棋,而現(xiàn)在我們來教機器代替人看電影。這個感覺有點怪,我們讓機器來做下棋,看電影,玩游戲這些有趣的事情,然后我們?nèi)祟愔回撠?zé)給機器充充電,維修和保養(yǎng)。
我覺得大家聽了這個一定覺得很可笑。實際上所有的任務(wù),都是我們?nèi)税才沤o機器做的,機器是按照我們的指令在做事情,不存在機器控制人類這樣的事情,AI的真正目的是幫助人類,幫助我們提高生產(chǎn)效率。
最后給年輕人留下兩句話:
第一句,電影一定要自己親自去看。
第二句,AI這個詞在中國拼音翻譯過來就是“愛”,所以談戀愛也要自己親自去談,否則你就不止“前任3”了,很有可能“前任4”、“前任5”了。
謝謝大家!