我們?cè)倏戳硗庖粋€(gè)例子就是圖片識(shí)別。13年的時(shí)候,中國(guó)移動(dòng)互聯(lián)網(wǎng)有一個(gè)爆發(fā)的應(yīng)用就是百度魔圖,就是普通人可以拍張照,然后系統(tǒng)會(huì)告訴你長(zhǎng)得最像哪個(gè)大咖。我們這個(gè)產(chǎn)品在連續(xù)三周在iOS總榜排名第一,最多的時(shí)候一天900萬人上傳照片,我們一下子收集了好多人臉照片(觀眾笑)。至今這也是百度移動(dòng)產(chǎn)品的記錄。
很多高科技公司都會(huì)參加一個(gè)IFW競(jìng)賽,也就是人臉識(shí)別的測(cè)評(píng),它是怎樣的呢?就是一些照片,系統(tǒng)要判斷這是屬于同一個(gè)人還是不同的人。去年Facebook宣稱他們?nèi)〉昧俗詈玫慕Y(jié)果。但不同的公司也在不斷的PK,目前來講最好的結(jié)果是百度的(誤差率約0.15%),這個(gè)結(jié)果現(xiàn)在到了什么情況呢?有人讓人來參加了這個(gè)評(píng)估,結(jié)果大概是在這個(gè)地方(誤差約0.35%),也就是說機(jī)器可能比人還要好。當(dāng)然這只是一個(gè)具體的任務(wù)上,機(jī)器的表現(xiàn)比人好,不代表整個(gè)人工智能能達(dá)到人的地步。
還有一個(gè)很有意思的ImageNet,也就是圖像識(shí)別分類的競(jìng)賽。不同行業(yè)的人可能不一定感觸到,但我們這個(gè)行業(yè)能聽到轟隆隆的雷聲,是由于大數(shù)據(jù),由于深度學(xué)習(xí)在發(fā)生非??斓倪M(jìn)展。ImageNet做的是圖片的分類,過去五年里,我們可以看到錯(cuò)誤率在不斷下降,10年的第一屆,我的這個(gè)團(tuán)隊(duì)是拿了第一名,后面每年結(jié)果都在變化,去年最好的結(jié)果是我們?cè)诎俣鹊耐伦龅模固垢M瑯右沧隽艘粋€(gè)評(píng)估,看人類來做這個(gè)測(cè)試結(jié)果會(huì)是怎樣。

(ImageNet)微軟在今年1月份發(fā)布的結(jié)果超過了百度,前段時(shí)間Google的同事的結(jié)果又比微軟好,上個(gè)禮拜,我同事和我說,我們的結(jié)果比Google還好。所以這個(gè)競(jìng)爭(zhēng)很有意思,很多年后我們?cè)倩叵刖陀X得,我們這些不同公司的研究人員就像一個(gè)班上的同學(xué)一起PK,一起分享經(jīng)驗(yàn),實(shí)際是在一起推動(dòng)行業(yè)的發(fā)展的。
OK,圖像的理解始終是和我們?nèi)祟悓?duì)知識(shí)的理解以及語言總是能夠耦合在一起的,那怎么把這個(gè)事情做得更加有意思呢?我們?cè)谛r(shí)候可能做過“看圖說話”,用語言來描述這幅圖像,比如這幅圖,用中文描述就是“起居室里有著百色的沙發(fā)和藍(lán)色的地毯,下午的陽光照進(jìn)房間”。這樣的描述實(shí)際上是由機(jī)器來完成的。這是去年百度的研究人員最早在世界上發(fā)表了這樣的論文,后來Google等都發(fā)表了類似的論文,也引用了我們的研究結(jié)果。
我們現(xiàn)在也在做一些中文的描述,比如說這個(gè)例子:“一輛雙層巴士行駛在街道上”。我們可以做什么呢?比如說做圖像識(shí)別,我們?nèi)フ翌愃频膱D片,得出來的圖像可能是這樣的(一些街景),因?yàn)檫@個(gè)圖像它的主要內(nèi)容是建筑和街道。但如果我們用自然語言來描述這個(gè)場(chǎng)景,我們的出來的類似圖片是不一樣的。我們?cè)诎俣热绾斡米匀徽Z言描述去提升我們對(duì)圖像的理解,它背后的模型再度驗(yàn)證了我剛才的一個(gè)觀點(diǎn):深度學(xué)習(xí)實(shí)際提供的是一個(gè)語言系統(tǒng),對(duì)于一個(gè)具體的問題,你要有能力去構(gòu)建模型,模擬這樣一個(gè)問題。這樣一個(gè)例子就是下面是一個(gè)深度的卷積神經(jīng)網(wǎng)絡(luò),它產(chǎn)生的一個(gè)表示,上面是一個(gè)多層的神經(jīng)網(wǎng)絡(luò)去產(chǎn)生語言的模型。這樣的結(jié)果就是,它既是符合我們語義的語言,同時(shí)也反映了圖像的內(nèi)容。
我們?cè)龠M(jìn)一步去想:我們可以去做一些更加像人類做的事情。比如說對(duì)這樣一個(gè)圖像,我們可以去教小孩,去學(xué)習(xí)一些東西。這樣的圖像,機(jī)器可能會(huì)問小孩:他站在什么上?“他”是單人旁的他,而不是女字旁的“她”哦。我們也希望機(jī)器能回答這個(gè)問題,根據(jù)圖片本身的像素,根據(jù)本身的問題能夠回答:他站在沖浪板上。機(jī)器可能還會(huì)繼續(xù)問:那他有穿上衣嗎?然后機(jī)器可以回答:沒有。這都是今天的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)根據(jù)圖片內(nèi)容自動(dòng)生成的。它已經(jīng)超越了我們過去的圖像識(shí)別,也就是“你有什么東西”,變成了“你有什么樣的語義”和“你有什么樣的關(guān)系”。
對(duì)未來機(jī)器人、自動(dòng)駕駛、人工智能的思考
這里回到一個(gè)我們對(duì)人工智能目前的現(xiàn)狀和未來的一個(gè)思考:過去的互聯(lián)網(wǎng)服務(wù),它做的事情也有幾個(gè)方面,一個(gè)是感知,另外一個(gè)理解,還有一個(gè)決策。感知就是獲取數(shù)據(jù),經(jīng)過大規(guī)模的計(jì)算,比如處理,索引,然后在決策的時(shí)候能展示什么樣的結(jié)果和服務(wù)。這些所有都是線上的。今天移動(dòng)互聯(lián)網(wǎng)與人更近,它和你所處的場(chǎng)景有關(guān)系。從感知的角度講我們要從人,從物理世界獲得信息,這種線下信息可能比互聯(lián)網(wǎng)世界更加重要。從服務(wù)的角度,以前是線上的服務(wù),它會(huì)向線下延伸,向傳統(tǒng)行業(yè)延伸。像智能硬件、自動(dòng)駕駛、機(jī)器人,會(huì)在未來扮演更加重要的角色。