1月初,人工智能(Artificial Intelligence,AI)領(lǐng)域出現(xiàn)了一個(gè)標(biāo)志性事件:阿里巴巴和微軟的團(tuán)隊(duì)在斯坦福大學(xué)的閱讀理解問(wèn)答測(cè)試中,創(chuàng)造出超越人類(lèi)水平的成績(jī)。因?yàn)檫@個(gè),有些媒體打出大字標(biāo)題:人工智能的閱讀理解能力已經(jīng)超過(guò)人類(lèi)。
AI模型已經(jīng)能夠比人類(lèi)更好地理解文章內(nèi)容了嗎?先放下這個(gè)問(wèn)題,看看AI的另一類(lèi)重要領(lǐng)域:圖像識(shí)別。
圖像識(shí)別是AI最早取得重大突破的領(lǐng)域。2012年,谷歌的兩位技術(shù)大牛Jeff Dean和吳恩達(dá)(Andrew Ng)構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,通過(guò)自主學(xué)習(xí)YouTube上的圖像資料,讓神經(jīng)網(wǎng)絡(luò)模型具備了對(duì)于貓的識(shí)別能力,并掀起了機(jī)器學(xué)習(xí)構(gòu)建AI模型的行業(yè)熱潮。在最前沿的AI行業(yè)應(yīng)用中,如自動(dòng)駕駛系統(tǒng),圖像識(shí)別也是其構(gòu)建整個(gè)應(yīng)用的基礎(chǔ)能力。所以圖像識(shí)別能力的發(fā)展實(shí)際上是整個(gè)AI產(chǎn)業(yè)能力發(fā)展的縮影。但就在2017年底至2018年初,AI的圖像識(shí)別似乎遇到一些難以解決的問(wèn)題。這些問(wèn)題,恐怕可以很好地說(shuō)明一個(gè)真相:目前的AI能力,是十分容易被欺騙的,失之毫厘,謬以千里。
黑猩猩事件
2018年1月《連線》雜志報(bào)道,谷歌公司偷偷地把“猩猩”(gorilla)、“黑猩猩”(chimp/chimpanzee)和“猴子”(monkey)標(biāo)簽從圖片分類(lèi)選項(xiàng)中去除。這是怎么回事呢,事情還要從三年前說(shuō)起。
2015年6月,一位黑人程序員在使用谷歌的照片分類(lèi)模型對(duì)自己的照片進(jìn)行自動(dòng)分類(lèi)標(biāo)注時(shí),驚奇地發(fā)現(xiàn)他的一位黑人好友的照片被打上了“猩猩”的標(biāo)簽。他憤而將此事發(fā)布在互聯(lián)網(wǎng)上并得到高度關(guān)注。在一向強(qiáng)調(diào)政治正確和反對(duì)種族歧視的美國(guó),一個(gè)企業(yè)的產(chǎn)品有如此嚴(yán)重的種族主義錯(cuò)誤,這無(wú)論如何都是不能被接受的。谷歌公司的反饋也非常之快,他們立即就暫停了該分類(lèi)標(biāo)簽功能,并表示將盡快調(diào)整模型,從根本上防止此類(lèi)事件的再度發(fā)生。當(dāng)時(shí)提供這個(gè)分類(lèi)標(biāo)簽功能的,就是谷歌早期的AI圖像識(shí)別模型。
按理說(shuō),在AI技術(shù)飛速發(fā)展的三年后,借助于更加豐富的數(shù)據(jù)來(lái)源和更加強(qiáng)大的云計(jì)算平臺(tái),谷歌的圖像識(shí)別AI模型應(yīng)該已經(jīng)具備了比2015年精確得多的識(shí)別能力。
但谷歌最終的解決方法卻是靜悄悄地把引起麻煩的標(biāo)簽從標(biāo)簽庫(kù)中去除。我們雖然無(wú)法得知其中的細(xì)節(jié),但對(duì)于目前AI模型的能力不由得會(huì)有一絲懷疑:準(zhǔn)確區(qū)分靈長(zhǎng)類(lèi)動(dòng)物和黑人對(duì)于AI模型就真的那么難嗎?是的,在某些場(chǎng)景下,對(duì)于幾乎所有智力正常的人類(lèi)甚至三歲小孩都能完成的圖像識(shí)別,對(duì)于AI模型卻是難上加難。
Google Inception v-3是Google公司在自己的AI平臺(tái)Tensorflow上的開(kāi)源圖像識(shí)別神經(jīng)網(wǎng)絡(luò)模型,Top-5錯(cuò)誤率可以低到3.46%,代表了人工智能圖像識(shí)別領(lǐng)域的領(lǐng)先水平(圖像識(shí)別的判別指標(biāo),模型對(duì)每幅圖像同時(shí)提供5個(gè)類(lèi)別標(biāo)簽,其中任何一個(gè)類(lèi)別標(biāo)簽判別正確,結(jié)果都算正確。當(dāng)5個(gè)標(biāo)簽全部錯(cuò)誤,才算判別錯(cuò)誤)。
麻省理工計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室的實(shí)驗(yàn)人員2017年10月完成了一個(gè)有趣的實(shí)驗(yàn)。他們通過(guò)對(duì)于被判別物體的表面和顏色進(jìn)行特殊處理,單純改變表面材質(zhì)和顏色進(jìn)行欺騙,就可以讓Google Inception v-3圖像識(shí)別AI模型做出錯(cuò)誤判斷,讓其把海龜識(shí)別為槍支,把棒球識(shí)別為濃縮咖啡(espresso)。
另一個(gè)有關(guān)圖像識(shí)別的欺詐則是來(lái)自于谷歌公司自己的研究團(tuán)隊(duì)。他們?cè)?017年12月創(chuàng)造出一種被稱(chēng)為“對(duì)抗性補(bǔ)丁”( Adversarial Patch)的物體,能夠成功干擾現(xiàn)有的谷歌圖像識(shí)別AI模型,讓其把香蕉識(shí)別為烤面包機(jī)。
正常狀態(tài)下,圖像識(shí)別模型能夠準(zhǔn)確識(shí)別香蕉。但放置了這個(gè)“對(duì)抗性補(bǔ)丁”后,圖像識(shí)別模型立即產(chǎn)生錯(cuò)誤判別。根據(jù)谷歌的研究結(jié)果,這種基于特定“補(bǔ)丁”的圖像識(shí)別攻擊,“補(bǔ)丁”面積只要占據(jù)不到10%的識(shí)別面積,就可以達(dá)到90%以上的攻擊成功率。
令人驚嘆的是,利用“補(bǔ)丁”攻擊的過(guò)程非常簡(jiǎn)單。這些干擾性“補(bǔ)丁”可以很方便地打印出來(lái),添加到任何場(chǎng)景或圖片中,或者放置在被識(shí)別物品的旁邊,以便被圖像識(shí)別的攝像頭捕捉到。哪怕這個(gè)“補(bǔ)丁”很小,它們也能夠誘導(dǎo)AI模型忽略邊上應(yīng)該被識(shí)別的物體,而把識(shí)別的焦點(diǎn)吸引到自身,最終導(dǎo)致AI模型做出錯(cuò)誤的判斷。
一名人類(lèi)兒童甚至一條狗、一只貓?jiān)谟^察圖像時(shí)會(huì)出現(xiàn)這樣的錯(cuò)誤嗎?當(dāng)然不會(huì)。這像神話(huà)一樣的操作,恰恰說(shuō)明了目前基于AI的圖像識(shí)別,和人類(lèi)以及動(dòng)物的圖像識(shí)別模式是完全不同的。