據(jù)外媒報(bào)道,最新一項(xiàng)研究結(jié)果顯示,雖然人工智能(AI)在許多方面的表現(xiàn)足以取代人類,但至少在看漫畫書這方面與人類還相去甚遠(yuǎn)。
當(dāng)前,人工智能在許多方面的表現(xiàn)都在趕超人類,甚至已經(jīng)超越人類,如面部識(shí)別、物體識(shí)別、象棋、圍棋、視頻游戲,以及許多其他方面任務(wù)。
人們不禁要問:人工智能在哪些方面不如人類呢?或者說,至少目前還難以超越人類呢?得益于馬里蘭大學(xué)帕克分校(UMCP)的一項(xiàng)研究,我們似乎找到了答案。
近期,馬里蘭大學(xué)教授墨希特·艾耶爾(Mohit Iyyer)及其同事對(duì)人工智能理解漫畫書的能力進(jìn)行了測(cè)試。結(jié)果顯示,人工智能在這方面能力遠(yuǎn)不及人類。
眾所周知,漫畫是由一系列的圖片構(gòu)成的,同時(shí)還配以文本加以注釋。文本和圖片配合地如此之緊密,以致于單獨(dú)看圖片、或者單獨(dú)看文本,很難理解其中的寓意。
而且,根據(jù)創(chuàng)作者的不同,不同的漫畫之間的繪畫風(fēng)格、語(yǔ)言風(fēng)格和排版風(fēng)格都存在很大的差異。更重要的是,與視頻不同,漫畫的不同畫格(圖片)之間的時(shí)間和空間是不連貫的,中間的過渡情節(jié)往往需要讀者去想象。
艾耶爾的測(cè)試結(jié)果顯示,這種在人類看來是自然而然的能力,對(duì)于人工智能來說卻是難于登天。
為了了解人工智能理解漫畫情節(jié)的能力如何,艾耶爾及其同事首先利用4000本高質(zhì)量漫畫書構(gòu)建了一個(gè)由120萬(wàn)張漫畫畫格(圖片)組成的數(shù)據(jù)集,其中每張畫格還配備有相應(yīng)的文本對(duì)話框轉(zhuǎn)錄數(shù)據(jù),使得整體的數(shù)據(jù)集體積達(dá)到了 120GB。出于版權(quán)方面的考慮,這些數(shù)據(jù)集全部來自20世紀(jì)30年代至50年代的漫畫作品。
為了測(cè)試人工智能理解漫畫的能力,研究人員設(shè)計(jì)了讓人工智能程序根據(jù)之前見過的畫面預(yù)測(cè)下一個(gè)畫格的實(shí)驗(yàn)。首先,要讓人工智能學(xué)習(xí)漫畫的操作過程。研究小組將漫畫中的一個(gè)畫格及其文本投給不同的機(jī)器算法,讓它們學(xué)習(xí)一組漫畫中的每個(gè)畫格之間是如何相互連接的。
經(jīng)過訓(xùn)練之后,研究人員使用一組人工智能之前沒有見過的漫畫(由多張圖片組成)對(duì)人工智能機(jī)器進(jìn)行測(cè)試,并要求它們預(yù)測(cè)出下一張圖像、或后面的文本內(nèi)容。
其結(jié)果令人大跌眼鏡,人類預(yù)測(cè)漫畫的下一個(gè)情節(jié)或內(nèi)容的正確率可達(dá)到 80%,但人工智能的準(zhǔn)確度卻難以接近人類的水平。艾耶爾稱:“在該測(cè)試中,人工智能在任何一方面的表現(xiàn)都不及人類。”
其實(shí),該結(jié)果也不是特別令人意外。雖然機(jī)器學(xué)習(xí)在圖像和文本識(shí)別方面取得了顯著進(jìn)步,但仍缺乏人類大腦所具備的常識(shí)和邏輯能力。因此,在理解漫畫方面人類仍更勝一籌,或者說至少目前如此。(編譯/譚燃)