此外,許多由ConceptNet給出的錯(cuò)誤答案和兒童給出的錯(cuò)誤答案不僅相去甚遠(yuǎn),而且違反常識(shí)。
例如,在關(guān)于 獅子 的詞語推理測(cè)驗(yàn)中,該AI系統(tǒng)和首測(cè)兒童被給予三條線索 雄性長(zhǎng)著鬃毛 , 該動(dòng)物生活在非洲 ,以及 它是一種體型很大的棕黃色貓科動(dòng)物 。
由ConceptNet給出的排名前五的答案按順序排列為:狗,農(nóng)場(chǎng),生物,家庭,貓。
研究團(tuán)隊(duì)解釋道, 生物 和 貓 尚且還能與 獅子 沾邊,但其它的答案就明顯有悖于常識(shí)了。
按照常識(shí),受測(cè)者應(yīng)該至少能將答案限制在動(dòng)物的范圍內(nèi),同時(shí)能做出簡(jiǎn)單的推理: 既然線索說它是貓科動(dòng)物,那只有貓科動(dòng)物能夠被列入考慮范圍。
該論文被發(fā)表在期刊《arXiv》上,共同作者包括羅伯特?斯隆(Robert Sloan)、捷爾吉?圖蘭(Gy?rgy Tur n)和阿隆?尤拉斯基(Aaron Urasky)。
ConceptNet系統(tǒng)的得分與四歲兒童相仿,但低于五至七歲兒童的平均得分。這說明該系統(tǒng)并不具備 四歲兒童 的語言能力,但可以為評(píng)估類似系統(tǒng)提供指導(dǎo)方法。
測(cè)試方法
研究人員讓ConceptNet 4參與了 韋克斯勒學(xué)齡前兒童智力量表 測(cè)試(WPPSI-III),并將研究結(jié)果發(fā)表在論文《Measuring an Artificial Intelligence System's Performance> 操作智商測(cè)驗(yàn)通常會(huì)要求受測(cè)人完成繪畫、解謎、記憶等任務(wù)。言語智商測(cè)驗(yàn)則會(huì)考察兒童的詞語推理、詞匯及理解能力。每種智商得分的平均分都為100分。本次研究則主要針對(duì)言語智商進(jìn)行測(cè)試。
在測(cè)試過程中,試題會(huì)通過語言處理工具轉(zhuǎn)換成ConceptNet 4能夠理解的語言,如 我們?yōu)槭裁匆帐郑?、 我們?yōu)槭裁匆谙奶齑魈栫R? 和 為什么將刀子放入嘴中是不好的行為? 等等。
該研究由芝加哥大學(xué)的斯特蘭?奧爾森(Stellan Ohlsson)帶領(lǐng)。在對(duì)單項(xiàng)測(cè)試計(jì)分時(shí),研究人員先使用每道題目得分最高的答案計(jì)分,然后再使用每道題目得分最高的前五個(gè)答案中最好的答案計(jì)分。他們將前者稱為 嚴(yán)格計(jì)分 ,后者稱為 放松計(jì)分 。
什么是ConceptNet
ConceptNet是一項(xiàng)由麻省理工學(xué)院常識(shí)計(jì)算計(jì)劃團(tuán)隊(duì)(MIT Common Sense Computing Initiative)管理的開源項(xiàng)目。該團(tuán)隊(duì)研發(fā)的ConceptNet 4運(yùn)用了所謂的 關(guān)系 這一概念。
例如,當(dāng)讓該系統(tǒng)解釋什么是 小鹿 時(shí),它會(huì)明白 小鹿是一種鹿 ,而不是 鹿是一種小鹿 。也就是說,它能夠理解這種動(dòng)物的概念,以及 小鹿 和 鹿 這兩個(gè)詞匯和概念之間的關(guān)系。
同時(shí),該系統(tǒng)還可以使用所謂的 對(duì)立標(biāo)記 表示負(fù)相關(guān)關(guān)系,比如 企鵝不會(huì)飛 等。
登陸|注冊(cè)歡迎登陸本站,認(rèn)識(shí)更多朋友,獲得更多精彩內(nèi)容推薦!