關(guān)于未來的AI會是什么樣子的討論從未停止過,有一些專家認為這些機器會具有很強的邏輯性,而且非??陀^非常理性。但是普林斯頓大學的研究者們已經(jīng)證實了,人工智能其實也會學到創(chuàng)造它們的人的壞習慣。
機器學習程序通常是用網(wǎng)絡上就能找到的正常人類對話進行訓練的,那么它們在學習語言的過程中,也能夠同步學到隱藏在字面意思后面的文化偏見。
4月14日的《科學》雜志刊登了研究者們的這項發(fā)現(xiàn)。Arvind Narayanan是這篇論文的作者之一。他擔任著普林斯頓大學和CITP(信息技術(shù)政策研究所)的副教授職位,同時他還是斯坦福法學院網(wǎng)絡與社會研究中心合作學者。在他看來,“機器學習在公平和偏見方面表現(xiàn)出的問題會對社會產(chǎn)生極為重要的影響。”
論文的第一作者Aylin Caliskan在普林斯頓大學的博士后工作站進行著研究,他同樣加入了CITP。論文還有一位參與者是英國巴斯大學的學生,也加入了CITP。
Narayanan說:”我覺得目前的狀況是,這些人工智能系統(tǒng)正在給這些曾經(jīng)存在過的偏見一個持續(xù)下去的機會?,F(xiàn)代社會可能無法接受這些偏見,我們也需要避免出現(xiàn)這些偏見。“
研究人員用內(nèi)隱聯(lián)想測驗(IAT)的方法來測試機器學習程序的偏見程度。自從上世紀90年代華盛頓大學開發(fā)出了這套測試以來,它作為人類偏見的試金石,被運用在無數(shù)的社會心理學研究中。它的測試過程中會要求人類被測者把電腦屏幕上的單詞根據(jù)意思進行配對,并以毫秒為單位記錄下所花的時間。這項測試也反復證明了,如果被測者覺得兩個單詞的意思越匹配,他所花的時間就越會明顯地短。
比如,“玫瑰”、"雛菊" 這樣的單詞就可以和正面的詞匯 "愛撫"或者“愛情”配對,而"螞蟻"、"飛蛾"這樣的單詞就會和“骯臟”、“丑陋”這樣的單詞配對。人們給描述花的單詞配對的時候,會更快地配對到正面詞匯上去;同樣地,給描述昆蟲的單詞配對的時候,就會更快地配對到負面詞匯上去。
普雷斯頓團隊用機器學習版的IAT測試程序GloVe設(shè)計了一個實驗。GloVe是斯坦福大學的研究者編寫的熱門開源程序,單獨看甚至可以作為一個初創(chuàng)機器學習公司產(chǎn)品的核心功能。GloVe的算法可以算出一段話中指定的單詞一同出現(xiàn)的概率。那么經(jīng)常一同出現(xiàn)的單詞之間就有更高的相關(guān)性,不經(jīng)常一起出現(xiàn)的單詞的相關(guān)性就較低。
斯坦福大學的研究者們讓GloVe從網(wǎng)絡上廣泛獲取了大約8400億詞的內(nèi)容。在這樣的詞匯庫中,Narayanan和他的同事們查看了很多組目標詞匯,比如“程序員、工程師、科學家”,或者“護士、老師、圖書館員”,然后跟兩組屬性詞匯比如“男的、男性”和“女的、女性”進行交叉對比,看看人類在這些事情上會有怎樣的偏見。
然后結(jié)果展示出,既有“對花的喜歡多一些、對昆蟲的喜歡少一些”這樣比較單純、無攻擊性的偏好存在,也有跟性別、種族相關(guān)的嚴重偏見出現(xiàn)。普林斯頓的機器學習測試與人類參與對應的IAT測試體現(xiàn)出了如出一轍的結(jié)果。 具體舉個例子,這個機器學習程序會更多地把帶有家庭屬性的單詞和女性相關(guān)聯(lián),比如“父母”和“婚禮”;跟男性相關(guān)聯(lián)更多的則是與事業(yè)相關(guān)的單詞,比如“專業(yè)性”和“薪水”。當然了,這種結(jié)果很大程度上是對不同性別有著不對等的社會職能的真實、客觀反映,正如現(xiàn)實世界中確實有77%的美國計算機程序員都是男性。
這種社會職能的偏見最終可能會帶來有害的男權(quán)主義影響。比如,機器學習程序有可能在對句子做翻譯的過程中體現(xiàn)出、甚至加強了對性別的刻板印象。用到土耳其語中的不區(qū)分性別的第三人稱代詞”o”的時候,谷歌翻譯卻會把性別無關(guān)的”o bir doctor”和”o bir hem?ire”(醫(yī)生和護士)翻譯成帶有明顯性別區(qū)分的“他是醫(yī)生”和“她是護士”。
“機器學習并不會因為它們的設(shè)計和運行依靠數(shù)學和算法就變得客觀和公正,這個觀點在這篇文章中得到了重申;”微軟紐約研究院的高級研究員Hanna Wallach這樣說,她雖然沒有親身參與這項研究,但是她很清楚狀況,”相反地,只要機器學習的程序是通過社會中已經(jīng)存在的數(shù)據(jù)進行訓練的,那么只要這個社會還存在偏見,機器學習也就會重現(xiàn)這些偏見。"