我們一般都把機器,尤其是智能機器,看成是冰冷的,計算能力強的,而且是無偏差的。我們相信,自主駕駛汽車對于駕駛員和隨便一個行人之間的生死抉擇沒有偏頗。我們相信,智能系統(tǒng)在進行信用評估時,除了考慮真正有影響力的指標,如收入和FICO值,會忽略其他一切干擾。我們也知道,學習系統(tǒng)受非偏頗算法的驅動,將總向ground truth收斂。
對于我們中的一些人來說,這是一個錯誤:機器不應該在它們公正不阿的視角之外加入感情。對于其他人來說,這是一個特征:它們應該不受人類偏差的影響。但是在這兩者之間,有一種觀點是它們應該是客觀的。
當然,任何一種觀點都沒有真相來的震撼。真相是,不僅極少有智能系統(tǒng)可以做到無偏差計算,而且有很多因素會導致偏差。因素包括我們訓練系統(tǒng)所用的數(shù)據(jù),我們與它們產(chǎn)生的交互,突發(fā)性偏差,相似性偏差以及沖突目標所造成的偏差。大部分的偏差來源是不容易發(fā)現(xiàn)的。但是既然我們要開發(fā)部署智能系統(tǒng),就應該要理解偏差,從而有意識地去設計,盡可能避免潛在偏差的發(fā)生。
數(shù)據(jù)造成的偏差
對于任何一個學習系統(tǒng)來說,它們的輸出都依賴于輸入。這不是一個新的概念,只是當我們面對那些接收數(shù)以百萬計的輸入進行學習的系統(tǒng)時,會將這個概念忽略。我們得想法是,單單就例子的數(shù)量來說,就可以彌補人類造成的偏差影響。但是如果訓練集本身選得不好,那么訓練的結果也會不盡人意。
最近,這種計算偏差在基于深度學習的圖像識別上很常見。Nikon在亞洲面孔識別上的錯誤和HP在膚色識別上的偏差,問題似乎都出在訓練集本身選取不當上。雖然上述問題都是可以解決的,但是它們也反映出當我們不對數(shù)據(jù)集做及時調整的話,檢測偏差可能會加劇。
除了面部識別,還有很多其他的偏差也與現(xiàn)實世界的影響有關。假釋犯的再犯率預測,犯罪模型預測以及潛在員工預測等這些應用在負面影響領域的學習系統(tǒng),當他們使用有偏差的數(shù)據(jù)進行訓練時,或者數(shù)據(jù)是正常的,但系統(tǒng)在決策時有偏差時,它們會在學習過程中繼續(xù)擴大這個偏差。
交互中的偏差
除了一些從數(shù)據(jù)集中學習的系統(tǒng)之外,還有一些系統(tǒng)從交互中學習。而它們遇到的偏差就來源于與用戶的交互。一個很有代表性的例子是微軟的Tay,這是一款基于聊天機器人的推特,聊天機器人就是要在與用戶交互中進行學習。不幸的是,Tay收到了一群具有種族歧視以及女性歧視的人的影響。這群人不停地將具有攻擊性的言語發(fā)布到Tay上,然后Tay系統(tǒng)就會將這些言語作為后續(xù)響應的輸入依據(jù)。
在Tay變成一個相當激進的種族歧視者的24小時內,微軟就將其關閉了。盡管在推特范圍內,Tay中的種族歧視者影響是有限的,但是這也反映出現(xiàn)實世界對智能系統(tǒng)的潛在影響。當我們開發(fā)的是基于人機交互的智能系統(tǒng)時,類似的訓練偏差會隨著外界環(huán)境的復雜而變得更糟。
換個角度,如果我們只將這些系統(tǒng)交給那些會帶來正向影響的人呢?不然我們無法相信系統(tǒng)關于誰可以貸款或誰將獲得假釋的抉擇。Tay給我們的教訓是學習系統(tǒng)的偏差可以來源于周圍人和環(huán)境的反饋,因為無論好壞,系統(tǒng)都會將訓練它們的人類觀點反映出來。
突發(fā)性偏差
有時,做個性化決定的系統(tǒng)可能會創(chuàng)造偏差“泡沫”。我們就看近期facebook的狀態(tài),就可以看到這種偏見的身影。在應用層,F(xiàn)acebook的用戶可以看到他們朋友的狀態(tài),并與朋友分享信息。
不幸的是,任何一種使用消息饋送分析的算法,都會根據(jù)用戶的瀏覽歷史定向推送內容。當用戶點開,收藏或分享內容時,這種定向推送的效果會進一步擴大。結果是,系統(tǒng)會呈現(xiàn)出一波與用戶現(xiàn)有的興趣很符合的信息,然而這可能是由偏差的。
盡管這些定向推出都是個性化的,而且常常是令人滿意的,但是這種推送已經(jīng)不能稱之為新聞了。這是一種泡沫信息現(xiàn)象,是一種算法版本的“確認偏見”。用戶不需要屏蔽那些與他們自身興趣相悖的信息,因為系統(tǒng)會自動做到這一點。