消除人工智能模型偏見的方法
2021-03-04 18:20:45
自動化決策工具在組織的應用中正變得越來越普遍。然而,其背后的一些機器學習(ML)模型(從面部識別系統到在線廣告)都清楚地表明在種族和性別方面存在偏見。隨著機器學習模型的廣泛采用,需要專業知識來確保人工智能更加公平。
機器學習模型應該消除偏見,而不是加劇歧視。為了構建公平的人工智能模型,必須首先使用更好的方法來識別產生人工智能偏見的原因,因此必須了解人工智能模型如何學習其輸入和輸出之間的偏差關系。
研究人員已經確定了人工智能中具有的三種偏見:算法偏見、負面影響、低估。當受保護的特性和用于決策的信息之間存在統計的依賴性時,就會出現算法偏見。負面影響是指用于訓練人工智能模型的數據中已經存在的偏差。當沒有足夠的數據使人工智能模型對人口的某些部分做出可靠的結論時,就會出現低估。以下深入研究每一個問題:
1.算法偏見
算法上的偏見源于受保護的特性與其他因素之間的相關性。當發生這種情況時,不能僅通過從分析中刪除受保護的特性來減少偏差,因為其相關性可能導致基于非保護因素的有偏見的決策。
例如,美國早期的預測性警務算法在進行預測時并不能直接獲取種族的數據,這些模型嚴重依賴于與種族相關的地理數據(如郵政編碼)。這樣,對性別和種族等人口統計數據“盲目”的模型仍然可以通過與受保護屬性統計相關的其他特征對這些信息進行判斷。
美國消費者金融保護局致力于確保貸款機構遵守其公平貸款法規,該局發現了一些統計方法將地理和姓氏信息結合起來,對于種族和族裔代理的判斷提供了更高的準確率。這個發現駁斥了一種普遍存在的誤解,即如果算法不能訪問受保護的數據,將自動減少偏差。這種被稱為代理歧視的現象,一旦查明了根本原因,就可以緩解這種稱為代理歧視的現象。也就是說,可以通過在創建代理功能的模型中定位中間計算,并將其替換為與受保護屬性相關性較小的值來糾正違規行為。
與人們的直覺相反,在某些情況下,從模型訓練中刪除受保護特性的解決方案實際上會傷害到已經處于不利地位的群體。例如,在美國司法系統中,美國懲教機構和假釋委員會使用風險因素清單對監禁和釋放做出公正的決定。當人類和人工智能模型處理具有諸如性別、年齡、當前指控以及先前成人和青少年犯罪數量等基本信息時,人類和人工智能模型的表現是相當的。
然而,通過給人類和人工智能模型10個額外的與教育和物質使用相關的風險因素,研究人員發現機器學習模型更準確,更不容易產生偏見。這強調了需要了解人工智能模型偏差的根本原因,而不是盲目地采用補救策略。
2.負面影響
人工智能算法的偏見也有可能直接來自其訓練數據中存在的類似偏差。例如,受過訓練以執行語言翻譯任務的機器學習模型傾向于將女性名字與“父母”和“婚禮”等屬性相關聯,而男性名字與諸如“專業”和“薪酬”之類的單詞之間的關聯性更強。該模型不太可能會自己建立關聯。與其相反,它是在反映這些性別取向的文本素材庫上進行訓練的。這是產生負面影響的一個例子。
在自然語言處理中,性別偏見是一個令人困擾但經過充分研究的問題:對原因的清晰了解提供了糾正它的途徑。在英語這樣的名詞和形容詞傾向于性別的語言中,研究人員發現了強制詞嵌入以保持性別中立的方法。而在其他語言具有固有性別詞語的情況下,可以通過引入打破性別和中性詞之間因果關系的示例來增強語言素材庫,以防止出現偏見。
在其他應用領域中,負面影響可能是最難緩解的偏見之一,因為偏見固有地內置于機器學習模型從中學習的數據集中。因此,該模型可以將多年來對某一人群的系統性偏見進行編碼。例如,或者根據人們居住的地方拒絕向他們提供貸款,可能會使貸款批準數據集更側重于白人。數據中的這種偏差會導致人工智能模型的偏見。
盡管現有的緩解偏見策略可能會嘗試提高黑人申請者的信用接受率,但這可能會掩蓋該模型偏見的真正原因,并使其難以解決根本問題。FICO分數通常用作信貸決策的輸入,已經顯示出種族歧視。在這種情況下,事后偏差緩解策略的有效性將低于尋找與信用價值也存在因果關系的替代數據源。因此,通過尋找替代數據可以減輕負面影響。
3.低估
正如數據可能存在偏差一樣,也可能出現數據不足的情況。如果沒有足夠的數據,機器學習模型可能無法提供可靠的預測。這是被低估的問題。亞馬遜公司最近訓練了一種機器學習模型,以在招聘過程中篩選求職者,但與許多其他科技公司一樣,亞馬遜的勞動力隊伍男性比例過高。這種數據失衡使得其人工智能模型在評估男性時更加側重,亞馬遜公司認識到這種模型的推薦人選存在偏差,因此在其招聘渠道中取消了這種模型。
如果尋找更多或更好的數據,亞馬遜公司或許能夠構建出一種無偏見的招聘工具,但是如果不能正確地理解出現這種偏見的原因,這是不可能實現的。而在低估的情況下,模型的預測確定性可以跨人群的子組進行分析,通過自動增加新實例,可以使基礎數據集實現多樣化。
衡量模型確定性和穩定性的方法對于了解模型是否準備好對所有人群做出可靠的預測至關重要。在低估的情況下,提供的數據集無法充分表現出數據的細微差別。但是,用于促進公平或事后偏向緩解策略的對抗性訓練技術可能不會像將數據集擴展得更全面。
人工智能算法可以編碼并保持偏見,這已經不是什么秘密,這可能會帶來不良的后果。盡管這描繪了一種嚴峻的場景,但重要的是要記住,如果處理得當,算法偏差(與人類偏見不同)最終是可以量化和固定的。與盲目減少人工智能偏見不同,準確理解偏見背后的真正原因對部署安全可靠的人工智能至關重要。
盡管這些原因很復雜,但研究人員仍在繼續開發更好的方法來衡量特定人群的不同結果,確定導致這些差異的特征,并為特定的偏見來源選擇合理的緩解策略。隨著越來越多的決策實現自動化,必須從根本上消除人工智能偏見,以創建公平和公正的模型