如何讓“算法公平”成為機(jī)器學(xué)習(xí)的一部分?
也許每一個(gè)還在追求模型效率與性能的算法工程師,都應(yīng)該開(kāi)始考慮將設(shè)計(jì)公平性引入自己的工作當(dāng)中。
大數(shù)據(jù)和人工智能的崛起,為我們的生活帶來(lái)了許多的便利。
當(dāng)我們打開(kāi)新聞客戶(hù)端,看到的不再是千篇一律的編輯推薦,而是AI引擎對(duì)我們?nèi)粘O埠眠M(jìn)行學(xué)習(xí)后精心準(zhǔn)備的新聞;當(dāng)我們打開(kāi)電商 App,看到的不再是商家想要賣(mài)什么,而是我們想要買(mǎi)什么;當(dāng)我們打開(kāi)旅游網(wǎng)站,看到的也不再是那些人滿(mǎn)為患的旅游經(jīng)典而是為我們量身定制的旅游路線(xiàn)。
但同時(shí),這也為我們帶來(lái)了一些隱憂(yōu)——由于每個(gè)人看到的內(nèi)容都是不同的,那么AI是否會(huì)把更貴的產(chǎn)品賣(mài)給我,或是更偏激的觀點(diǎn)推送給我?
事實(shí)上,這是完全有可能的,在國(guó)內(nèi)甚至已經(jīng)有了一個(gè)專(zhuān)有名詞來(lái)形容這一現(xiàn)象“大數(shù)據(jù)殺熟”。
但有時(shí),算法不止決定了商品的價(jià)格和推送的內(nèi)容,隨著人工智能被應(yīng)用于反恐、征稅、案件預(yù)審、醫(yī)療、保險(xiǎn)等公共領(lǐng)域,算法的判斷還決定著我們每個(gè)人的公民福祉。
這樣的例子在全世界已經(jīng)多次發(fā)生,比如Twtter的聊天機(jī)器人在上線(xiàn)一天之后就被網(wǎng)友“教”成了滿(mǎn)嘴臟話(huà)的壞孩子,不得不被迫下線(xiàn);Google Photos 的照片智能識(shí)別功能將黑人與黑猩猩分成了一組;求職網(wǎng)站的廣告會(huì)默認(rèn)為女性用戶(hù)推送比男性用戶(hù)薪水更低的廣告等等……
在美國(guó),甚至有法官對(duì)一個(gè)僅有偷車(chē)行為的嫌犯下達(dá)了 8 年有期徒刑的判決,理由只是因?yàn)閰f(xié)助審判的人工智能工具 COMPAS 認(rèn)為此人“極具危險(xiǎn)”。
正如我們之前在《西部世界,能給現(xiàn)實(shí)世界的人工智能帶來(lái)怎樣的啟示》一文中提到的,由于人工智能(無(wú)論是現(xiàn)實(shí)中還是科幻作品中)總是通過(guò)一個(gè)快速且脫離人類(lèi)社會(huì)與歷史的學(xué)習(xí)來(lái)完成自我構(gòu)建,所以他們存在天生的“道德缺陷”。
那么,在現(xiàn)實(shí)中是否有一種方法,能夠?qū)⒎雌缫暋蛘哒f(shuō)算法公平——植入到機(jī)器學(xué)習(xí)模型的設(shè)計(jì)中呢?
答案是:或許可行。
在最近的一期哈佛商業(yè)評(píng)論上,弗吉尼亞大學(xué)麥金泰爾商學(xué)院商業(yè)分析中心的副院長(zhǎng) Ahmed Abbasi、弗吉尼亞大學(xué)麥克因泰爾商學(xué)院的信息技術(shù)助理教授李晶晶、埃默里大學(xué)生物醫(yī)學(xué)信息學(xué)系主任 Gari Clifford 和默爾豪斯醫(yī)學(xué)院的醫(yī)學(xué)教授和心血管研究所所長(zhǎng) Herman Taylor 聯(lián)合署名發(fā)表了文章 Make “Fairness by Design” Part of Machine Learning,文章從產(chǎn)品構(gòu)建的角度闡釋了一些防止算法歧視的思路。
之所以這篇文章的作者中有幾位醫(yī)學(xué)專(zhuān)家,是因?yàn)檫@些經(jīng)驗(yàn)是他們?cè)谝粋€(gè)與美國(guó)聯(lián)邦政府合作的物聯(lián)網(wǎng)醫(yī)療平臺(tái)設(shè)計(jì)中總結(jié)出來(lái)的。
該項(xiàng)目通過(guò)移動(dòng)終端和各種物聯(lián)網(wǎng)設(shè)備搜集數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)模型對(duì)這些數(shù)據(jù)進(jìn)行處理并形成中風(fēng)和早期心血管疾病的預(yù)測(cè),并幫助醫(yī)生做出診療判斷。
在項(xiàng)目設(shè)計(jì)中,他們采用了這些步驟來(lái)減少算法形成種族、性別歧視的可能性:
1. 將數(shù)據(jù)科學(xué)家與社會(huì)科學(xué)家組隊(duì)
通常來(lái)說(shuō),數(shù)據(jù)科學(xué)家與社會(huì)科學(xué)家有著不同的話(huà)語(yǔ)體系。
對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō),“bias”(偏差/偏見(jiàn))具有特定的技術(shù)含義——它特指的是分類(lèi)模型中的分割水平。
類(lèi)似地,術(shù)語(yǔ)“discriminatory potential”(判別潛力/歧視性潛力)是指模型能夠準(zhǔn)確區(qū)分?jǐn)?shù)據(jù)類(lèi)別(例如,判斷心血管疾病高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)的患者)的程度。
在科學(xué)數(shù)據(jù)中,找到更大的“歧視潛力”是首要目標(biāo)。相比之下,當(dāng)社會(huì)科學(xué)家談?wù)?bias 或 discriminatory potential 時(shí),他們更可能是指公平問(wèn)題。社會(huì)科學(xué)家通常能夠更好地提供關(guān)于公平和偏見(jiàn)的人文觀點(diǎn)。
在他們的項(xiàng)目中,從一開(kāi)始就確保包括心理學(xué)家、心理計(jì)量師、流行病學(xué)家以及專(zhuān)門(mén)處理不同人群健康的人在一起工作。這使整個(gè)項(xiàng)目團(tuán)隊(duì)能夠更好、更及時(shí)地了解可能蔓延到機(jī)器學(xué)習(xí)過(guò)程中的人口偏差。
2. 謹(jǐn)慎打標(biāo)簽
在構(gòu)建模型之前,團(tuán)隊(duì)拿到的原始大數(shù)據(jù)往往并非是結(jié)構(gòu)化的,比如用戶(hù)輸入的大段文字或是一些影像學(xué)檢查的圖片。
而這些非結(jié)構(gòu)化的數(shù)據(jù)會(huì)先經(jīng)由人類(lèi)進(jìn)行一次結(jié)構(gòu)化的打標(biāo)簽,再用于訓(xùn)練機(jī)器學(xué)習(xí)模型。
這種做法在機(jī)器學(xué)習(xí)領(lǐng)域十分常見(jiàn),比如 Google Photos 就有一個(gè)頁(yè)面允許你幫助判斷一張圖片是否是貓。
在更復(fù)雜的情況下,可能還需要讓人工來(lái)判斷哪些文本帶有正面情緒,哪些是負(fù)面情緒。
人工打標(biāo)簽服務(wù)已經(jīng)成為一種大數(shù)據(jù)時(shí)代的典型商業(yè)模式,許多眾包平臺(tái)和外包公司都會(huì)承接科技公司海量的數(shù)據(jù)流水打標(biāo)簽。
但由于人類(lèi)本身就存在基于文化、種族和宗教的偏見(jiàn),因此在打標(biāo)簽過(guò)程中這種偏見(jiàn)可能被轉(zhuǎn)移到結(jié)構(gòu)化的數(shù)據(jù)上。
在文章作者的項(xiàng)目中,他們預(yù)計(jì)這可能會(huì)給最終模型帶來(lái)偏見(jiàn)。
比如,盡管兩人的健康水平(理想值)是相當(dāng)?shù)模绻粋€(gè)人的資料中含有大量的拼寫(xiě)錯(cuò)誤和語(yǔ)法錯(cuò)誤,那么他或她就有可能被批注人員在某些數(shù)值上打上更低的分。
這最終可能導(dǎo)致健康預(yù)測(cè)模型會(huì)形成對(duì)語(yǔ)法或拼寫(xiě)錯(cuò)誤者存在健康偏見(jiàn)。
作者發(fā)現(xiàn),減少這種偏見(jiàn)的方法是在針對(duì)打標(biāo)簽者的培訓(xùn)中要引入關(guān)于潛在偏見(jiàn)可能性案例的模塊。但是,在他們的項(xiàng)目中由于更依賴(lài)于用戶(hù)提交的自我結(jié)構(gòu)化數(shù)據(jù),因此不存在這一問(wèn)題,因?yàn)橛脩?hù)不會(huì)自我歧視。不過(guò),這偶爾也會(huì)帶來(lái)一些其他問(wèn)題。
3. 將傳統(tǒng)的機(jī)器學(xué)習(xí)指標(biāo)與公平度量相結(jié)合
在過(guò)去,評(píng)價(jià)一個(gè)機(jī)器學(xué)習(xí)模型的好壞總是使用一組與性能相關(guān)的指標(biāo)來(lái)實(shí)現(xiàn)。比如整體性能、類(lèi)級(jí)性能或是模型的普遍適用性等。
而在對(duì)機(jī)器學(xué)習(xí)模型的評(píng)價(jià)中引入公平性量度可以很好的糾正一些由于偏見(jiàn)或歧視引發(fā)的問(wèn)題。這事實(shí)上也是對(duì)機(jī)器學(xué)習(xí)模型性能的一種改進(jìn),因?yàn)樾拚诉@些問(wèn)題,意味著機(jī)器學(xué)習(xí)模型不再對(duì)某些特定群體做出偏差很大的測(cè)算,從而可以提高整體的準(zhǔn)確性。
在作者的項(xiàng)目中,研究人員檢查了模型在不同的人口群體中的表現(xiàn),以及基本的模型假設(shè)。納入的重要公平措施包括內(nèi)部和跨部門(mén)的真/假、正/負(fù)比率以及對(duì)人口變量的依賴(lài)程度。
對(duì)于目前看似公平的部分而言,如果人口變量相對(duì)于其他變量有很大的權(quán)重,并充當(dāng)預(yù)測(cè)的主要推動(dòng)者,那么未來(lái)的數(shù)據(jù)中可能存在偏見(jiàn)的可能性。
4. 采樣時(shí),平衡代表性與群聚效應(yīng)臨界點(diǎn)(critical mass constraints)[1]
在剔除無(wú)關(guān)歧視性數(shù)據(jù)的同時(shí),并不代表不對(duì)某些特定的極端情況進(jìn)行考慮。在傳統(tǒng)的統(tǒng)計(jì)學(xué)采樣中,一般認(rèn)為只要能反應(yīng)出所采樣的整個(gè)群體的特征即可。
這種做法存在的一個(gè)問(wèn)題是,它低估了整個(gè)群體內(nèi)包含的某個(gè)特定少數(shù)群體所發(fā)生的病例。表面上看,這似乎并不是一個(gè)太大的問(wèn)題。因?yàn)槟P鸵廊豢梢浴皽?zhǔn)確”的預(yù)測(cè)整個(gè)群體的發(fā)病幾率。但是當(dāng)落實(shí)到這些特定群體的個(gè)體時(shí),模型就會(huì)對(duì)他們發(fā)病幾率的預(yù)測(cè)就會(huì)出現(xiàn)顯著的偏高或偏低。
在作者的項(xiàng)目中,他們采用了對(duì)某些與疾病相關(guān)的人口群體案例進(jìn)行大量過(guò)度抽樣的方法,來(lái)刻意滿(mǎn)足最終形成的機(jī)器學(xué)習(xí)模型在預(yù)測(cè)一個(gè)“普通人”和預(yù)測(cè)一個(gè)“特殊群體”時(shí)都能給出更正確的答案。
5. 比起技術(shù)手段,更重要的是保持意識(shí)
文章提到,即便是采用了上述措施,也不能完全消除在模型構(gòu)建中出現(xiàn)歧視的可能。所以他們通常要在模型構(gòu)建和訓(xùn)練的各個(gè)階段停下來(lái)去檢查是否有潛在的歧視因素卷入了模型。
作者還提到了兩種方法用以對(duì)形成歧視的模型進(jìn)行糾偏,一種是將訓(xùn)練數(shù)據(jù)中所有與人口學(xué)相關(guān)的信息剔除;另一種是將額外的公平性措施引入機(jī)器學(xué)習(xí),比如上文提到的手工放大、縮小少數(shù)族群或邊緣案例的重要性。
在作者的項(xiàng)目中,他們發(fā)現(xiàn)這樣糾偏的行為對(duì)于算法訓(xùn)練中容易受到人口學(xué)偏見(jiàn)影響的部分十分有效。在這樣一套規(guī)則實(shí)施下來(lái)之后,模型最終的公平性量度顯著提高,而模型的整體精確度也搞了幾個(gè)百分點(diǎn)。
在 Facebook、Google 和各類(lèi)互聯(lián)網(wǎng)公司相繼爆發(fā)了“算法歧視丑聞”之后,歐美已經(jīng)掀起了一陣反算法歧視的熱潮。許多技術(shù)人員對(duì)這一運(yùn)動(dòng)的直觀印象并不好,認(rèn)為“政治正確毀掉了技術(shù)創(chuàng)新”。
但在作者看來(lái),設(shè)計(jì)公平性并不是要把政治正確優(yōu)先于模型準(zhǔn)確性之上。通過(guò)仔細(xì)的設(shè)計(jì)和思考,設(shè)計(jì)公平性有助于研發(fā)人員開(kāi)發(fā)出更可靠的高精確性模型。它讓機(jī)器更加深刻的理解了每個(gè)人口學(xué)要素背后的復(fù)雜性。
引入設(shè)計(jì)公平性并不是通過(guò)一條“人人平等”的原則來(lái)抹平機(jī)器學(xué)習(xí)的成果,而是要引入相互對(duì)立的視角,從不同人、不同群體、不同階層的視角反向?qū)徱暀C(jī)器學(xué)習(xí)過(guò)程中的不同階段。
在作者的Stroke Belt項(xiàng)目中,設(shè)計(jì)公平性使他們能夠開(kāi)發(fā)出具有更高整體性能,更廣泛的人口適用性和更穩(wěn)健的預(yù)測(cè)模型——這使得醫(yī)療保健系統(tǒng)能夠更準(zhǔn)確的提前干預(yù)高危人群。
也許每一個(gè)還在追求模型效率與性能的算法工程師,都應(yīng)該開(kāi)始考慮將設(shè)計(jì)公平性引入自己的工作當(dāng)中。因?yàn)檫@不止會(huì)讓你建立更公平的模型,也能讓你達(dá)到你本來(lái)的目的——一個(gè)更完美的模型。
[1]群聚效應(yīng) (Critical mass)是一個(gè)社會(huì)動(dòng)力學(xué)的名詞,用來(lái)描述在一個(gè)社會(huì)系統(tǒng)里,某件事情的存在已達(dá)至一個(gè)足夠的動(dòng)量,使它能夠自我維持,并為往后的成長(zhǎng)提供動(dòng)力。
以一個(gè)大城市作一個(gè)簡(jiǎn)單例子:若有一個(gè)人停下來(lái)抬頭往天望,沒(méi)有人會(huì)理會(huì)他,其他路過(guò)的人會(huì)照舊繼續(xù)他們要做的事情。如果有三個(gè)人停了下來(lái)抬頭望天,可能會(huì)有多幾個(gè)人會(huì)停下來(lái)看看他們?cè)谧錾趺?,但很快又?huì)去繼續(xù)他們?cè)瓉?lái)的事。但假若當(dāng)街上抬頭向天望的群眾增加至5到7人,這時(shí),其他人可能亦會(huì)好奇地加入,看看他們到底在做什么。其中3人、5人,便是這個(gè)群聚效應(yīng)的臨界點(diǎn)。
?本文參考文章《Make “Fairness by Design” Part of Machine Learning》
原文:https://hbr.org/2018/08/make-fairness-by-design-part-of-machine-learning
譯者:王健飛 劉夢(mèng)喬
譯文地址:微信公眾號(hào)“騰訊研究院(ID:cyberlawrc)”
本文由 @騰訊研究院 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Pixabay,基于 CC0 協(xié)議
真不高