科技是人類現有文化的延伸。科技在延展了人類智慧的同時,也繼承了人們的偏見和歧視。
當前,人工(gōng)智能作爲第四次工(gōng)業革命中(zhōng)的代表性技術,正在迅速改變我(wǒ)們所認知(zhī)的世界。然而與此同時,現實世界中(zhōng),由人所創造、從人類數據中(zhōng)學習觀察的人工(gōng)智能,也常常表現出和人類相似的偏見,不論是招聘中(zhōng)的性别歧視,還是人臉識别下(xià)的種族誤判。
歧視的發生(shēng)不僅折射出社會中(zhōng)原就存在的性别陳規與偏見,并且,在設計與營銷決策的過程中(zhōng),人工(gōng)智能還将進一(yī)步放(fàng)大(dà)這些偏見。在科技能量日益增強的當下(xià),思考和解決這些歧視的發生(shēng)變得越
來越重要。
AI偏見,是人類意志(zhì)的産物(wù)
與随機雜(zá)亂、物(wù)競天擇的進化過程不同,人工(gōng)智能是人類意志(zhì)的産物(wù),是爲了達成某種目的而形成的。盡管人工(gōng)智能作爲技術包含着一(yī)個客觀結構,但人工(gōng)智能同時服務于人的目的理性活動。
也就是說,任何一(yī)種人工(gōng)智能算法在誕生(shēng)前就已經被概念化,并且在開(kāi)發的過程中(zhōng)必然伴随着開(kāi)發者的意志(zhì)。
然而,從開(kāi)發者的角度來看,美國勞工(gōng)局的數據顯示,
雖然女性在勞動力市場中(zhōng)占了59%的比例,但在科技界往往隻有20-30%的女性員(yuán)工(gōng)。在與程序開(kāi)發相關的工(gōng)作中(zhōng),網站開(kāi)發是女性比例最高的職業,但也隻有不到40%。
據估計,截至2018年,僅僅在美國就有140萬個與計算機相關的就業機會,而女性隻會獲得這其中(zhōng)29%的工(gōng)作。
人工(gōng)智能的開(kāi)發也很自然地繼承了從業上的性别不平衡,沒有足夠的女性樣本參與使得人工(gōng)智能的知(zhī)識不可避免地出現漏洞,這就是爲什麽會出現偏差錯誤的原因。
人工(gōng)智能Now作爲一(yī)家研究人工(gōng)智能對社會影響的研究機構,其研究就
表明,
男性主導的人工(gōng)智能産業與其生(shēng)産的歧視性系統及産品之間有着明顯的聯系。比如,在機器學習領域裏,其偏見的來源就包括不完整的或有偏差的訓練數據集、訓練模型代入人的标簽和偏見,以及算法和技術的缺陷。
當訓練數據中(zhōng)缺少某種統計類别時,人工(gōng)智能習得的模型就無法正确衡量這部分(fēn)特征。如果訓練數據中(zhōng)男性比例過低,這一(yī)算法模型應用于男性時就有更大(dà)的誤差;如果訓練數據中(zhōng)關于“醫生(shēng)”的照片大(dà)部分(fēn)是女性,搜索“醫生(shēng)”圖片時,算法就會放(fàng)大(dà)女性出現的概率。
于是,當科技從業者們的性别不平衡進一(yī)步表現在有偏差的訓練數據集裏時,性别歧視就出現了。亞馬遜的Alexa和蘋果的Siri等常見人工(gōng)智能系統的核心——自然語言處理(NLP)就存在性别偏見,人工(gōng)智能在詞嵌入上的性别偏見,就像單詞聯想遊戲一(yī)樣。其中(zhōng),這些系統通常将“男人”與“醫生(shēng)”相關聯,将“女人”與“護士”相關聯。而這也正是訓練樣本不完整、不足的典型代表。
從訓練模型代入人的标簽和偏見來看,絕大(dà)多數商(shāng)業人工(gōng)智能系統都使用監督機器學習,因此訓練數據需要人爲打上标簽。這個過程中(zhōng),就難免會有意無意将人的偏見編碼到算法模型中(zhōng)。
倘若人在設定标簽時,将“身材的胖瘦”與“美”聯系起來,算法自然會繼承這一(yī)偏見。
同時,這些偏見在算法和技術的缺陷下(xià)進一(yī)步被隐匿,當算法和所有人的生(shēng)活都緊密相關時,算法卻以一(yī)種所有人都無法理解的方式在黑箱操作。“算法黑箱”帶來的某種技術屏障使得無論是程序錯誤,還是算法歧視,在人工(gōng)智能的深度學習中(zhōng),都變得難以識别。偏見也因而無從解釋。
此外(wài),正是由于科技行業女性的低比例,使得科技行業彌漫的性别偏見難以打破、研發出來的人工(gōng)智能産品折射出來的男尊女卑的“女性觀”得不到糾偏。這種物(wù)化女性、加固性别刻闆印象的趨勢則進一(yī)步打擊了女性進入科技界的意願。
從開(kāi)發到應用,性别的歧視就在這樣的不良循環裏存在着,随時發生(shēng)着。
适時糾偏,重建技術公平
當前,偏見、歧視、錯誤都是人工(gōng)智能進步的必經之路,其前提是人們能夠在意識到偏見存在時做出改變,适時糾偏。
顯然,人工(gōng)智能算法由人類開(kāi)發,被人類使用。開(kāi)發者們的價值觀和偏見都将對算法造成極大(dà)影響。
這也是爲什麽社會需要更多的女性科研人員(yuán)參與人工(gōng)智能的設計,甚至是将女性用戶的需求以及尊重性别平等的理念融入到人工(gōng)智能的系統裏的重要原因。
從技術開(kāi)發的過程來看,不公正的數據集則是偏見的土壤——如果用于訓練機器學習算法的數據集無法代表客觀現實情況,那麽這一(yī)算法的應用結果往往也帶有對特定群體(tǐ)的歧視和偏見。事實上,算法存在的前提就是數據信息,而算法的本質則是對數據信息的獲取、占有和處理,在此基礎上産生(shēng)新的數據和信息。
簡言之,算法是對數據信息或獲取的所有知(zhī)識進行改造和再生(shēng)産。
由于算法的“技術邏輯”是結構化了的事實和規則“推理”出确定可重複的新的事實和規則,以至于在很長一(yī)段時間裏人們都認爲,這種脫胎于大(dà)數據技術的算法技術本身并無所謂好壞的問題,其在倫理判斷層面上是中(zhōng)性的。
然而,随着人工(gōng)智能的第三次勃興,産業化和社會化應用創新不斷加快,數據量級增長,人們逐漸意識到算法所依賴的大(dà)數據并非中(zhōng)立。它們從真實社會中(zhōng)抽取,必然帶有社會固有的不平等、排斥性和歧視的痕迹。
因此,算法偏見最直接的解決思路就是将原本不均衡的數據集進行調整。
比如,确保訓練樣本的多樣性,在訓練數據中(zhōng)使用與男性數量相近的女性樣本,确保給樣本打标簽的人們有着多元化的背景等。
2018年,微軟就曾與專家合作修正和擴展了用于訓練Face API的數據集。Face API作爲微軟Azure中(zhōng)的一(yī)個API,提供預訓練算法以檢測、識别和分(fēn)析人臉圖像中(zhōng)的屬性。
新數據通過調整膚色、性别和年齡等所占的比例,将膚色較深的男性和女性之間的識别錯誤率降低20倍,女性的識别誤差率則降低9倍。
此外(wài),也有公司嘗試通過構建全球社區,大(dà)規模地把某個組織可能在尋找的任何信息彙集起來,并以這種廣度和深度相結合的方式進行,這使得引入截然不同的數據來訓練人工(gōng)智能系統成爲可能,以幫助克服算法偏見等問題。
毋庸置疑,構建更加公正的數據集是算法偏見重要的解決方法之一(yī),在此基礎上,還可以應用新的機器學習去(qù)除偏見的技術。比如,哥倫比亞大(dà)學的研究者曾開(kāi)發的一(yī)款名爲DeepXplore的軟件,就可以通過技術手段使得系統犯錯,以暴露算法神經網絡中(zhōng)的缺陷。
DeepXplore使用差分(fēn)測試,通過以不同的方式看待事物(wù)。如果其他模型都對給定的輸入做出一(yī)緻的預測,而隻有一(yī)個模型對此做出了不同的預測,那麽這個模型就會被判定有一(yī)個漏洞的方法,爲打開(kāi)黑箱做出了重要的貢獻。
此外(wài),2018年,谷歌也曾推出新工(gōng)具 What-If,作爲 TensorBoard 中(zhōng)用于檢測偏見的工(gōng)具。利用該工(gōng)具,開(kāi)發者可以通過交互式可視界面和反事實推理探究機器學習模型的特征重要性,找出誤分(fēn)類原因、确定決策邊界,檢測算法公平性等。
顯然,現實社會中(zhōng)的偏見産生(shēng)的原因盤根錯節,技術作爲一(yī)面鏡子,映射了人類社會許多固有的偏見。盡管長期以來,人們都一(yī)直緻力于消除偏見,但人們至今也尚未徹底将其消滅。
偏見作爲生(shēng)活中(zhōng)不可避免的事實而存在着,但這并不意味着偏見和歧視也是新技術不可避免的方面。人工(gōng)智能作爲第四次工(gōng)業革命中(zhōng)的代表性技術,始終有機會重新開(kāi)始糾正偏見。技術由人類開(kāi)發,爲人類服務,而能否創造對每個人都有效和公平的技術,從來都取決于人類,而不是機器。
免責聲明
本文來自騰訊新聞客戶端自媒體(tǐ),不代表騰訊新聞的觀點和立場。