又有算法被曝歧视黑人。近日,有用户在Facebook观看一段主角是黑人的视频后,被询问是否“愿意继续观看灵长类动物视频”。对此,Facebook致歉表示这是一个“不可接受的错误”,正在调查其算法功能。
此前,Twitter、Google均有被发现算法歧视黑人的事件。据悉,算法偏见与AI核心技术之一机器学习的技术环节有关。比如,机器学习使用的数据集如果带有来自现实社会的偏见,那么算法就会习得这些偏见。换句话说,如果AI歧视黑人、歧视女性,很大一部分原因是现实生活中本来就存在歧视黑人、歧视女性的现象。
1 黑人遇到算法偏见,这不是第一次
近日,有用户在Facebook观看一段黑人与白人平民和警察发生争执的视频之后,收到Facebook询问“是否愿意继续观看灵长类动物的视频”。据悉,该视频是由英国《每日邮报》在去年6月27日发布的,其中并没有包含与灵长类动物有关的内容。
据《纽约时报》报道,Facebook于上周五对此致歉,称这是一个“不可接受的错误”,并表示正在调查其算法推荐功能,防止这种情况再次发生。Facebook发言人Dani Lever发表声明称:“虽然我们对人工智能进行了改进,但我们知道它并不完美,还有很多地方需要改进。我们向任何可能看到这些冒犯性推荐信息的人道歉。”
前Facebook员工Darci Groves 在推特上发出了该推荐提示截图。有网友留言表达了对歧视的愤怒,也有人质疑视频中既有黑人也有白人,“也可能是将白人识别为‘灵长类动物’。”
前Facebook员工Darci Groves 发布的推特。
不过,这已不是黑人第一次遇到算法偏见。今年五月,Twitter的研究团队发表了一篇论文,通过实验证实了Twitter的缩略图算法在裁剪图片时更偏向白人以及女性,在裁剪多人照片时会更多裁掉黑人。随后,Twitter取消了在手机App上自动裁剪照片的功能,并发起算法偏见黑客竞赛,寻找代码中可能存在的偏见。
2015年,Google Photos 也曾将两位黑人的照片标记为“大猩猩”。为修正这一错误,谷歌直接从搜索结果中删除了这一词条的标签,这也导致不会有任何图片会被标记为大猩猩、黑猩猩或者猴子。
OpenAI于今年2月发布的一篇论文用数据量化了AI系统可能存在的算法偏见。他们发现,一些AI系统将黑人识别为非人类类别的概率最高,达到14.4%,是排在第二位的印度人的近2倍。
该论文的数据显示,一些AI系统将白人识别为犯罪相关类别的概率为24.9%,将黑人识别为非人类类别的概率为14.4%。
2 算法会习得现实社会中已存的偏见
一般而言,AI系统的开发者并不会故意地将偏见注入到算法中。那么,算法偏见来自哪里?
腾讯研究院曾于2019年发文分析了这一问题。他们认为,这与人工智能的核心技术——机器学习有关。而为算法注入偏见主要有三个环节:数据集构建、目标制定与特征选取(工程师)、数据标注(标注者)。
在数据集构建环节,一方面,一些少数群体的数据更难以获得,数据量较小,因此AI得到的训练也更少,从而使少数群体在算法中进一步被边缘化。另一方面,数据集来自现实社会,存在现实社会中存在的偏见,算法也会习得这些偏见。换句话说,如果AI歧视黑人、歧视女性,很大一部分原因是现实生活中本来就存在歧视黑人、歧视女性的现象。
此外,开发者在设定目标或选取标签时,也有可能带有个人偏见。数据标注者在数据打标时,不仅面临“猫或狗”这种易于判断的问题,也会面临“美或丑”这类价值判断的情况。这也会成为算法偏见的一大来源。
算法偏见具有不可知、不可查的特点,这对研发者提出了挑战。Twitter在今年发布的声明中提到,“发现机器学习模型的偏见是很难的。很多时候,当意外的道德危害被发现时,技术已经走向社会公众了。”
不过,算法偏见的危害正在显现。今年4月,美国联邦贸易委员会警告称,如果带有种族和性别偏见的人工智能工具,被用于信贷、住房或就业决策,可能违反了消费者保护法。
8月27日,国家网信办发布《互联网信息服务算法推荐管理规定(征求意见稿)》,对规制算法偏见进行探索。其中提到,算法推荐服务提供者提供算法推荐服务,应当遵守法律法规,尊重社会公德和伦理;应当加强用户模型和用户标签管理,不得设置歧视性或者偏见性用户标签。
采写:南都记者马嘉璐
,