请选择 进入手机版 | 继续访问电脑版

石家庄老站长

点击联系客服
客服QQ:509006671 客服微信:mengfeiseo
 找回密码
 立即注册
查看: 13|回复: 0

纠正算法的偏见 到底是和机器打架 还是和人打架?

[复制链接]

1

主题

1

帖子

-7

积分

限制会员

积分
-7
发表于 2021-4-29 12:55:42 | 显示全部楼层 |阅读模式
编辑:这篇文章是微信公众号《传销派》(ID:quanmeipai),作者:Yuri,

Joy  Buolamwini是加纳裔科学家。有一次,在做与面部识别软件相关的作业时,她发现算法无法识别她的面部3354。除非她戴着白色面具。

这是Netflix最近上线的纪录片《编码偏见》的一个场景。这部关于算法偏见的纪录片还展示了算法在广告、招聘、金融服务、警察等多个领域对社会现有种族、阶级和性别偏见的延续。

受此启发,Joy  Buolamwini测试了许多面部识别商用软件,结果显示白人男性的性别被正确识别的概率达99%。随着肤色的变暗,错误率也呈指数级提高,近35%的黑人女性无法正常识别。

2020年,在国内,《外卖骑手,困在系统里》文章引发了广泛讨论,重点是外卖平台的算法系统。技术的进步改善了生活的各个方面,但问题逐渐浮现,人们不再相信算法决定是完全公平的。在AI等智能技术逐渐被包围的时代,算法偏见(algorithm  bias)逐渐成为重要的信息伦理问题,甚至是社会议题。

此次传销派(ID: Quanmeipai)以典型的算法偏见表达方式分析偏见如何通过算法出现在现实生活中,并介绍现实中技术公司在技术和操作者层面上为纠正算法偏见而可以做出的努力。

随处可见的算法偏见

去年,杜克大学科学家发表了一个算法,可以清晰地显示模糊的照片。但是,处理前总统奥巴马模糊的照片后,产生了鲜明的白人面孔。(威廉莎士比亚、奥巴马、奥巴马、奥巴马、奥巴马、奥巴马、奥巴马、奥巴马、奥巴马。





照片来源:Twitter/@Chicken3gg

这被认为是算法偏见的典型事例。算法偏见是在信息的生产、分发和验证过程中,受对用户中立立场的影响,单方面、虚假等信息观念扩散。现实生活中,算法偏见可能会发生在每个人身上。

清华大学新闻传播学院智媒研究中心在《算法治理与发展:以人为本,科技向善》报告中,将领域和对象中算法偏见的表达分为损害集体包容性的偏见、损害集体公平性的偏见和损害个人利益的偏见。[1]

有损包容性

对算法偏见的讨论大部分与种族、性别等指向其他群体的因素有关。这种偏见表明算法对其他群体的包容度不到——的肤色、特定环境下的弱者或女性容易被算法忽视。

Joy  Buolamwini的第一个例子就是这种偏见的表现。对此,Joy收集了来自非洲和欧洲共6个国家的1270张脸部照片,对IBM、微软和Kuangxia三家公司的面部识别产品进行了测试,结果显示,存在不同程度的女性和黑暗种族“歧视”。

类似的事情偶尔会发生。2015年,Google  Potos曾将两个深色肤色的人标记为“大猩猩”。2018年《连线》杂志对专辑中的4万多张动物照片进行了测试,结果显示谷歌没有完全修复这个漏洞,不再用大猩猩来标记。(威廉莎士比亚、大猩猩、大猩猩、大猩猩、大猩猩、大猩猩、大猩猩、大猩猩、大猩猩)疫情期间,谷歌下属服务Google  Vision  Cloud将手持便携式温度计的深色肤色人员形象显示为“枪”,同一条件下,浅色肤色人员形象为“电子”

有人指出,去年Twitter的图像裁剪算法存在种族和性别偏见。当用户查看预览Twitter表示的缩略图区域时,如果一张照片中有不同肤色的种族,则算法会更加突出浅肤色的人物区域。

除了图像识别外,经常使用语音识别、文字识别技术的技术公司也经常出现“失误”。2015年的一项调查显示,谷歌助手、苹果Siri和亚马逊的Alexa对美国口音、印度口音和中国口音的英语识别准确度不一致。

预测、决策不公

除了对种族、性别、年龄等人类属性的偏见外,算法还显示出对消费、就业、犯罪风险检测等应用场景的偏见。[2]这种偏见最直接的影响是,它会造成预测、决策不公平和集体公平性的损失。

最常见的一类是招聘偏见。路透社报道,2018年亚马逊设计的AI招聘算法中隐含着对女性求职者的偏见。读带有“women”的相关单词时,算法会降低简历的权重。例如,如果简历中出现“女子象棋俱乐部队长”或“女子学院”两个词,算法将直接对求职者进行降级。亚马逊最终关闭了这个招聘算法。

当算法被用于分析招聘面试、申请者的身姿、眼神活动等更细致的层面时,面试过程中的一举一动都要慎重。这些工具帮助企业提高效率,降低成本,但偶尔会有偏见。HireVue是高盛、联合利华等企业普遍采用的AI面试工具,无法分辨皱眉是问题还是心情不好(暗示性格容易生气)。[3]

犯罪领域对人脸识别算法的偏见也经常导致不公平。2016
年,新闻机构ProPublica调查了美国各州政府用来评估被告人再犯罪风险的COMPAS算法,发现黑人假释候选人更容易被评为高风险。在美国,不止一次出现黑人或少数族裔因为算法原因被错误逮捕的事情。

除了司法、就业,当下生活中,算法参与决策的领域还包括金融、医疗、消费等,算法偏见的范围或许也比想象中广。

威胁个体利益
包容性的降低和公平性的损耗,必然影响个体利益。

例如,谷歌的PageRank的算法能评价网络链接的重要性,对网页进行排序。在Google Shopping里,谷歌曾暗暗将自己的商品置于网页排序中的显眼位置。[4]这影响了用户的消费选择。

在日常生活中,可能不少人都有过这样的体验:在一些网络平台消费的时候,同时同地同样的消费,其他人的费用可能比自己低。通过记录分析消费者的消费痕迹,来对不同消费者差别定价,这种“算法杀熟”也可以被视作一种算法偏见。

纠正算法偏见,科技公司怎么做?
当算法偏见越来越成为无法回避的技术、伦理和社会问题时,纠正偏见也就成为解决问题的重点。作为规则设计者、制定者和参与者的科技公司,也不得不主动做出回应。

纠正偏见,先要知道偏见为何发生。人工智能专家、AI公司Another Brain首席执行官Bruno指出:“人工智能算法存在三种主要的偏差来源:训练数据集,让算法学习我们想要的东西,以及AI算法本身的原理。”也就是说,算法的偏见来源于数据的纰漏、设计者的偏见,以及人机交互或算法本身的不足。

目前来看,科技公司纠正算法偏见,主要也是从算法的数据技术层面以及算法操纵者的偏见等方向来行动。

算法技术层面
近几年,不少公司都发布了用来检查算法偏差的工具。2018年5月,Facebook推出Fairness Flow,当算法根据一个人的种族、性别或年龄做出了不公的判断,它会自动发出警告来提醒。之后,谷歌在其开源网页中推出了工具What-If,帮助开发者检测算法公平性。[5]

也在同年,IBM推出AI Fairness 360开源工具包,提供超30个公平性指标、9个偏差缓解算法,用于检查在信用评分、预测医疗支出和面部图像性别分类等不同场景中的算法偏见,还会推荐改进的方法,比如算法调整或数据平衡。去年8月,微软旗下的领英推出公平工具包(LiFT),可以对数据集的属性(如种族和性别构成)做分析,并将结果与算法结果来比较,进而检测公平性。

如果数据集本身有偏见,那显然,用数据集训练出的算法也很难客观。因此,不少举措也关注数据的修订和扩展。2018年,微软与专家合作修订、扩展了用于训练其面部识别算法Face API的数据集。在调整肤色、性别和年龄等在数据集中的占比并改进了分类器之后,算法在肤色较深的男性、女性间的识别错误率降低了20倍,女性识别误差率降低了9倍。

同样旨在提供检测、帮助改善数据,Facebook在今年4月也有新动向——公开名为Casual Conversations的数据集帮助研究人员评估潜在算法偏差。这个数据集的特别之处在于,让人们自己提供年龄和性别来标注,而不是由第三方或计算机系统估计。

Facebook还为数据集招募了训练有素的注释员,来确定参与者的皮肤类型。数据集还标记了视频的环境光照条件,帮助系统测量低光照条件下的肤色。

前不久,Twitter也宣布了一项“负责任的机器学习”新计划,研究平台采用算法的公平性。内容之一,就是由来自公司内部的数据科学家和工程师,研究Twitter对机器学习的使用如何导致算法偏差,并评估其算法可能造成的“无意伤害”,再将研究结果公开。

Twitter首席执行官Jack Dorsey曾表示,希望创建一个算法市场,类似应用商店形式,让用户能够控制自己使用的算法。

算法操纵者层面
对于算法偏见,常见的一种看法是,AI决策依赖于对人类决策的学习,因此,机器偏见其实是对社会传统偏见的投射。所以,除了技术层面改善数据集、打标等机器学习的环节外,更需要针对算法背后的人,以及公司的偏见做出限制。在这方面,除了外部的限制和规范,科技公司自己也有行动。

目前,不少大型科技公司都发布了人工智能的应用原则,其中都有涉及偏见治理的部分。2016年,微软、谷歌和Facebook等联合成立非营利人工智能合作组织Partnership on AI。2017年,微软设立人工智能与道德标准委员(AETHER)来落实AI伦理问题,称未来推出的每个人工智能产品都要经过道德伦理审查。

也有委员会、联合组织之外的措施。比如,谷歌推出Model Cards功能,对采用的算法进行解释,告知具体的优点和局限性。



对Face Detection算法的部分解释。图片来源:Model Cards主页公开信息

2020年,乔治·弗洛伊德之死在美掀起以“BLM(Black Lives Matter)”为口号的反种族歧视运动的同时,针对科技公司算法偏见中种族歧视的声讨也愈发激烈。根据《华尔街日报》报道,Facebook与Instagram都为此组建了相应的公平与包容团队,负责调查美国黑人、西班牙裔和其他少数族裔用户受公司算法的影响,并将其与对白人用户的影响进行对比。

同样在6月,IBM宣布不再向警方提供人脸识别技术,原因是“反对将技术用于种族歧视和大规模监视”,亚马逊和微软相继发表类似声明。长远来看,这是科技公司在技术和偏见之间需要做出衡量、承担社会责任的缩影。

还有一种意见是,为了克服可能的偏见,企业需要更多样化的AI人才。如若程序员、工程师的构成本身就不多样,甚至有性别、种族偏见,这些偏见也很容易被传递到其开发的算法中。

不过,科技公司的算法纠偏路也不是一帆风顺。大多时候,科技公司主动做出行动,是出于改善业务、维护企业形象、承担社会责任的考量,也是一种在公众、政府和其他组织监督下的“权衡选择”。若纠偏会严重损害企业利益,企业是否要做、怎么做,就未可知了。

归根结底,当我们在说算法偏见的时候,依然要考虑那个核心问题——算法背后是人,算法偏见背后是人的偏见。正如开头案例中的MIT研究员Joy所说,“人工智能是基于数据的,而数据是我们历史的反映。”在批评算法的过程中,科技公司或许不该被安放在绝对的对立面,至少,它们的举措也是纠正算法偏见、抵达公正的一部分。

回到真实社会,许多偏见仍然根深蒂固,但这并不意味着袖手旁观。在能力之内让数字世界朝向更公平、更能依靠的方向发展,对于社会、个体,以及有重要影响力的公司来说,都是责任。

参考链接:

1.清华大学新闻与传播学院智媒研究中心:《算法治理与发展:以人为本,科技向善》

https://mp.weixin.qq.com/s/dou1VbTNdwX6C20R1b5YQw

2.张梦,陈昌凤.智媒研究综述:人工智能在新闻业中的应用及其伦理反思[J].全球传媒学刊,2021,8(01):63-92.

3.腾讯研究院:算法偏见:看不见的“裁决者”

https://mp.weixin.qq.com/s/4mFaDBzxxDSi_y76WQKwYw

4.清华大学新闻与传播学院智媒研究中心:《算法治理与发展:以人为本,科技向善》

https://mp.weixin.qq.com/s/dou1VbTNdwX6C20R1b5YQw

5.腾讯研究院:从性别歧视到招聘不公,如何让AI公平待人?| 算法偏见(下)

https://mp.weixin.qq.com/s/zmG3r93-Avx36wo86EhwQw

6.https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G

7.https://engineering.linkedin.com/blog/2020/lift-addressing-bias-in-large-scale-ai-applications

8.https://www.theverge.com/2021/4/15/22385563/twitter-algorithms-machine-learning-bias

9.https://www.wired.com/story/when-it-comes-to-gorillas-google-photos-remains-blind/

10.https://www.wsj.com/articles/facebook-creates-teams-to-study-racial-bias-on-its-platforms-11595362939?mod=hp_lista_pos1

11.https://www.washingtonpost.com/opinions/2018/12/17/why-your-ai-might-be-racist/

12.https://venturebeat.com/2018/12/17/geoffrey-hinton-and-demis-hassabis-agi-is-nowhere-close-to-being-a-reality/

13.https://www.nytimes.com/2021/03/15/technology/artificial-intelligence-google-bias.html
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|无图版|手机版|小黑屋|石家庄@IT精英团

GMT+8, 2021-5-16 04:32 , Processed in 0.058374 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2021 Comsenz Inc.

快速回复 返回顶部 返回列表