如何使算法公平?如何定义“公平”?

nlfO_thejiangme 2018-08-02 5105

电子说

1.4w人已加入

描述

2015年，一位忧心忡忡的父亲向Rhema Vaithianathan提出一个问题，这个问题至今仍然困扰着她。

当时人们聚集在宾夕法尼亚州匹兹堡的一个会议室里，听她解释软件如何解决虐待儿童问题。每天，该地区的热线都会收到几十个怀疑孩子有危险的电话；其中一些随后被呼叫中心工作人员标记为进行调查。但该系统并未能发现所有虐待儿童案例。

Rhema Vaithianathan 建议算法以发现虐童事件

Vaithianathan和她的同事们刚刚获得了50万美元的资助以建立算法来提供帮助。Vaithianathan是一位健康经济学家，她也是新西兰奥克兰理工大学社会数据分析中心的联合主管，她告诉大家该算法如何运作。例如，一个收集大量数据的工具——包括家庭背景和犯罪记录——可以在来电时生成风险评分。这可以帮助电话筛选者标记要调查的家庭。

在Vaithianathan邀请观众提问后，那位父亲站起来说道，他曾与毒瘾斗争，因此，社工曾将一个孩子从他家带走。但他已戒毒一段时间。如果通过计算机评估他的记录，他为改变生活而付出的努力是否算数？换句话说：算法是否会对他做出不公平的判断？

Vaithianathan向他保证，人类将永远处于循环中，所以他的努力不会被忽视。但现在已经部署了自动化工具，她仍然会考虑他的问题。计算机的计算越来越多地用于指导可能改变生活的决定，包括哪些人在被指控犯罪后被拘留；哪些家庭应受到潜在的虐待儿童调查，以及在一种称为“预测性警务”的趋势中，警察应该关注哪些社区。这些工具有望使决策更加一致、准确和严谨。但监督是有限的：没人知道有多少工具正被使用，而且其带来的不公平风险已经引起了人们的注意。例如，2016年，美国记者认为，用于评估未来犯罪活动风险的系统歧视黑人被告。

“我最关心的是我们构建的系统可以改善问题（但）可能最终会加剧这些问题，” Kate Crawford说道，她是AI Now 研究所的联合创始人，该研究中心位于纽约大学，研究人工智能的社会影响。

随着Crawford和其他人挥舞着红旗，各国政府正试图让算法负起公平正义的责任。去年12月，纽约市议会通过了一项法案成立了一个工作组，建议如何共享有关算法的信息并对其进行调查以寻找偏见。今年法国总统埃马纽埃尔·马克龙（Emmanuel Macron）表示，该国将公开政府使用的所有算法。在本月发布的指导意见中，英国政府要求那些处理公共部门数据的人员要保持透明和负责。欧洲通用数据保护条例（GDPR）于5月底生效，这预计也将推动算法问责制。

在这种活动中，科学家们正面对复杂的问题，即如何使算法公平。正如Vaithianathan等研究人员，他们与公共机构合作，努力建立负责且有效的软件，必须努力解决自动化工具如何带来偏见或加剧现有的不公平现象——特别是当这些工具被置入已经存在歧视的社会系统时尤为重要。

公平权衡

2014年，当匹兹堡社会服务部的官员在呼吁提出自动化工具的建议时，他们还没有决定如何使用它。但他们希望对新系统持开放态度。该部门数据分析，研究和评估办公室副主任Erin Dalton说道，“我非常反对将政府资金用于黑箱解决方案，我无法告诉我们的社区我们正在做什么”。该部门拥有一个建于1999年的集中数据库，其中包含大量的个人信息——包括住房，心理健康和犯罪记录。Erin Dalton说，Vaithianathan的团队在关注儿童福利上投入巨大。

阿勒格尼家庭筛查工具（AFST）于2016年8月启动。针对每个热线电话，呼叫中心员工都能看到由自动风险评估系统生成的分数——1至20分，其中20分对应的案例风险最高。这些是AFST预测的儿童最有可能在两年内被赶出去的家庭。

加利福尼亚州斯坦福大学的独立研究员Jeremy Goldhaber-Fiebert仍在评估该工具。但Dalton说初步结果表明它有所帮助。她说，呼叫中心工作人员提到调查人员的案件似乎包括更多合法关注的案例。对于具有类似情况的案例，电话筛选器似乎也在做出更一致的决策。尽管如此，其决策并不一定与算法的风险评分一致；该县希望将两者更紧密地联系起来。

随着AFST的部署，Dalton希望得到更多的帮助来确定它是否有偏见。2016年，她邀请匹兹堡卡内基梅隆大学的统计学家Alexandra Chouldechova分析该软件是否歧视特定群体。Chouldechova已在考虑算法中的偏见，并且即将对一个引发了大量辩论的案例进行权衡。

同年5月，新闻网站ProPublica的记者报道了佛罗里达州布劳沃德县法官使用的商业软件，这有助于决定被控犯罪的人是否应该在审判前被释放。记者表示，该软件对黑人被告带有偏见。这个名为COMPAS的工具生成的分数旨在评估当一个人在被释放的情况下，其在两年内犯下另一罪行的可能性。

ProPublica团队调查了数千名被告的COMPAS分数。他们比较了黑人和白人被告，记者发现不成比例的黑人被告是“误报”：他们被COMPAS归类为高风险，但随后并未被指控犯有其他罪行。

该算法的开发人员，一家名为Northpointe（现为Equivant）的密歇根公司，认为该工具没有偏见。它说，COMPAS同样善于预测被归类为高风险的白人或黑人被告是否会重新犯罪。Chouldechova很快表明，Northpointe和ProPublica的公平测量标准之间存在紧张关系。预测性等同，相等的假阳性错误率和相等的假阴性错误率都是“公平”的方式，但如果两组之间存在差异，统计上无法调和——例如白人和黑人被重新逮捕的比率（参见“如何定义公平”）。伦敦大学学院负责机器学习的研究员Michael Veale说道：“你无法拥有一切。如果你想以某种方式公平，你可能在另一个听起来合理的定义中也是不公平的。

如何定义“公平”

研究算法偏差的研究人员表示，有很多方法可以定义公平，但这些方法有时相互矛盾。想象一下，在刑事司法系统中使用的算法会将分数分配给两组（蓝色组和紫色组），因为它们有被重新逮捕的风险。历史数据表明紫色组的逮捕率较高，因此该模型将紫色组中的更多人分类为高风险。即使模型的开发人员试图避免偏见，这种情况也可能发生。这是因为用作训练输入的其他数据可能也与蓝色或紫色相关。

高风险状态不能完美地预测重新逮捕，但算法的开发人员试图使预测公平：对于两个群体而言，“高风险”相当于两年内被逮捕的几率是三分之二。（这种公平性被称为预测性平等）未来逮捕率可能不会遵循过去的模式。但是在这个简单的例子中，假设他们这样做：正如预测的那样，蓝色组10人中的3人和紫色组10人中的6人确实是被逮捕了（可参见图中底部的灰色条形图）。

该算法具有预测奇偶性，但存在问题。在蓝色组中，7人中有1人（14％）被误认为是高风险；在紫色组中，4人中有2人（50％）被误认为是高风险。所以，紫色组更有可能出现“误报”情况，即被误认为是高风险。

有些人会认为紫色组的假阳性率较高是歧视。但其他研究人员认为，这并不一定是算法偏差的证据，且可能存在更深层次的不平衡来源：紫色组可能首先被不公平地聚焦了。过去的数据准确预测了紫色组中将有更多人被重新逮捕，该算法可能会重现，这也许是根深蒂固的，也即一种先前存在的社会偏见。

事实上，从数学角度来说，还有更多方法来定义公平：在今年2月的一次会议上，计算机科学家Arvind Narayanan发表了题为“21种对公平的定义及其政治学”的演讲，他指出还有其他方法。一些研究ProPublica案例的研究人员，包括Chouldechova，指出目前尚不清楚错误率是否存在偏差。斯坦福大学的计算机科学家Sharad Goel说，“他们反而反映出这样一种情况：较之于一个群体，对另一群体的预测可能更难。但事实证明，这或多或少是一种统计假象。”

新泽西卡姆登的警察使用自动工具来决定去哪些区域巡逻

虽然统计失衡是一个问题，但不公平的更深层面潜藏在算法中——它们可能会加剧社会不平等。例如，诸如COMPAS之类的算法旨在预测未来犯罪活动的可能性，但它只能依赖于可衡量的因素，例如被捕情况。警务实践的变化可能意味着某些社区成为不正常的目标，人们因其他社区可能被忽视的犯罪而被捕。华盛顿特区非营利性社会公正组织Upturn的董事总经理David Robinson说：“即使我们准确预测某些事情，我们准确预测的事情也可能是不公正的事情。” 这很大程度上取决于法官依赖这些算法做出决定的程度——但究竟是哪些算法却鲜为人知。

透明度及其局限性

按照Allegheny社会服务部门采用的方式，人们对提高透明度抱有很大的兴趣，Allegheny与相关人士合作并向记者敞开大门。AI Now研究所的Crawford说，算法通常会加剧问题，因为它们是“封闭的，无法进行算法审计、审查或公开辩论”。但目前尚不清楚如何使算法更加开放。Ghani说，简单地发布模型的所有参数并不能提供有关其工作原理的深入见解。透明度也可能与保护隐私的努力相冲突。在某些情况下，披露有关算法如何工作的过多信息可能允许人们对系统进行操纵。

Crawford认为，我们需要一系列“正当程序”来确保算法的责任性。4月，AI Now研究所为有兴趣负责任地采用算法决策工具的公共机构概述了一个框架；此外，它呼吁征求社区意见，并让人们有能力就对其做出的决定提起上诉。

许多人希望法律能够实现这些目标。Solon Barocas是康奈尔大学人工智能研究伦理与政策问题的研究员，他说，这是有一些先例的。在美国，一些消费者保护规则在对其信用做出不利决定时给予公民解释。Veale说，在法国，早在20世纪70年代，就有赋予解释权和自动决策争议能力的立法。

欧洲的GDPR将于5月25日生效。一些条款——例如有关自动决策案例中涉及的逻辑信息的权利——似乎促进了算法问责制。但英国牛津互联网研究所的数据伦理学家Brent Mittelstadt表示，GDPR可能通过为那些想要评估公平性的人创建一个“合法的雷区”来阻碍它。测试算法是否偏向某些组别的最佳方法——例如，它是否偏好一个组别而非另一个——需要了解进入系统的人的相关属性。但Mittelstadt表示，GDPR对使用此类敏感数据的限制非常严格，处罚如此之高，以至于有能力评估算法的公司可能没有动力处理这些信息。“这似乎是对我们评估公平性能力的限制。” Mittelstadt说道。

审查算法

与此同时，研究人员正在推进检测尚未开放供公众审查的算法偏差的策略。Barocas说，公司可能不愿意讨论他们如何努力解决公平问题，因为这意味着首先承认存在问题。他说，“即使他们这样做，其行为也只是有可能改善偏见但不能消除偏见。所以关于这一点的公开声明也将不可避免地承认问题仍然存在。”但最近几个月，微软和Facebook都宣布开发检测偏见的工具。

一些研究人员，如波士顿东北大学的计算机科学家Christo Wilson，试图从外部发现商业算法的偏见。Wilson已创建了模拟乘客，他们声称正在寻找优步出租车，并将虚拟简历上传到就业网站以测试性别偏见。

其他人正在构建希望可以在自我评估中普遍使用的软件。今年5月，Ghani和他的同事发布了名为Aequitas的开源软件，以帮助工程师、政策制定者和分析师审查机器学习模型的偏见。

现正将其虐待儿童预测模型扩展到科罗拉多州道格拉斯和拉里默县的Vaithianathan看到了建立更好算法的价值，即使其所置入的总体系统存在缺陷。她说：“算法不能被空降到到这些复杂的系统之中，我们必须在那些了解更广泛背景的人的帮助下实施方案。但即便是最好的努力也将面临挑战，因此，在缺乏直接答案和完美解决方案的情况下，透明度是最好的政策。我的原则是：如果不能保持正确，那么至少要保持诚实！”

打开APP阅读更多精彩内容