人工智能的算法公平性实现

电子工程师 2019-11-06 3327

人工智能

643人已加入

描述

我们解决了算法公平性的问题:确保分类器的结果不会偏向于敏感的变量值，比如年龄、种族或性别。由于一般的公平性度量可以表示为变量之间(条件)独立性的度量，我们提出使用Renyi最大相关系数将公平性度量推广到连续变量。我们利用Witsenhausen关于Renyi相关系数的角色塑造，提出了一个链接到f-区别的可微实现。这使得我们可以通过使用一个限制这个系数上限的惩罚，将公平意识学习推广到连续变量学习。这些理论允许公平扩展到变量，如混合种族群体或没有阈值效应的金融社会地位。这种惩罚可以通过允许使用深度网络的小批量生产来估计。实验结果表明，二进制变量的最新研究成果令人满意，并证明了保护连续变量的能力。

1. 介绍

随着人工智能工具在社会中的普及，确保敏感信息(例如个人的种族群体知识)不会“不公平地”影响学习算法的结果，正受到越来越多的关注。为了实现这一目标，正如在相关工作3.1节中详细讨论的那样，有三类方法: 首先修改一个预先训练的分类器，同时最小化对性能的影响(Hardt等人，2016;Pleiss等人，2017)，其次在训练期间执行公平性，可能以凸性为代价(Zafar等人，2017)；第三，修改数据表示并使用经典算法(Zemel 等人， 2013;Doninietal等人，2018)。正如(Hardt 等人, 2016) 所阐述的，算法公平性的核心要素是在两个精心选择的随机变量之间估计和保证(条件)独立性的能力--通常涉及由算法作出的决定和保护的变量以及“积极的”结果。在接下来的介绍中，我们将把这两个随机变量称为u和v。虽然在一般情况下u和v可以是连续变量——例如预测概率或时间等变量——但迄今为止，公平方面的大部分工作都集中在保护分类变量上。本文中，我们放松了这种假设。

从应用的角度来看，这是可取的，因为它避免了考虑将连续值作为预先确定的，在学习模型中呈现阈值效应的“分类箱”。当考虑到年龄、种族比例或性别流动性测量时，这些阈值没有实际意义。此外，一种描述公平性约束的平滑和连续的方法——一种同时考虑元素顺序(例如10yo<11yo)的方法——也很重要。作为一个来自现实世界的例子，(Daniels等人，2000)指出财务状况是医疗保健的一个敏感变量。

从统计学的观点来看，考虑到u和v之间的相关性可以是任意复杂的，相关性的度量是具有挑战性的。在谱的一侧（有经验的一侧）引入了简单易行的相关系数，如皮尔逊相关系数、斯皮尔曼秩相关系数和肯德尔相关系数。可悲的是，尽管这样的相关系数能够证明独立性是错误的，但它们无法证明独立性。他们只是表达了独立的必要条件。另一方面，理论上的单地平线(Gebelein，1941)引入了hirschfeld-Gebelein-Renyi最大相关系数(HGR)，该系数在估值为零时具有证明独立性的理想性质(Renyi，1959)，但在一般情况下难以计算。然而，HGR是一种以[0,1]为参数的相关性度量，它独立于u和v的边缘，允许监管者以一个绝对阈值作为公平标准使用它。

我们的首要目标是利用算法公平独立性的测量。同时，深度学习的兴起和可微编程的思想主张利用具有良好的一阶行为和有限的计算成本的可微近似来惩罚神经网络。在这项工作中，我们推导了一个可微的非参数估计，基于Witsenhausen的角色塑造KDE的结合。我们证明了这个估计的经验性能，并且我们紧紧地用一个f-区分的量给它上界。只要两个随机变量(u或v)中的一个是二值的，就可以得到所提出的界。注意，联合分布与其边际乘积之间的f-发散在可逆映射的作用下是不变的(Nelsen，2010)，并且可以用作相依性的度量。

作为第二个贡献，我们证明了我们关于HGR系数的上界可以用来惩罚一个模型的学习。它甚至在经验上被证明在小批量估计时表现良好，允许它与随机梯度训练的神经网络结合使用。另一个关键区别是，我们能够处理连续的敏感变量。我们的方法也扩展了Kamishima等人(2011)的工作，他们提出使用互信息(MI)的估计作为惩罚，但他们的估计方法仅限于分类变量。此外，即使将MI推广到连续情形，我们也证明了我们的正则化程序既能得到更好的模型，又能降低对超参数值的敏感性。

本文的其余部分组织如下:首先，我们明确了独立性测度和不同公平标准之间的联系，如不同的影响和平等的赔率。其次，介绍了我们提出的能够处理连续变量的HGR近似，并利用它对算法公平性的损失进行正则化。我们跟着一个实验部分，我们经验证明，我们的近似是竞争状态的依赖性估计和算法公平性，当明智的属性是分类的，并且最小化可以使用小批量的数据，如果数据集足够大了。最后，我们证明了我们的方法适用于连续的敏感属性。

2. HGR作为一种公平标准

2.1公平标准概述

许多关于公平的概念目前正在调查中，但是对于哪些概念是最合适的还没有达成共识(Hardt等人，2016;Zafar等人，2017;Dwork等人，2012)。事实上，这是一个选择，不仅需要统计学和因果论证，还需要伦理学的论证。这些指标之间的一个共同线索是依赖于统计独立性。公平性遇到机器学习时试图根据一些可用信息x(例如:信用卡历史)对某个变量y(例如:默认付款)建立一个预测y’;这个预测可能对某个敏感属性z(例如:性别)有偏见或不公平。

最初提出的衡量公平性的概念是预测人口平等，即P(Y=1|Z=1)=P(Y=1|Z=0)，它被不同影响的标准所测量(Feldman et al., 2015)：

人工智能

这个标准甚至是美国平等就业机会委员会建议(eeoc.1979)的一部分，该建议主张它不应该低于0.8——也被称为80%规则。虽然最初定义的二元变量，人口平价可以很容易地推广到Y⊥Z需求，即使Z非二进制。

人口统计平价被批评因为忽略了可能解释Y和Z之间数据已经存在的相关性的混淆变量。比如，一个模型随机选择10%的男性，然后选择最好的10%的女性，这将是完全公平的w.r.t.DI。为了部分地克服这些限制，平衡赔率被引入(Zafar等人，2017;Hardt等人，2016)作为衡量方法，P(Y=1|Z=1，Y=y)=P(Y=1|Z=0,Y=y)。仅y=1的特定情况被称为EO，并且通常通过EO的差异来测量：DEO= P(Y=1|Z=1，Y=1)-P(Y=1|Z=0,Y=1)

同样，与人口平等相似，平等机会可以通过独立概念等效地表示。已经存在一些其他公平的概念了，比如试图确保预测Y对于受保护属性的精确度不会高于另一组的标准。尽管人们投入了大量精力寻找新的公平定义，以涵盖各种可能的社会偏见，但相关的统计措施仍然局限于Y和Z的二进制值。

3. 公平意识学习

在前面的章节中，我们主张使用HGR来推导公平性评价标准。那么这种方法是否可以用来推导惩罚方案，以便在学习阶段加强公平性。为了避免繁琐的表示法和讨论，我们将重点放在均衡赔率设置上，但是对于其他的公平性设置，我们可以推导出类似的学习方案。特别是，我们在附录中提供了一套相应的实验用于设定人口平价。

3.1最新研究

随着机器学习成为保险公司、健康系统、法律等方面一种常见的工具，学习公平模型是一个越来越受关注的话题。目前，研究集中于二进制例子。在这样的设定下可以基于Z和Y校准预测Y的模型的后验，以便例如满足DEO约束，代价是通过重新加权由模型输出的概率或适应分类器阈值而失去一些精度。为了在学习过程中嵌入公平性，可能在准确性和公平性之间找到比后验可以实现的更好的权衡，有人在学习时整合了重新加权，并提出了一种对成本敏感的公平分类方法。然而，这些方法与感兴趣的变量的二元性质密切相关。

另一种方法是在学习时给优化个体添加公平约束。目前有两种约束。第一种的均衡倍率的简化实例化的方法是将条件分布π 约束为任何y，在分布之间提供一些距离D。这个想法被推广到Y函数的期望之间的距离，其允许使用条件分布的更高矩。第二类的思想与我们的方法相关。KL使用了f-区分，但是惩罚评估对二进制例子是特定的。最后Zafar等人提出了一种旨在Y和Z之间的条件协方差的约束，仅相对应于去除线性相关，而HGR可以解决更复杂的情况。当目标为在神经网络上使用该惩罚时最后一点尤为重要，它只考虑线性依赖有绝对能力拟合惩罚。

最后，有一系列的工作旨在提出回归公平的测量方法。它们使用协方差或者更为少见的度量标准（如Gini）。这些依赖于线性系统的属性—可能在内核空间—我们正则化深度网络和不限制人口平等。

4. 实验

为了从经验上支持前面提出的不同主张，我们提供了几个实验。我们首先证明了当检验实值变量的独立性时，我们的HGR近似值与RDC(Lopez-Paz等人，2013)是有竞争性的。其次，在训练一个公平的分类器的背景下——比如，我们希望一个分类器的二进制结果是w.r.t公平。一个二进制特征z——我们检查我们的近似可以被用来规范一个分类器，以增强公平性，其结果与现有的技术水平相当。此处我们发现，当数据集有几千个数据点时，我们可以确保其估计的正分类概率的公平性。最后，我们证明了我们可以保护一个连续敏感属性的w.r.t.分类器的输出。

4.1 基于KDE的Witsenhausen的角色塑造

我们首先复现了RDC。依赖度量的力量被定义为区分具有相同边缘形式的独立样本和未确定样本的能力，并以概率的形式表示。在这里，我们将HGR-KDE估计与作为非线性相关度量的RDC进行比较。我们复制了7个双变量关联模式，如图1所示。对于每个联结模式F，n=500样本的500次生成，其中我们从X～unif[0，1]中取样得到(xi，F(xi))元组。接下来，我们独立于Y～unif[0，1]重新生成输入变量，以生成每个样本具有相等边缘的独立版本(Y,F(X))。图1显示了当某些零平均高斯加性噪声的标准差从0增加到3时，讨论的非线性脱离度量的功率。我们观察到χ2与HGR-KDE估计非常相似，但在循环、线性和窦性关联方面性能优于RDC，而在二次和三次关联方面性能略优于RDC。根据经验，在一维数据，我们的χ2 估计与RDC有竞争关系，而其简单和可微形式允许我们以合理的成本计算它。最近使用的一台笔记本电脑上的pytorch，计算具有500个元组的HGR-KDE需要2.0ms，而已发布的RDC的numpy代码需要4.6ms(平均运行1000次)。

人工智能

4.2 基于Y和Z二值的公平性

本实验中，我们解决了为训练分类器的非线性神经网络训练惩罚的不同独立测量，比如二值敏感信息Z不会影响结果Y不公平。为了证明此规范化与最新成果的二值变量有竞争关系，我们复现了另一个实验。他们提出使用5个公开数据集。作为预处理步骤，我们对所有类别变量进行编码并对数字条目进行标准化。

此处Y预测，我们使用网络估计了Y=1的概率，见表1.

人工智能

神经网络和学习架构。我们为这些实验提供了简单的神经网络：两个隐藏层（第一层依赖于数据集大小有30到100个神经元，第二层比第一层小20个神经元）。代价是交叉熵，梯度是Adam,学习率值可能为10-2，10-4，3·10-4 。批量大小从{8,16,32,64,128}中选择。为了避免KDE的估计问题——特别当Y=1时很少发生，我们总是估计128个为最小批量估计χ2 惩罚。λ设置为4*Renyi批量大小/批量大小。我们使用χ2作为HGR的平方，因为梯度值接近0在数值上越稳定。

5．结论

得益于HGR,我们从评估和学习的角度，统一和扩展了以前的框架，使其具有持续的敏感信息，从而实现算法的公平性。首先，我们提出了一个原则性的方法来推导公平目标的评价标准，这个标准可以写成条件独立。然后，对学习步骤进行了相应的推导。最后，我们实证地展示了在一系列问题(连续或非连续)上的性能以及对深度学习模型的适应性上的我们的方法。一个有趣的问题留给未来的工作是，是否可以用参数估计取代非参数密度估计，以改善方法的标度和减少方差的上下文中的小批处理。

责任编辑:zl

打开APP阅读更多精彩内容