机器学习测试时间（测试不公平性的50年）

机器学习测试时间（测试不公平性的50年）(1)

1 摘要

50多年来，不公平和公平的定量定义已被引入教育，招聘和机器学习等多个学科。我们追溯了在过去半个世纪的教育和招聘测试社区中公平概念的定义方式，并探索出现不同定义的文化和社会背景。在某些情况下，早期的公平定义与当前机器学习研究中的公平性定义相似或相同，并预示了当前的主流工作。在其他情况下，公平的意义以及公平性的衡量在很大程度上被忽视了。本文从几个方面比较过去和现在的公平概念，包括公平标准、标准的重点（例如测试、模型或其使用），公平与个人、群体和子群体的关系，以及衡量公平性的数学方法（例如分类和回归）。这项工作指出了未来研究和衡量（非）公平性的方法。它建立在公平的现代理解的基础上，同时结合了过去的思考。

2 技术介绍

2.1 测试公平性的历史

1964年的《美国民权法》禁止了基于个人种族、肤色、宗教、性别或国籍的歧视。该法案包含两项重要条款，将从根本上塑造公众对其不公平的理解，并对现代产生持久影响：第六章，禁止接受联邦基金（包括大学）的政府机构在基础设施上有种族、肤色或国籍歧视；以及第七章，该章禁止拥有15名或以上雇员的雇主有种族、肤色、宗教、性别或国籍歧视。公营和私营企业使用的评估测试立即受到了公众的监督。当时许多人提出的问题是，用于评估能力和适合教育和就业的测试是否在新法律禁止的基础上有歧视性。

这刺激了大量的关于如何在教育和就业测试社区中以数学的方式衡量不公平的偏见和歧视的研究，通常侧重于种族问题。特别是1966年至1976年这段时间产生的公平性研究与2011年至今的公平性研究有着惊人的相似之处，包括基于人口亚群的公平性正式概念，一些公平标准与其他标准不相容，以及由于其局限性而推后对公平的定量定义。

首先，我们要考虑测试和机器学习（ML）模型之间的结构对应关系。测试项（问题）类似于模型特性，项目响应类似于这些特性的激活。测试的评分通常是一个简单的线性模型，它产生一个（可能是加权的）项目评分总和。有时测试分数是标准化或标准化的，以使分数符合期望的范围或分布。由于这种对应关系，许多数学知识是直接可比的；许多早期的公平工作的基本思想琐碎地映射到现代的ML公平性。

根据社会科学术语、应用统计学等的符号，我们使用符号A 表示“人口统计学变量”来指个体的属性，如种族、年龄或性别。我们使用“子群”表示由人口统计学变量的共享值定义的一组个体，例如，A=a。Y表示基本事实或目标变量，R表示模型或测试的得分输出，D表示使用该得分做出的二元决策。在引用原始材料时可能有变化。

2.1.1 1960年代：偏见和不公平歧视

关心黑人和白人学生考试的公平性，T.Anne Cleary首次定义了一种测试偏差的定量测量方法，根据测试分数预测教育结果的正式模型进行了预测：

如果在设计试验的标准的预测中，对子群成员的预测有一致的非零误差，则试验会偏向总体子群成员。换言之，如果从公共回归线预测的标准分数对于子组成员来说总是太高或太低，那么测试是有偏差的。有了这种偏见的定义，可能就有了“不公平”的含义，特别是当使用测试产生的预测值太低时（重点）。

根据Cleary的标准，如果用回归线π1预测其能力，图1a中描述的情况对π2子组成员有偏差，因为它低估了他们的真实能力。对于Cleary，图1b中描述的情况没有偏差：因为来自每个子组的数据产生相同的回归线，所以该线可用于对任一组进行预测。

除了根据回归模型的预测定义偏差外，Cleary还对三所国家支持和国家资助学校的真实数据进行了研究，比较了大学平均成绩与SAT成绩。种族数据来自招生办公室、全国有色人种协进会黑人学生名单和班级检查照片。Cleary使用协方差分析（ANCOVA）来测试SAT和HSR分数与GPA分数之间的关系。与一些预期相反，Cleary发现很少有证据表明SAT是GPA的有偏预测因子。（后来，更大的研究发现，SAT高估了黑人学生的GPA；可能是SAT有偏见，但低于GPA。）

机器学习测试时间（测试不公平性的50年）(2)

Cleary的重点是教育，而同时代的Robert Guion担心的是就业中的不公平歧视。他在1966年为定量分析的重要性辩护时写道：“非法歧视在很大程度上是一个伦理问题，但伦理责任的履行始于技术上的竞争”，并将不公平歧视定义为“当具有相同概率的人在工作中成功的人被雇佣的可能性是不平等的。”然而，Guion认识到了在使用诸如成功概率这样的结构时所面临的挑战。我们可以在选择后观察到实际的成功和失败，但是成功的概率本身是不可观察的，在选择时需要一个复杂的模型来估计成功和失败的概率。

到20世纪60年代末，考虑到对黑人儿童教育体系的不公平性和旨在衡量黑人智力水平的测验的不公平性，暂停了没有因文化偏见而得到纠正的标准化测试。

2.1.2 1970年代：公平

到了20世纪70年代，与最近机器学习公平性类似的研究开始出现，研究人员开始从定义一项测试如何不公平转变为一项测试如何公平。与此同时，我们看到了与现代数学标准相同的数学公平标准的引入，但仍然没有广泛的技术解决方案。

Thorndike称“关于过去所发生的‘公平’的讨论显然被过度简化了。特别是，它的前提是可用的标准分数是一个完全相关、可靠和公正的衡量标准……“Thorndike的观点得到了当时其他学者的认同，他们在审查Cleary早期的工作时，反对没有将其纳入计算不同的假阳性率和假阴性率，这些假阳性率和假阴性率发生在子组有不同的基本率时（即A不独立于Y）。

为了超越简化模型，Thorndike提出了测量测试公平性的第一个定量标准。随着这种转变，Thorndike主张考虑测试的上下文使用：

对测试公平性的判断必须基于从测试中得出的推论，而不是基于两个群体的平均分数的比较。然后，必须将注意力集中在测试分数的合理使用上，而不是集中在分数本身上。

与Cleary相反，Thorndike认为共享一条共同的回归线并不重要，因为一个人可以通过使用不同的回归线和两组不同的选择阈值来实现公平的选择目标。

机器学习测试时间（测试不公平性的50年）(3)

机器学习测试时间（测试不公平性的50年）(4)

图2可以进行一系列进一步的观察。根据定义（1），对于人口统计和目标变量之间的给定相关性，测试与目标变量的相关性越低，允许与人口统计变量相关联的越高并且仍被认为是公平的。另一方面，定义（3）是相反的，因为测试与目标变量的相关性越低，测试与人口统计变量的相关性也越低。Darlington的标准（2）是标准（1）和（3）的几何平均值：“两者之间的妥协位置......但是，妥协可能最终会让人满意;心理测量学家不习惯通过妥协达成重要的定义或定理。”Darlington表明，定义（3）是四个定义中唯一一个误差（由R估计Y的回归任务中的错误）与人口统计变量不相关的。

1973年，Cole继续探索跨子群的平等结果的思想，并定义公平性，因为所有子群具有相同的真实阳性率（TPR），这可以看作现代机会均等。同年，Linn引入（但不提倡）相等的阳性预测价值（PPV）作为公平标准，可识别为现代预测平等。

根据Cleary和Darlington的观点，偏见或（不）公平是测试本身的属性。这与Thorndike，Linn和Cole相反，他们将公平视为测试使用的属性，且倾向于认为测试是静态的，并专注于优化其使用; 而Cleary关注的是如何改进测试本身。

到1976年3月，教育考试界对公平的兴趣十分强烈，《教育测量杂志》有一整期专门讨论了这个话题，其中包括Peterson和Novick的一篇长篇导言，他们第一次考虑到平等子组间的真阴性率（TNR）和子组间的等TPR/等TNR（现代均等概率）。同样，他们也考虑了PPV相同和NPV相等的情况。

从20世纪60年代中期到70年代中期的工作可以概括为四个不同的类别：个人、非比较、子组平等和相关性，定义详见表1。应该强调的是，定义了标准的研究人员并非提倡它。特别是，Darlington，Linn，Jones，Peterson和Novick都只是为了探索与公平相关的概念空间而定义标准。表2汇总了此期间公平的技术定义。

机器学习测试时间（测试不公平性的50年）(5)

机器学习测试时间（测试不公平性的50年）(6)

2.1.3 1970年代中期：公平性潮流逆转

在1976年的期刊发行之后，对测试公平性的定量定义的研究似乎立即停止了。产生这一现象的原因可能对现代公平研究有很大的借鉴意义。1973年提出TPR平等的Cole在2001年写道“简而言之，过去30年左右的研究没有提供任何明确的分析来表明公平或不公平，也没有制定明确的程序来避免不公平。更糟的是，计量行业的公平观和公众的普遍看法往往是不一致的。”

人们越来越担心公平性如何掩盖“根本问题”，想寻找一些合理的理念基础，为弱势群体提供补偿。Peterson和Novick认为公平应该重新被看作一个最大化预期效用的问题，“在机会均等和减少劣势方面具有较高的社会效用”。

一个相关的工作强调了不同的公平原则编码成了不同的价值体系，只靠数量技术无法决定使用哪一个。1971年，Darlington督促将“文化公平”的概念替换为“文化最优性”，这一概念考虑了有关准确性和文化因素之间最佳平衡的政策层面问题。1974年，Thorndike指出“一个人的价值体系深深地参与了一个人对选择设备的‘公平使用’的判断”；1976年，Linn也注意到了“价值在模型中是隐含的”这一事实。为了充分解决价值观问题，Hunter和Schmidt开始通过将伦理理论纳入讨论，将公平与个人主义理论和比例代表理论联系起来。

2.1.4 1970年代后：项目功能差异

随着测试公平使用标准的制定，计量界的另一项研究也在关注测试问题中的偏差（项）。1968年，Cleary和Hilton使用方差分析（ANOVA）设计来测试种族、社会经济水平和测试项之间的相互作用。Scheuneman于1979年提出了项目功能差异（DIF）的相关概念——如果对于在被测区域内具有相同能力的人，无论属于何种群体，对该项做出正确响应的概率是相同的，则认为该项是无偏的。也就是说，如果

是表示问题q正确答案的变量，那么根据这个定义，如果A⊥I|Y，则I是无偏的。

在实践中，对项目测试能力的最佳度量通常是项目是组件的测试。图3说明了测试项的DIF。

DIF在教育领域非常有影响力，至今仍被使用着。理想情况下，显示DIF的项目将得到进一步检查，以确定偏差的原因，并可能被从测试中删除。

机器学习测试时间（测试不公平性的50年）(7)

2.1.5 1980年代及以后

20世纪80年代，关于一般智力中存在的种族差异以及公平测试的要求的公开辩论再次展开。法院接到很多涉及（非）公平性教育测试的案件。

关于公平的观念对美国的就业实践产生了广泛的影响。 1981年，美国就业服务局实施了被称为“种族规范”的分数调整策略。每个人都被分配在他们自己的种族群体而不是测试人口中的百分位数排名。到80年代中期，种族规范是“一个引发激烈辩论的极具争议性的问题”， 1991年“民权法案”禁止了种族规范的做法。

2.2 与ML公平性的联系

2.2.1等效概念

我们概述的许多公平标准与现代公平性定义相同。以下是这些连接的简短摘要：

• Peterson and Novick的“条件概率及其逆概率”等价于在机器学习中公平性被不同地称为充分性、均等概率或条件程序准确性，有时表示为条件独立性 A ⊥ D|Y.

• 同样，它们的“等概率及其逆概率”等同于所谓的充分性[4]或条件使用精度相等, A ⊥ Y |D.

• 1973年Cole的公平定义与机会平等相同, A ⊥ D|Y = 1.

• 1973年Linn的定义相当于预测性等价, A ⊥ Y |D = 1.

• 在A, R和Y具有多变量高斯分布的特殊情况下，Darlington准则（1）相当于充分性，这是因为在这种特殊情况下，偏相关ρAY .X = 0 等价于 A ⊥ Y |R [3]. 不过，一般来说，我们甚至不能假设单向含义，因为 A ⊥ Y|R 并不意味着 ρAY .X = 0 。

• 同样，Darlington准则(2)(3)仅在多元高斯分布的特殊情况下等效于独立和分离。

• Darlington定义(4) 是对ML公平性中所谓的独立性[4]或人口均等的放松，即A ⊥ R ；当A和R具有双变量高斯分布时，它是等效的。

• Guion的定义“在工作中成功概率相等的人被雇佣的概率相等”是Dwork个人公平的一个特例，前提是“在工作中成功的概率”是一个有意义的合理结构。

ML和测试领域的公平性文献也受到因果考虑的推动。 Darlington基于Y和R之间的因果关系有了定义（3）（因为被测量的能力会影响测试的表现）。然而有工作指出，在测试场景下我们通常只有能力的代理，例如4年后的GPA到高考的因果关系是错误的。

Hardt等人描述了建立因果模型的挑战，通过考虑两个不同的模型及其后果，并得出结论“没有仅基于目标标签的测试，受保护的属性和得分会给出两个场景下最佳得分

的不同指示。

测试公平性和ML公平性文献都非常关注不可能性结果，例如群体公平性和个体公平性之间的区别，以及除特殊条件外不可能获得一种以上的分离、充分性和独立性。

此外，我们在道德理论的框架中看到了一些惊人的相似之处，包括对功利主义方法的明确倡导。

•Petersen和Novick的基于效用的方法与Corbett-Davies等人的公平成本框架有关。

•Hunter和Schmidt对公平标准基础的价值体系的分析在精神上与Friedler等人的公平标准和不同世界观的关系类似。

2.2.2变量独立性

如上所述，现代ML公平性从变量独立性的角度对公平性定义进行了分类，包括充分性和分离性。历史上一些对公平的否定完全符合这种分类，但另一些则揭示了公平标准的更高的维度。表3总结了这些联系，并将此前介绍的历史标准与现代类别联系起来。

机器学习测试时间（测试不公平性的50年）(8)

我们发现非比较标准（Cleary和Jones）并没有映射到ML公平中使用的任何独立条件。同样，Thorndike和Darlington也没有我们知道的对应词。Jones的标准与约束排名问题，以及Einhorn的标准与对次边缘问题的考虑之间存在概念上的相似性。

对于二元分类器，Thorndike在1971年的组奇偶性准则相当于要求所有子组的正预测与基本真值正性之比相等。虽然称为“常数比模型”，但这一比率没有我们能找到的通用名称（不同于精度、召回率等）。它与覆盖约束、类质量归一化和期望正则化密切相关。对于Darlington准则（2）和Jones准则（在位置n）和“一般准则”，也有类似的论据。当把Thorndike的标准看作是一个子组配额的模型时，能使人联想到经济学中的公平分配。

2.2.3回归与相关

在回顾测试公平性的历史时，回归模型很明显比ML社区起到了更大的作用。同样，在现代ML公平性文献中，几乎没有将相关性作为公平性标准的应用。

假设两个变量的相关性比独立性弱，有理由问为什么人们可能希望用相关性定义一个公平性标准。一个实际的原因是计算相关性比估计独立性容易得多。虽然相关性是一种描述性统计，计算需要很少的假设，但是估计独立性需要使用推理统计，这是非常重要的。

考虑到模型特征和测试项之间的相似性，我们也不知道项目功能差异的机器学习类似物。它可以测试模型特征中的偏差。相反，在机器学习公平性中采用的一种方法是使用对抗性方法来减轻与子组具有不想要的相关性的特征的影响。

2.2.4 模型与模型使用

关于ML模型是否可以独立于特定用途（包括特定的模型阈值）被判断为公平或不公平的类似讨论在ML公平性文献中基本上是含蓄的或缺失的。有时模型被训练为在其默认决策阈值（例如0.5）时“公平”，尽管不同阈值的使用可能对公平性产生重大影响[32]。对于所有a和r，校准的ML公平概念，即P（Y = 1 | A = a，R = r）= r，可以被解释为模型的属性而不是与其使用相关的，因为它不依赖于决策阈值的选择。

2.2.5 种族和性别

在ML中，一些实际评估公平性的工作已经解决了使用种族作为结构的问题。最近的方法使用了Fitzpatrick肤色类型或无监督聚类来避免种族分类。我们注意到，20世纪60年代和70年代的测试文学经常使用“文化公平”这个词来指黑人和白人之间的平等。除了Thomas 外，60年代和70年代的测试公平性通常与种族而不是性别有关，在性别认同和性别表现中，在ML的公平性方面很少考虑文化的作用，但性别标签引起了伦理关注。

与现代人在衡量公平的困难中的情绪相比，法庭早先作出的决定表明了不可能对影响公平的所有因素进行适当的解释。例如，1964年，伊利诺伊州公平就业实践委员会（FEPC）审查员发现，摩托罗拉在美国黑人Leon Myart对“分析师”工作的申请中有歧视。检查员发现，Myart,进行的5分钟筛选测试没有考虑文化缺失群体的不平等和环境因素。该案被上诉到伊利诺伊州最高法院，该法院发现Myart实际上通过了测试，因此拒绝对测试的公平性作出裁决。

2.3 公平的差距

2.3.1公平性与不公平性

在整理早期公平方法及其与ML公平性的关系时，出现了一些概念上的差距。一个明显的差距与公平性和不公平性之间的框架差异有关。在早期关于测试公平性的工作中，重点是根据不公平歧视和不公平偏见来定义衡量标准，这就带来了发现偏见源的问题。在20世纪70年代，这发展成为公平方面的框架，引入了与今天已知的ML公平性标准相似或相同的标准。然而，回到不公平的概念，提出了几个新的调查领域，包括量化不同类型的不公平和偏差（如内容偏差、选择系统偏差等），以及将重点从结果转移到输入和过程。量化不公平的类型可能不仅会增加机器学习能解决的问题，而且符合当今许多公平性研究背后的判决和治安的现实：寻求正义的人在认为某些事情不公平时会这样做。

2.3.2 项目功能差异

从历史角度看另一个明显的差距是，在当前的ML公平性研究中，缺乏类似于项目功能差异。教育专业人士使用DIF作为调查偏见原因的动机，现代模拟可能包括ML模型中的不公平性解释性。ML中的直接模拟可以比较不同输入特征Xi、模型输出R和子组A的P(Xi|R = r,A = a)。例如，当预测贷款偿还时，这可能涉及比较给定的预测的偿还贷款可能性的子组之间的收入水平是如何不同的。

2.3.3 目标变量/模型分数关系

另一个差距是模型（测试）得分和目标变量彼此相关的方式。在ML公平性和测试公平性的许多情况下，标准对之间存在对应关系，这些对应关系仅在模型（测试）得分R和目标变量Y所起的作用方面不同。也就是说，一个标准可以通过交换符号R和Y转换为另一个标准。例如，分离性可以转化为充分性：A ⊥ R|Y −→A ⊥ Y |R.在本节中，我们将这种类型的对应称为“相反”。

从这个角度来看，有一些突出的不对称性：

•Converse Cleary准则：Cleary准则考虑回归模型的情况，该模型预测给定测试得分R的目标变量Y。还可以考虑逆向回归模型，其从事实Y预测来自模型得分R，以作为检测偏差的工具。相反的Cleary条件表明如果反向回归线具有正误差，即对于每个给定的事实能力水平，测试分数高于逆向回归线预测，那么测试对于子组来说是不公平的，。

•逆向校准：在回归场景中，校准条件P（Y = 1 | R = r，A = a）= r可以改写为E（Y | R = r，A = a）= r或E(Y − r|R = r,A = a) = 0。因此，对于所有子组A = a，相反的校准条件是E（R-y | Y = y，A = a）= 0。换句话说，对于每个子组和事实性能水平Y = y，R对值y的预测中的预期误差为零。

2.3.4 折中

Darlington指出，Thorndike的标准是一个与充分性相关的标准和一个与分离相关的标准之间的折衷。通常来说，可以存在妥协的空间; 就相关性而言，这可以使用参数λ来建模：

其中λ值为-1,0和1分别表示Darlington定义（1），（2）和（3）。

这也建议探索对比充足和分离标准之间的插值。例如，参数化其插值的一种方法是二元混淆矩阵结果。

机器学习测试时间（测试不公平性的50年）(9)

3 本文主要贡献

本文对于公平性相关历史的简短回顾为未来ML公平性研究提供了几个具体步骤：

（1）通过关注不公平的原因，制定解释和减少模型不公平的方法。用Darlington的问题来解释：“在不同层次上区分不同文化的模型可以说明什么？”比“什么是公平模型？”产生更多可操作的见解。这与ML公平性中的因果关系研究有关，但包括了检查完整的因果途径，以及在决策时间之前相互作用的过程。换句话说：导致差异的原因是什么？

（2）借鉴早期Guion，Thorndike，Cole，Linn，Jones和Peterson＆Novick的见解，扩展公平性标准，包括模型背景和使用。

（3）从20世纪70年代早期的研究人员的观点出发，将公平性目标与其他目标（如价值体系或道德体系）之间的平衡纳入量化因素。这可能包括明确阐述的假设和选择。

（4）更早地深入探讨如何定义子群的问题（1966），包括质疑子群是否应该被视为离散类别以及如何对交叉性进行建模。例如，以另一个维度（如肤色）为条件去对沿一个维度（如年龄）的公平性进行量化。

4 引用

Hutchinson B, Mitchell M. 50 Years of Test (Un) fairness: Lessons for Machine Learning[C]//Proceedings of the Conference on Fairness, Accountability, and Transparency. ACM, 2019: 49-58.

致谢

本文由南京大学软件工程系2018硕士生严格翻译转述。

感谢国家自然科学基金项目（重点项目）智能软件系统的数据驱动测试方法与技术（61932012）资助

机器学习测试时间（测试不公平性的50年）

最新推荐

热门推荐