所有文章 > 正文

ACL 2020 | 消除文本分类问题中歧视现象的研究

作者: 学术心

时间: 2020-07-12 14:49

本文探究了文本分类中歧视问题的形式化定义,并提出了一种基于样本加权的无需额外数据的模型去歧视方法。

论文题目:Demographics Should Not Be the Reason of Toxicity: Mitigating Discrimination in Text Classifications with Instance Weighting

作者:Guanhua Zhang,Bing BaiJunqi Zhang, Kun Bai,Conghui Zhu,Tiejun Zhao

机构:哈尔滨工业大学、腾讯CSIG无线安全产品部

收录会议:ACL 2020

导语

文本分类问题是自然语言处理中的一个基础问题,旨在根据语义预测一句话的标签。常见的文本分类任务包括情感检测、意图分析等。最近,学术界发现文本分类数据集常常包含对某些群体的歧视, 这是因为这些数据集反映了人类社会中的偏见。机器学习在这些有歧视的数据集中训练时,也会学习到这些歧视的模式,从而产生歧视性的预测结果。比如,模型可能会仅仅因为句子中的“女人”一词就把“我是一个女人”判断为侮辱性语句。本文探究了文本分类中歧视问题的形式化定义,并提出了一种基于样本加权的无需额外数据的模型去歧视方法。实验结果表明我们的方法可以有效缓解模型预测过程中对弱势群体的歧视问题。模型中的歧视问题是机器学习的一个重要的潜在风险,处理不慎可能会对业务乃至公司造成重大的财产、声誉损失。本文提出的方法可以有效的应用于业务中文本分类模型的去歧视优化与改进,并且这个方法对其他分类任务也有着重要的借鉴意义。本文章已经被ACL2020录取。

0 问题背景

文本分类问题是自然语言处理中的一个基础问题,旨在根据语义预测一句话的标签。常见的文本分类任务包括情感检测、意图分析等。

最近,学术界发现文本分类数据集常常包含对某些群体的歧视, 这是因为这些数据集反映了人类社会中的偏见。具体地,这种歧视表现为在数据集中某些群体对特定标签有明显的倾向性。比如在Toxicity Comments数据集中,如下表所示,我们可以看出一些群体词如“gay”与标签“Abusive”有着很强的关联。

image-20200615003314839-XLjsfRaX4M.png

机器学习在这些有歧视的数据集中训练时,也会学习到这些歧视的模式,从而产生歧视性的预测结果。比如,模型可能会仅仅因为句子中的“女人”一词就把“我是一个女人”判断为侮辱性语句。如果这样有歧视的模型被应用在实际生活场景中,不难想象其会对一些弱势群体造成伤害。

1 问题定义

我们首先给出无歧视分布和无歧视模型的定义。在本文中,我们使用X来表示句子,Y来表示标签,Z来表示句子中的包含的群体信息,\hat Y来表示模型的预测。

1.1 无歧视分布

如前面所说的,数据集中的歧视现象是人类社会中的偏见的映射,我们称有偏数据集中的分布为***有歧视分布***。

现实世界是有歧视的,对应地,我们可以假设存在一个无歧视的理想世界,而现实世界则是理想世界的一个歧视性的映射。进一步地,我们可以假设存在一个***无歧视分布***反映了理想世界,而有歧视分布是从无歧视分布中遵循着歧视性的规则抽样得到的。我们用P表示无歧视分布中的概率,Q表示有歧视分布中的概率,则无歧视分布显然应该满足群体信息与标签无关,即

Q(Y|Z)=Q(Y)

1.2 无歧视模型

对于文本分类模型,我们使用*Equalized Odds*来定义模型的歧视行为。具体地,无歧视模型应该满足在给定标签Y的情况下,模型的预测\hat Y应该与群体信息Z无关。同时,我们证明当测试集满足群体信息Z与标签Y独立时,满足*Equalized Odds*的模型也同时满足另外两个常用的无歧视模型定义,即*Demographic Parity*和*Predictive Parity*。

所以,在本文中,我们定义一个无歧视的模型,当在Pr(Y|Z)=Pr(Y)的数据集中测试时,应该满足

Pr(Y|\hat Y,Z)=Pr(Y|\hat Y)

2 去歧视方法

基于有歧视分布是从无歧视分布中遵循着歧视性的规则抽样得到的视角,我们使用S \in [0,1]来表示采样决策变量,并用S=1表示一个样本被从无歧视分布中采样到有歧视分布中。即

P(\cdot)=Q(\cdot|S=1)

此外,无歧视分布还应该满足

Q(Y|Z)=Q(Y)

在理想情况下,如果S的取值是完全随机的,那么采样得到的数据应该可以很好地反映无歧视分布。然而,由于社会偏见,S的取值并非随机的。受到数据集中某些群体对特定标签有明显的倾向性的现象的启发,我们假设S的取值由Z和Y决定。此外,我们还假设,对于任意Z,Y满足S=1的后验概率大于0,即

Q(S=1|X,Z,Y)=Q(S=1|Z,Y)>0

同时,我们还额外假设采样的过程不会改变群体信息的边缘概率分布,也就是

P(Z)=Q(Z)

我们可以证明当群体信息完全包含在句子中时,满足一致性的学习器渐进地不受这个假设影响。

基于以上四个假设,我们证明通过对模型在训练的时候添加样本权重w=\frac {Q(y)} {P(y|z)},可以等价于在无歧视分布中训练模型。具体证明请见[论文](https://arxiv.org/pdf/2004.14088.pdf)。

image-20200615013521188-PxVDjKXsTe.png

具体的算法流程图如下:

image-20200615013651882-AlY9ocfgEt.png

image-20200615014538067-iOgroh47M0.png

在实践中,我们可以基于具体情况选择性地设置Q(Y),比如设置Q(Y)=P(Y)或者均匀分布等。而对于P(Y|Z),我们可以使用随机森林等分类器来进行估计。

3 实验

3.1 实验设置

在实验中,我们选择Sexist Tweets, Toxicity Comments和Jigsaw Toxicity三个数据集来评估我们方法的去歧视效果。其中,Sexist用来评估性别歧视,另外两个用来评估群体歧视。

image-20200615014538067-MURFQHvmBN.png

image-20200615014834468-rUE7pda2Sb.png

image-20200615014834468-m7VsOFkzwM.png

对于Toxicity Comments,为了与其他工作中的结果对齐,我们使用与其一样的CNN网络。而对于另外两个数据集,我们使用单层128维的LSTM模型来作为Baseline。此外,我们在Sexist中与数据补充方法(Swap)方法进行了比较,在Toxicity Comments和Jigsaw Toxicity中与数据补充方法(Supplement)进行了比较。

为了评估模型的歧视性,参照其他工作中的做法,我们基于模板生成了Identity Phrase Templates Test Sets (IPTTS)用来做评估模型的测试集。我们在IPTTS中分别计算False Positive Equality Difference (FPED)和False Negative Equality Difference (FNED)两个指标来评估模型的歧视性。

image-20200615014834468-choGFR1BNK.png

这两个指标可以看作是对Equalized Odds的一种松弛,FPED和FNED越小,则模型中歧视越少。此外,我们还分别在原测试集与IPTTS中计算AUC来衡量模型的性能。

3.2 实验结果

image-20200615013924260-jhnV83vqYb.png

**Sexist Tweets** 从表3中,我们可以发现我们的加权方法在FPED和FNED上显著优于Baseline,说明我们的模型能有效消除模型歧视。数据增强方法在FPED和FNED上强于加权方法,但是在IPTTS AUC上也更低,这说明Swap去歧视是以牺牲模型性能为代价的。

**Toxicity Comments** 从表4中,我们可以发现加权方法在FPED, FNED和IPTTS AUC上均优于Baseline,说明了我们方法的去歧视能力。同时,我们注意到我们的加权方法的去歧视效果甚至比数据补充方法还略好,而数据补充方法是需要针对性补充额外的数据的!此外,我们注意到加权方法的Orig. AUC与另两种方法相差不大,说明我们方法对模型性能损失很小。

**Jigsaw Toxicity** 从表5中,我们可以看出,与表4的结果相似,加权方法和数据补充方法在IPTTS AUC和FPED上都显著优于Baseline,而加权方法与数据补充方法在去歧视结果上无显著差异,表现出了加权方法能有效缓解数据集歧视对模型的影响。

4 总结

在本文中,我们分析了文本分类中的歧视问题,给出了问题的形式化定义,并提出了将歧视问题转化为采样偏差(Selection Bias)问题。基于这个视角,我们提出一种基于样本加权的无需额外数据的去歧视方法。实验表明,我们的方法在对模型性能不造成较大损失的情况下,可以有效去除模型中的歧视。本文提出的方法可以有效的应用于业务中文本分类模型的去歧视优化与改进,并且这个方法对其他分类任务也有着重要的借鉴意义。

更多ACL 2020论文请点此查看

相关阅读:

ACL 2020 | RikiNet: 阅读维基百科页面进行自然问答(彩蛋!作者分享了PPT)

ACL2020开幕在即!这些是你需要提前知道的数据

引用量 TOP 10 的ACL历届会议“最佳论文”

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多