LLM2D
多重受保护属性表格数据集的偏差测量与缓解
Measuring and Mitigating Bias for Tabular Datasets with Multiple Protected Attributes
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2405.19300v2

摘要

arXiv:2405.19300v2 公告类型: 替换-交叉 摘要: 受欧盟《人工智能法案》当前修正案第67条的启发,我们提出并介绍了针对表格数据集中歧视问题的措施和缓解策略。我们特别关注包含多个受保护属性的数据集,如国籍、年龄和性别。这使得测量和缓解偏见更具挑战性,因为许多现有方法是为单一受保护属性设计的。本文的贡献是双重的:首先,引入了新的歧视测量方法。这些方法在我们的框架中与现有方法一起分类,指导研究人员和从业者选择合适的测量方法来评估基础数据集的公平性。其次,展示了现有偏见缓解方法FairDo的新应用。我们表明,通过转换数据集,这种策略可以缓解任何类型的歧视,包括交叉歧视。通过在真实世界数据集(Adult、Bank、COMPAS)上进行实验,我们证明了去偏见多受保护属性数据集是可能的。所有转换后的数据集平均减少了28%的歧视。此外,与原始数据集相比,这些数据集不会显著影响任何测试的机器学习模型的性能。总之,本研究展示了所用缓解策略的有效性,并有助于欧盟《人工智能法案》实施的持续讨论。