LLM2D

摘要

受欧盟人工智能法案当前勘误案第 (67) 条的启发，我们提出并展示了针对表格数据集中歧视的措施和缓解策略。我们特别关注包含多个受保护属性的数据集，例如国籍、年龄和性别。这使得衡量和缓解偏差更加困难，因为许多现有方法都是针对单个受保护属性设计的。本文有两方面的贡献：首先，引入了新的歧视衡量标准。这些衡量标准与现有的衡量标准一起被归类在我们提出的框架中，指导研究人员和从业人员选择合适的衡量标准来评估底层数据集的公平性。其次，介绍了现有偏差缓解方法 FairDo 的一种新应用。我们表明，该策略可以通过转换数据集来缓解任何类型的歧视，包括交叉歧视。通过对真实世界数据集 (Adult, Bank, COMPAS) 进行实验，我们证明了对具有多个受保护属性的数据集进行去偏见是可能的。所有经过转换的数据集都显示出歧视减少，平均减少 28%。此外，与原始数据集相比，这些数据集在任何测试的机器学习模型的性能方面都没有显着下降。总之，这项研究证明了所用缓解策略的有效性，并为欧盟人工智能法案的实施的持续讨论做出了贡献。