摘要
受信任的人工智能中分类问题的关键议题之一是确保在有保护(敏感)特征存在时,不同类别预测的公平性。在这些情况下,数据质量至关重要,因为训练数据中的偏见可能会在机器学习中反映出来,影响人类生活并且无法遵守现行法规。提高数据质量和避免这些问题的一种策略是对数据集进行预处理。通过欠采样进行实例选择可以促进类别和保护特征值的平衡学习。在接近决策边界的类别重叠区域执行欠采样应该会增强对分类器的影响。本研究提出了公平重叠球数(Fair-ONB)方法,这是一种利用不同数据组(由类别和保护特征值组合获得)的数据形态,在重叠区域进行引导欠采样的方法。它利用组的球覆盖属性,如半径、覆盖实例数和密度,以选择最适合欠采样的区域并减少偏见。结果表明,Fair-ONB方法在对分类器预测性能影响较小的情况下,提高了模型的公平性。