摘要
arXiv:2409.12428v1 公告类型: 交叉 摘要: 过去几十年,机器学习(ML)应用呈指数级增长,为社会带来了诸多益处。然而,这些益处伴随着ML模型表现出的歧视性行为的担忧。在此背景下,机器学习中的公平性已成为一个优先研究领域。因此,开发了多种公平性指标和算法,以减轻ML模型可能存在的歧视性行为。然而,对于数据模式自然变化(即数据分布漂移)及其对公平性算法和指标的影响,关注甚少。在本研究中,我们全面探讨了这一问题,分析了4种无公平意识的基线算法和7种有公平意识的算法,这些算法精心挑选以涵盖其类型的广度,跨越5个数据集,包括公共和专有数据,并使用3个预测性能和10个公平性指标进行评估。通过这样做,我们展示了(1)数据分布漂移并非微不足道,在许多情况下会导致所谓公平模型的公平性严重恶化;(2)与现有文献相反,数据分布漂移的大小和方向与产生的歧视性行为的大小和方向不相关;(3)数据分布漂移的影响在很大程度上被文献忽视,影响了公平性算法的选择和训练。基于我们的发现,我们总结了数据分布漂移对公平性算法的若干政策影响,这些影响对利益相关者和从业者具有重要意义。