LLM2D

摘要

arXiv:2502.09765v1 公布类型: cross 摘要：公平且无偏见的机器学习模型的开发仍然是人工智能领域研究人员的一个持续目标。我们提出了差异调整公平性（Differential Adjusted Parity, DAP）损失函数，以生成无偏见的信息表示。它利用了调整公平性度量的可微变体，创建了一个统一的目标函数。通过结合下游任务分类精度及其在敏感特征域中的不一致性，它提供了一个单一工具来提高性能并减少偏见。这种方法的关键要素是使用软平衡精度。与之前的非对抗性方法不同，DAP 不会出现因为所有敏感特征域表现同样糟糕来满足度量标准的情况。在我们的分析中，DAP 在下游任务准确性和公平性方面均优于几种对抗性模型。特别是，当与这些度量标准上表现最好的对抗性方法进行比较时，DAP 分别在人口统计学公平性、平等机会和敏感特征的准确性上提高了 22.5%、44.1% 和 40.1%。总体而言，DAP 损失及其相关度量可以在创建更公平的机器学习模型中发挥重要作用。