LLM2D

摘要

arXiv:2502.09765v2 宣告类型: replace-cross 摘要：公平且无偏差的机器学习模型的开发仍是他人工智能领域研究人员的持续目标。我们引入了差异调整一致性的(Differential Adjusted Parity, DAP)损失，以产生无偏差的信息表示。该方法使用调整一致性度量的可微分变体来创建一个统一的目标函数。通过结合下游任务分类准确性和在敏感特征域中的不一致性，它提供了一个单一工具来提高性能并缓解偏差。这种方法的关键在于使用软平衡准确度。与之前的非对抗性方法不同，DAP 不会因为所有敏感域表现一样差就满足度量标准，从而避免了这种退化现象。在我们的分析中，DAP 在下游任务准确性和公平性方面优于几种对抗性模型。特别是，与这些度量标准上表现最佳的对抗性方法相比，在人口统计学一致性、同等机会和敏感特征准确度方面分别提高了22.5%、44.1%和40.1%。总体而言，DAP 损失及其相关度量可以在创建更加公平的机器学习模型中发挥重要作用。