LLM2D

摘要

本文探讨了通过从训练集中移除特定数据点以实现该集合中人口公平表示的偏差缓解技术。机器学习模型在这些预处理后的数据集上进行训练，并期望其预测结果是公平的。然而，此类方法可能会排除相关数据，使得所获得的子集在进一步使用时可信度降低。为了提高先前方法的可信度，我们提出了子集必须满足的额外要求和目标，除了公平性之外，还包括（1）群体覆盖率，和（2）最小数据损失。尽管移除整个群体可能会提高测量的公平性，但这种做法存在很大问题，因为未能代表每个群体不能被视为公平。在我们的第二个关注点中，我们主张在最小化歧视的同时保留数据。通过引入考虑公平性和数据损失的多目标优化问题，我们提出了一种方法来找到平衡这些目标的帕累托最优解。通过识别这些解决方案，用户可以就公平性和数据质量之间的权衡做出明智的决策，并选择最适合其应用的子集。我们的方法通过PyPI以Python包的形式发布，名为FairDo（https://github.com/mkduong-ai/fairdo）。