LLM2D

摘要

许多机器学习公平性问题缓解方法已被开发出来。我们发现，仅仅使用线性混淆这种数据增强技术来缓解偏差，仍然可能保留数据集中标签中存在的偏差。本文的研究旨在通过提出一种新颖的预处理策略来解决这个问题，该策略可以利用现有的混淆方法和我们新的偏差缓解算法来改进增强样本标签的生成，这些标签是接近感知的。具体来说，我们提出了 ProxiMix，它保留了成对关系和邻近关系，以实现更公平的数据增强。我们对三个数据集、三个机器学习模型和不同的超参数设置进行了彻底的实验。我们的实验结果表明 ProxiMix 在预测公平性和补救公平性方面均有效。