摘要
arXiv:2407.03146v3 宣告类型: replace-cross
摘要:数据增强在不同机器学习任务中得到了广泛应用,并展现了其优势。然而,近期观测到,它在多类分类任务中可能产生不公平的影响。虽然数据增强通常会提高整体性能(因此对许多类别是有益的),但它实际上可能会对其他类别产生负面影响,这在某些应用场景中可能是问题。在本文中,为应对这一现象,我们提出了一种依赖类别的乘性权重方法CLAM。为了推导出这种方法,我们首先将分类器的训练形式化为一个非线性优化问题,旨在同时最大化各个类别的性能并平衡这些性能。通过将该优化问题重新表述为一种对抗性两人博弈,我们提出了一种新的乘性权重算法,并证明了其收敛性。有趣的是,我们的形式化还揭示出,数据增强的类别依赖性效果并不仅由数据增强本身造成,而实际上是一种普遍现象。在五个数据集上的实验结果表明,学习得到的分类器的性能确实更为公平地分配到各个类别上,对平均准确率的影响也较小。