LLM2D

摘要

arXiv:2407.03146v3 宣告类型: replace-cross 摘要：数据增强在不同机器学习任务中得到了广泛应用，并展现了其优势。然而，近期观测到，它在多类分类任务中可能产生不公平的影响。虽然数据增强通常会提高整体性能（因此对许多类别是有益的），但它实际上可能会对其他类别产生负面影响，这在某些应用场景中可能是问题。在本文中，为应对这一现象，我们提出了一种依赖类别的乘性权重方法CLAM。为了推导出这种方法，我们首先将分类器的训练形式化为一个非线性优化问题，旨在同时最大化各个类别的性能并平衡这些性能。通过将该优化问题重新表述为一种对抗性两人博弈，我们提出了一种新的乘性权重算法，并证明了其收敛性。有趣的是，我们的形式化还揭示出，数据增强的类别依赖性效果并不仅由数据增强本身造成，而实际上是一种普遍现象。在五个数据集上的实验结果表明，学习得到的分类器的性能确实更为公平地分配到各个类别上，对平均准确率的影响也较小。