摘要
机器学习研究的一个重要目标是识别和减轻数据集固有且已融入预训练模型中的不良偏差。以往的方法使用高度精选的验证子集来识别偏差,而创建这些子集需要人类知识。这限制了自动发现新数据集中未知偏差的能力。我们通过使用可解释的视觉语言模型,结合使用大型语言模型和已知概念层次结构的过滤方法来解决这个问题。更确切地说,对于一个数据集,我们使用预训练的CLIP模型,每个类别都有一个相关的嵌入,并观察它在学习过程中是如何偏离揭示隐藏偏差的嵌入的。我们将这种方法称为ConceptDrift,并证明它可以扩展到在无需人类先验知识的情况下自动识别ImageNet等数据集中的偏差。我们提出了两种偏差识别评估协议来填补先前工作的空白,并证明我们的方法在使用我们的协议和经典评估方面都显著优于最先进的方法。在验证已识别的偏差的同时,我们还表明它们可以用来提高不同方法的性能。我们的方法不受限于单一模态,我们通过实验证明了它在图像(Waterbirds、CelebA、ImageNet)和文本数据集(CivilComments)上的有效性。