LLM2D

摘要

如今深度学习模型的广泛成功归功于规模和复杂度都十分庞大的数据集的精心整理。然而，这些模型在训练过程中经常会吸收数据中固有的偏差，导致预测结果不可靠。因此，诊断和消除数据集偏差对于确保模型的可靠性能至关重要。本文提出了CONBIAS，一个用于诊断和缓解视觉数据集中的概念共现偏差的新框架。CONBIAS将视觉数据集表示为概念知识图，能够仔细分析虚假概念共现，从而揭示整个数据集中的概念不平衡。此外，我们表明，通过采用一种新颖的基于团的概念平衡策略，我们可以缓解这些不平衡，从而提高下游任务的性能。大量实验表明，基于CONBIAS增强的平衡概念分布的数据增强方法，与最先进的方法相比，在多个数据集上都提高了泛化性能。我们将公开发布我们的代码和数据。