摘要
arXiv:2411.15216v3 公告类型: replace-cross
摘要:不均衡的数据分布在现实场景中十分普遍,给不平衡分类和不平衡回归任务带来了重大挑战。这些问题往往导致深度学习模型在高样本密度区域(许多样本区域)过度拟合,而在低样本密度区域(少数样本区域)表现不佳。这种特性限制了深度学习模型在各个领域的应用,特别是医疗保健领域,后者以少数样本区域的数据具有较大的临床意义。虽然最近的研究表明,在不平衡分类任务中融入分布信息的好处,但此类策略在不平衡回归任务中的应用却很少被探索。在本文中,我们通过引入一种新颖的损失函数,称为Dist Loss,解决了这一问题。Dist Loss旨在以可微的方式最小化模型预测与目标标签之间的分布距离,有效地将分布信息整合到模型训练中。Dist Loss使深度学习模型能够在训练期间正则化其输出分布,从而有效地增强其对少数样本区域的关注。我们进行了广泛实验,涵盖了计算机视觉和医疗保健领域的三个数据集:IMDB-WIKI-DIR、AgeDB-DIR 和 ECG-Ka-DIR。结果显示,Dist Loss有效地缓解了不均衡数据分布对模型性能的负面影响,在稀疏数据区域达到了最先进的结果。此外,Dist Loss易于集成,补充了现有方法。