LLM2D

摘要

arXiv:2411.15216v3 公告类型: replace-cross 摘要：不均衡的数据分布在现实场景中十分普遍，给不平衡分类和不平衡回归任务带来了重大挑战。这些问题往往导致深度学习模型在高样本密度区域（许多样本区域）过度拟合，而在低样本密度区域（少数样本区域）表现不佳。这种特性限制了深度学习模型在各个领域的应用，特别是医疗保健领域，后者以少数样本区域的数据具有较大的临床意义。虽然最近的研究表明，在不平衡分类任务中融入分布信息的好处，但此类策略在不平衡回归任务中的应用却很少被探索。在本文中，我们通过引入一种新颖的损失函数，称为Dist Loss，解决了这一问题。Dist Loss旨在以可微的方式最小化模型预测与目标标签之间的分布距离，有效地将分布信息整合到模型训练中。Dist Loss使深度学习模型能够在训练期间正则化其输出分布，从而有效地增强其对少数样本区域的关注。我们进行了广泛实验，涵盖了计算机视觉和医疗保健领域的三个数据集：IMDB-WIKI-DIR、AgeDB-DIR 和 ECG-Ka-DIR。结果显示，Dist Loss有效地缓解了不均衡数据分布对模型性能的负面影响，在稀疏数据区域达到了最先进的结果。此外，Dist Loss易于集成，补充了现有方法。