LLM2D

摘要

现实世界中数据分布不均衡的现象普遍存在，这对不均衡分类和不均衡回归任务都带来了巨大的挑战。这种不平衡往往导致深度学习模型在样本密度高（多样本区域）的区域过拟合，而在样本密度低（少样本区域）的区域表现不佳。这一特性限制了深度学习模型在各个领域的应用，尤其是在医疗保健领域，少样本数据区域具有更大的临床意义。虽然最近的研究表明在不均衡分类任务中结合分布信息的好处，但这种策略在不均衡回归中很少被探索。在本文中，我们通过引入一种新颖的损失函数Dist Loss来解决这个问题，该函数旨在以可微分的方式最小化模型预测与目标标签之间的分布距离，有效地将分布信息整合到模型训练中。Dist Loss使深度学习模型能够在训练过程中规范其输出分布，有效地增强其对少样本区域的关注。我们在涵盖计算机视觉和医疗保健的三个数据集（IMDB-WIKI-DIR、AgeDB-DIR和ECG-Ka-DIR）上进行了大量的实验。结果表明，Dist Loss有效地减轻了数据分布不均衡对模型性能的负面影响，在稀疏数据区域取得了最先进的结果。此外，Dist Loss易于集成，可以补充现有方法。