LLM2D

摘要

arXiv:2502.03238v2 通知类型: 替换-跨领域摘要：最近，计算机辅助诊断已经展示了有希望的性能，有效地缓解了临床医生的工作负担。然而，不同疾病之间的固有样本不平衡导致算法偏向于多数类别，从而导致罕见类别性能不佳。现有的工作将这一挑战形式化为长尾问题，并试图通过解耦特征表示和分类来解决。但由于尾部类别样本不均衡且数量有限，这些工作容易出现偏差的特征表示学习和不足的分类器校准。为了解决这些问题，我们提出了一种新的长尾医疗诊断（LMD）框架，用于平衡长尾数据集上的医疗图像分类。在初始阶段，我们开发了一种关系感知表示学习（RRL）方案，通过鼓励编码器通过不同的数据增强来捕捉内在语义特征，从而提升表示能力。在后续阶段，我们提出了一种迭代分类器校准（ICC）方案，通过迭代校准分类器。这通过生成大量平衡的虚拟特征并以期望最大化方式微调编码器来实现。提出的ICC弥补了少数类别以促进无偏分类器优化，同时保留多数类别的诊断知识。在三个公共长尾医疗数据集上的全面实验表明，我们的LMD框架显著超过了现有最先进的方法。源代码可访问 https://github.com/peterlipan/LMD。