LLM2D

摘要

医疗保健中的长尾问题源于数据不平衡，这是由于不同医疗状况的患病率和代表性的差异造成的，因此需要精确可靠的分类方法。传统的损失函数，如交叉熵和二元交叉熵，由于无法解决医疗图像数据集中高代表性类别和低代表性类别之间的不平衡问题，因此往往不足。我们提出了一种基于 Pade 近似的全新多项式损失函数，专门用于克服长尾分类带来的挑战。这种方法结合了非对称采样技术，可以更好地对代表性不足的类别进行分类。我们在三个公开可用的医疗数据集和一个专有医疗数据集上进行了广泛的评估。我们提出的损失函数的实现已在公共仓库中开源：https://github.com/ipankhi/ALPA。