LLM2D

摘要

arXiv:2504.05207v1 交叉发布类型: cross 摘要: 在CT研究中进行通用病灶检测和标记（ULDT）对于肿瘤负担评估以及跟踪病灶状态（增殖/缩小）随时间的变化至关重要。然而，缺乏完全标注的数据妨碍了有效ULDT方法的发展。先前的工作使用DeepLesion数据集（4,427名患者，10,594项研究，32,120张CT切片，32,735个病灶，32个身体部位标签）进行算法开发，但该数据集并未完全标注且存在类别不平衡。为解决这些问题，本文开发了一个自训练管道用于ULDT。该研究在受限的11.5% DeepLesion子集（边界框+标签）上训练了一个VFNet模型，用于检测和分类CT研究中的病灶。然后，它识别并整合了更大规模的未知数据子集中的新型病灶候选者到其训练集中，并在多轮次中自我训练。进行了多次不同阈值策略的自训练实验，以选择高质量的预测病灶并覆盖类别不平衡。我们发现直接自训练在代价于欠代表类别的敏感性提高的情况下，提高了过度代表的病灶类别的敏感性。然而，结合病灶训练和变量阈值策略放大的样本占比，在4个误报的情况下的敏感性提高了6.5%，相对于未进行类别平衡的自训练（72% 对 78.5%）以及相对于相同自训练策略但未放大规模样本的情况下提升了11.7%（66.8% 对 78.5%）。此外，我们展示了我们的结果要么提高了要么保持了所有8个病灶类别的4个误报情况下的敏感性。