LLM2D

摘要

arXiv:2504.05591v1 Announce Type: cross 摘要：放射科医生在CT扫描中常规检测和量化病灶以分期癌症并评估肿瘤负荷。为了有可能辅助其努力，已经开发了多种病灶检测算法，并使用一个名为DeepLesion的大型公开数据集（包含32,735个病灶、32,120个CT切片、10,594个研究、4,427名患者和8个体部标签）。然而，这个数据集包含缺失的测量值和病灶标签，并且在每个标签类别中的病灶数量表现出严重的不平衡。在这项工作中，我们利用DeepLesion的有限子集（6%，1,331个病灶、1,309个切片，包含病灶注释和体部标签）来训练VFNet模型以检测病灶并对其进行标记。为了应对类别不平衡，我们进行了三项实验：1) 通过体部标签平衡数据，2) 通过每名患者病灶数量平衡数据，和3) 通过病灶大小平衡数据。与随机采样的（不平衡的）数据子集相比，我们的结果显示，平衡体部标签总是提高了病灶≥1cm的类别（数据量较少）的灵敏度（骨质：80% vs. 46%，肾脏：77% vs. 61%，软组织：70% vs. 60%，骨盆：83% vs. 76%）。其他三种模型（FasterRCNN、RetinaNet、FoveaBox）测试也呈现出相似的趋势。通过病灶大小平衡数据也有助于VFNet模型在所有类别中提高召回率，而与不平衡数据集相比则表现出色。我们还提供了一个结构化的报告指南，用于在放射科报告的“发现”部分中填写“病灶”子部分。据我们所知，这是首次报告关于DeepLesion的类别不平衡情况，并且我们已经采取了数据驱动的方法来解决这个问题，特别是在联合病灶检测和标记的背景下。