LLM2D

摘要

arXiv:2411.15539v2 宣布类型: 替换交叉摘要：CT图像报告生成对于帮助放射科医生解读CT体积至关重要，但这一过程可能会非常耗时且劳动密集型。现有方法主要只考虑整个体积的全局特征，使其难以关注特定区域，并可能错过异常情况。为了解决这一问题，我们提出了Reg2RG，这是第一个用于CT报告生成的区域引导引用和定位框架，通过聚焦体积内的解剖区域来增强诊断性能。具体而言，我们利用通用分割模块的掩码来捕捉每个引用区域的局部特征。我们提出了局部特征解耦（LFD）策略，以在几乎不增加计算负担的情况下保留局部高分辨率细节。然后将局部特征与全局特征结合起来，以在连贯的上下文中捕捉区域之间的关系。此外，我们提出了一种新的区域报告对齐（RRA）训练策略。该策略通过利用引用区域的识别来指导生成特定区域的报告，增强了模型的引用和定位能力，同时提高了报告的可解释性。我们进一步采用大型语言模型（LLM）作为语言解码器，从集成的视觉特征中生成报告，促进区域级别的理解。在两个大规模胸部CT报告数据集上的 extensive 实验表明，我们的方法在自然语言生成和临床有效性的各项指标上优于几种最先进的方法，同时保持了可解释性的潜力。代码可在 https://github.com/zhi-xuan-chen/Reg2RG 获取。