LLM2D
基于区域引导的参考与定位的大型语言模型用于CT报告生成
Large Language Model with Region-guided Referring and Grounding for CT Report Generation
作者: Zhixuan Chen, Yequan Bie, Haibo Jin, Hao Chen
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15539v1

摘要

基于区域引导的参考与定位框架Reg2RG用于CT报告生成。该方法通过关注体积内的解剖区域来增强诊断性能,解决了现有方法主要仅考虑整个体积的全局特征,难以关注特定区域并可能遗漏异常情况的问题。Reg2RG利用通用分割模块的掩码来捕获每个参考区域的局部特征,并提出了一种局部特征解耦(LFD)策略,以较低的计算开销保留局部高分辨率细节。然后,将局部特征与全局特征集成,以在一个连贯的上下文中捕获区域间的相互关系。此外,该方法提出了一种新颖的区域-报告对齐(RRA)训练策略,利用参考区域的识别来指导特定区域报告的生成,增强模型的参考和定位能力,同时提高报告的可解释性。最后,采用大型语言模型(LLM)作为语言解码器,根据集成的视觉特征生成报告,促进区域级理解。在两个大型胸部CT报告数据集上的大量实验表明,该方法优于几种最先进的方法,在自然语言生成和临床疗效指标方面均取得了优异的性能,同时保持了良好的可解释性。代码将公开发布。