LLM2D

摘要

基于区域引导的参考与定位框架Reg2RG用于CT报告生成。该方法通过关注体积内的解剖区域来增强诊断性能，解决了现有方法主要仅考虑整个体积的全局特征，难以关注特定区域并可能遗漏异常情况的问题。Reg2RG利用通用分割模块的掩码来捕获每个参考区域的局部特征，并提出了一种局部特征解耦（LFD）策略，以较低的计算开销保留局部高分辨率细节。然后，将局部特征与全局特征集成，以在一个连贯的上下文中捕获区域间的相互关系。此外，该方法提出了一种新颖的区域-报告对齐（RRA）训练策略，利用参考区域的识别来指导特定区域报告的生成，增强模型的参考和定位能力，同时提高报告的可解释性。最后，采用大型语言模型（LLM）作为语言解码器，根据集成的视觉特征生成报告，促进区域级理解。在两个大型胸部CT报告数据集上的大量实验表明，该方法优于几种最先进的方法，在自然语言生成和临床疗效指标方面均取得了优异的性能，同时保持了良好的可解释性。代码将公开发布。