摘要
脑部 CT 报告生成对于辅助医生诊断颅脑疾病具有重要意义。最近的研究集中于处理视觉和文本病理特征之间的一致性,以提高报告的连贯性。然而,存在一些挑战:1)冗余的视觉表示:3D 扫描中大量无关区域分散了模型对显著视觉语境的表示。2)语义表示的偏移:有限的医学语料库导致模型难以将学习到的文本表示转移到生成层。本研究提出了一种基于病理线索的表示学习(PCRL)模型,以基于病理线索构建跨模态表示,并自然地将其应用于准确的报告生成。具体而言,我们从分割区域、病理实体和报告主题的角度构建病理线索,以全面掌握视觉病理模式并学习跨模态特征表示。为了将表示适应文本生成任务,我们利用一个具有任务定制指令的统一大型语言模型 (LLM),弥合了表示学习和报告生成之间的差距。这些精心设计的指令使 LLM 能够灵活地跨任务微调,并平滑地将语义表示转移到报告生成。实验表明,我们的方法优于以前的方法,并取得了最先进的性能。我们的代码可在“https://github.com/Chauncey-Jheng/PCRL-MRG”中获得。