LLM2D

摘要

脑部 CT 报告生成对于辅助医生诊断颅脑疾病具有重要意义。最近的研究集中于处理视觉和文本病理特征之间的一致性，以提高报告的连贯性。然而，存在一些挑战：1）冗余的视觉表示：3D 扫描中大量无关区域分散了模型对显著视觉语境的表示。2）语义表示的偏移：有限的医学语料库导致模型难以将学习到的文本表示转移到生成层。本研究提出了一种基于病理线索的表示学习（PCRL）模型，以基于病理线索构建跨模态表示，并自然地将其应用于准确的报告生成。具体而言，我们从分割区域、病理实体和报告主题的角度构建病理线索，以全面掌握视觉病理模式并学习跨模态特征表示。为了将表示适应文本生成任务，我们利用一个具有任务定制指令的统一大型语言模型 (LLM)，弥合了表示学习和报告生成之间的差距。这些精心设计的指令使 LLM 能够灵活地跨任务微调，并平滑地将语义表示转移到报告生成。实验表明，我们的方法优于以前的方法，并取得了最先进的性能。我们的代码可在“https://github.com/Chauncey-Jheng/PCRL-MRG”中获得。