摘要
arXiv:2502.10620v1 通知类型: 新
摘要: 近期大型语言模型(LLMs)在各类视觉-语言任务中展现了非凡的 comprehension 能力,取得了显著的突破。然而,LLMs 在生成可靠的医疗诊断报告方面的应用仍处于初步阶段。目前,医疗 LLM 通常采用被动的互动模式,医生根据患者的问题进行回应,很少或未参与医疗图像的分析。相比之下,一些聊天机器人只是根据视觉输入对预定义的问题做出回应,缺乏互动对话或医疗历史的考虑。因此,LLM 生成的患者-聊天机器人交互与实际患者-医生咨询之间存在差距。为了弥合这一差距,我们开发了一个基于 LLM 的对话系统,即主动多轮视觉-语言互动以辅助计算机辅助诊断(ProMRVL-CAD),以生成患者友好的疾病诊断报告。所提出的 ProMRVL-CAD 系统通过将知识图谱集成到推荐系统中,允许主动对话,为患者提供持续可靠的医疗访问。具体来说,我们设计了两个生成器:一种是主动问题生成器(Pro-Q Gen),用于生成引导诊断程序的主动问题;另一种是多视图患者-文本诊断报告生成器(MVP-DR Gen),用于生成高质量的诊断报告。通过对两个公开的真实世界数据集 MIMIC-CXR 和 IU-Xray 的评估,我们的模型在生成医疗报告方面质量更好。此外,我们还创建了一个合成医疗对话数据集,模拟患者与医生之间的主动诊断交互,作为训练 LLM 的宝贵资源。