LLM2D

摘要

arXiv:2502.10620v1 通知类型: 新摘要: 近期大型语言模型（LLMs）在各类视觉-语言任务中展现了非凡的 comprehension 能力，取得了显著的突破。然而，LLMs 在生成可靠的医疗诊断报告方面的应用仍处于初步阶段。目前，医疗 LLM 通常采用被动的互动模式，医生根据患者的问题进行回应，很少或未参与医疗图像的分析。相比之下，一些聊天机器人只是根据视觉输入对预定义的问题做出回应，缺乏互动对话或医疗历史的考虑。因此，LLM 生成的患者-聊天机器人交互与实际患者-医生咨询之间存在差距。为了弥合这一差距，我们开发了一个基于 LLM 的对话系统，即主动多轮视觉-语言互动以辅助计算机辅助诊断（ProMRVL-CAD），以生成患者友好的疾病诊断报告。所提出的 ProMRVL-CAD 系统通过将知识图谱集成到推荐系统中，允许主动对话，为患者提供持续可靠的医疗访问。具体来说，我们设计了两个生成器：一种是主动问题生成器（Pro-Q Gen），用于生成引导诊断程序的主动问题；另一种是多视图患者-文本诊断报告生成器（MVP-DR Gen），用于生成高质量的诊断报告。通过对两个公开的真实世界数据集 MIMIC-CXR 和 IU-Xray 的评估，我们的模型在生成医疗报告方面质量更好。此外，我们还创建了一个合成医疗对话数据集，模拟患者与医生之间的主动诊断交互，作为训练 LLM 的宝贵资源。