摘要
arXiv:2502.11651v1 Announce Type: cross
摘要:大型视觉-语言模型(LVLMs)在医疗应用中显示出巨大的潜力,特别是在医学视觉问答(MedVQA)和医学图像诊断方面。然而,现有的数据集和模型往往未能考虑医学诊断中的关键方面,例如历史记录的整合以及疾病进展的分析。在本文中,我们介绍了MMXU(多模态和多X光理解),这是一个专门用于MedVQA的新数据集,旨在识别患者两次就诊之间特定区域的改变。与主要关注单图像问题的先前数据集不同,MMXU 支持多图像问题,结合了当前和历史患者数据。我们证明了目前的LVLMs在MMXU-test中识别疾病进展方面的局限性,即使在传统基准测试中表现良好的模型也不例外。为了解决这一问题,我们提出了一种MedRecord-Augmented Generation(MAG)方法,结合了全局和局部历史记录。我们的实验结果显示,整合历史记录显著提高了诊断准确性至少20%,填补了当前LVLMs与人类专家表现之间的差距。此外,我们在MMXU-dev上对MAG进行了模型微调,这展示了明显的改进。我们希望这项工作能够揭示通过强调医疗图像解释中的历史背景来推动LVLMs在医学诊断中的应用的研究路径。我们的数据集可在 \href{https://github.com/linjiemu/MMXU}{https://github.com/linjiemu/MMXU} 上获得。