摘要
arXiv:2411.16778v2 通告类型: replace-cross
摘要: 医学视觉问答(Med-VQA)将计算机视觉和自然语言处理结合起来,自动回答关于医学影像的临床问题。然而,现有的Med-VQA数据集存在两个显著的局限性:(1) 常常缺乏视觉和文本解释,这妨碍了患者和初级医生的理解;(2) 通常提供的问题格式范围狭窄,不足以反映实际场景中的多样化需求。这些局限性对可靠和用户友好的Med-VQA系统的发展构成了重大挑战。为应对这些挑战,我们介绍了一个针对胸部X射线诊断的大规模、可解释的Med-VQA基准数据集(GEMeX),并包含几个创新组件:(1) 多模态可解释机制,为每个问题-答案对提供详细的视觉和文本解释,从而增强答案的可理解性;(2) 四种问题类型,开放式、封闭式、单选和多选,以更好地反映实际需求。GEMeX包括151,025张图像和1,605,575个问题,是目前最大的胸部X射线VQA数据集。在GEMeX上对12个代表性大型视觉语言模型(LVLMs)进行评估,显示出了不理想的性能,突显了数据集的复杂性。同时,我们通过在GEMeX训练集上微调现有的LVLM提出了一种强大的模型。显著的性能提升展示了数据集的有效性。基准数据集可在https://www.med-vqa.com/GEMeX获得。