LLM2D

摘要

arXiv:2411.16778v2 通告类型: replace-cross 摘要: 医学视觉问答（Med-VQA）将计算机视觉和自然语言处理结合起来，自动回答关于医学影像的临床问题。然而，现有的Med-VQA数据集存在两个显著的局限性：(1) 常常缺乏视觉和文本解释，这妨碍了患者和初级医生的理解；(2) 通常提供的问题格式范围狭窄，不足以反映实际场景中的多样化需求。这些局限性对可靠和用户友好的Med-VQA系统的发展构成了重大挑战。为应对这些挑战，我们介绍了一个针对胸部X射线诊断的大规模、可解释的Med-VQA基准数据集(GEMeX)，并包含几个创新组件：(1) 多模态可解释机制，为每个问题-答案对提供详细的视觉和文本解释，从而增强答案的可理解性；(2) 四种问题类型，开放式、封闭式、单选和多选，以更好地反映实际需求。GEMeX包括151,025张图像和1,605,575个问题，是目前最大的胸部X射线VQA数据集。在GEMeX上对12个代表性大型视觉语言模型（LVLMs）进行评估，显示出了不理想的性能，突显了数据集的复杂性。同时，我们通过在GEMeX训练集上微调现有的LVLM提出了一种强大的模型。显著的性能提升展示了数据集的有效性。基准数据集可在https://www.med-vqa.com/GEMeX获得。