LLM2D

摘要

医学视觉问答（VQA）是一项将计算机视觉和自然语言处理相结合以自动回答有关医学图像临床问题的关键技术。然而，目前的医学VQA数据集存在两个显著的局限性：（1）它们通常缺乏答案的视觉和文本解释，这阻碍了其满足患者和初级医生的理解需求；（2）它们通常提供有限的提问格式，无法充分反映临床场景中多样化的需求。这些局限性对可靠且用户友好的医学VQA系统的开发提出了重大挑战。为了应对这些挑战，我们引入了一个用于胸部X光诊断的大规模、可解释的医学VQA基准GEMeX，它具有几个创新组成部分：（1）一种多模态可解释性机制，为每个问答对提供详细的视觉和文本解释，从而增强答案的可理解性；（2）四种不同的问题类型：开放式、封闭式、单选题和多选题，更好地反映了多样化的临床需求。我们在GEMeX上评估了10个具有代表性的大型视觉语言模型，发现它们的性能不佳，突出了该数据集的复杂性。然而，在使用训练集微调基线模型后，我们观察到性能有了显著提高，证明了该数据集的有效性。该项目可在www.med-vqa.com/GEMeX访问。