摘要
arXiv:2408.08704v2 Announce Type: replace-cross
摘要:近年来,大型视觉-语言模型(LVLMs)在各种任务中展现出了令人瞩目的能力,引起了人工智能领域的广泛关注。然而,它们在医学等专业领域的性能和可靠性仍然没有得到充分评估。特别的是,大多数评估过度集中于通过简单的跨模态视觉问答(VQA)来评估VLMs,而忽略了LVLMs的深层次特征。在本研究中,我们引入了RadVUQA,这是一个新的放射学视觉理解与问答基准,旨在全面评估现有的LVLMs。RadVUQA 主要从五个维度验证LVLMs:1)解剖学理解,评估模型识别生物结构的能力;2)跨模态理解,包括模型解析语言和视觉指令以产生所需结果的能力;3)定量和空间推理,评估模型的空间意识以及将定量分析与视觉和语言信息结合的能力;4)生理学知识,测量模型理解器官和系统功能和机制的能力;5)鲁棒性,评估模型在处理不协调和合成数据时的能力。结果表明,通用的LVLMs和医学专用的LVLMs在跨模态理解能力和定量推理方面存在关键缺陷。我们的研究揭示了现有LVLMs与临床医生之间存在的巨大差距,强调了开发更稳健和智能的LVLMs的迫切需求。代码可在 https://github.com/Nandayang/RadVUQA 查看。