LLM2D

摘要

arXiv:2408.08704v2 Announce Type: replace-cross 摘要：近年来，大型视觉-语言模型（LVLMs）在各种任务中展现出了令人瞩目的能力，引起了人工智能领域的广泛关注。然而，它们在医学等专业领域的性能和可靠性仍然没有得到充分评估。特别的是，大多数评估过度集中于通过简单的跨模态视觉问答（VQA）来评估VLMs，而忽略了LVLMs的深层次特征。在本研究中，我们引入了RadVUQA，这是一个新的放射学视觉理解与问答基准，旨在全面评估现有的LVLMs。RadVUQA 主要从五个维度验证LVLMs：1）解剖学理解，评估模型识别生物结构的能力；2）跨模态理解，包括模型解析语言和视觉指令以产生所需结果的能力；3）定量和空间推理，评估模型的空间意识以及将定量分析与视觉和语言信息结合的能力；4）生理学知识，测量模型理解器官和系统功能和机制的能力；5）鲁棒性，评估模型在处理不协调和合成数据时的能力。结果表明，通用的LVLMs和医学专用的LVLMs在跨模态理解能力和定量推理方面存在关键缺陷。我们的研究揭示了现有LVLMs与临床医生之间存在的巨大差距，强调了开发更稳健和智能的LVLMs的迫切需求。代码可在 https://github.com/Nandayang/RadVUQA 查看。