摘要
arXiv:2403.20331v2 宣布类型: replace-cross
摘要:本文介绍了一个新颖的任务,以评估大尺寸多模态模型(LMMs)的稳健理解能力,称为 **无法解决问题检测(UPD)**。多项选择题回答(MCQA)广泛用于评估LMMs的理解能力,但它并不能保证LMMs真正理解答案。UPD 评估LMM在遇到MCQA中的不可解问题时保持不作答的能力,验证模型是否真正理解了答案。UPD 包含三个问题:缺失答案检测(AAD)、不兼容答案集检测(IASD)和不兼容视觉问题检测(IVQD),涵盖了诸如答案缺乏或选择不兼容以及图像-问题不匹配等不可解情况。为了进行评估,我们引入了 MM-UPD 基准,这是一个用于评估多方面性能标准的基准。我们的实验表明,即使在现有基准测试中表现出良好性能的大多数LMMs,在 MM-UPD 方面仍然存在显著困难,突显出当前基准测试所忽视的一个新的值得信赖方面。详细的分析显示,LMMs 有不同的瓶颈,逻辑思维和自我反思改善了在 LLM 能力瓶颈中的 LMMs 的性能。我们希望我们的见解能够促进更广泛地了解和开发更可靠的LMMs。