摘要
arXiv:2403.20331v3 宣布类型: replace-cross
摘要:本文介绍了一项新的任务,用于评估大型多模态模型(LMMs)的稳健理解能力,称为 **无法解答问题检测(UPD)**。多项选择题回答(MCQA)广泛用于评估LMMs的理解能力,但它并不确保LMMs真正理解答案。UPD 评估LMM在遇到MCQA中的无法解答问题时抑制回答的能力,验证模型是否真正理解答案。UPD 包含三个问题:缺席答案检测(AAD)、不兼容答案集检测(IASD)和不兼容视觉问题检测(IVQD),涵盖了如答案缺失或选择不兼容以及图像-问题不匹配等多种无法解答的情况。为了评估,我们引入了 MM-UPD 基准,这是一个评估不同能力维度上性能的基准。我们的实验显示,即使大多数LMM在现有基准上的表现不错,它们在MM-UPD 上仍然面临显著挑战,这揭示了一种信任度的新方面,这是现有基准所忽视的。详细分析显示,LMM面临着不同的瓶颈,逻辑思维和自我反思对于解决 LLM 能力瓶颈的LMM来说提高了其性能。我们希望我们的见解能够增强对更可靠LMM 的更广泛理解和开发。