LLM2D
不可解问题检测:大型多模态模型的稳健理解评估
Unsolvable Problem Detection: Robust Understanding Evaluation for Large Multimodal Models
作者: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu, Go Irie, Yixuan Li, Hai Li, Ziwei Liu, Kiyoharu Aizawa
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2403.20331v2

摘要

arXiv:2403.20331v2 宣布类型: replace-cross 摘要:本文介绍了一个新颖的任务,以评估大尺寸多模态模型(LMMs)的稳健理解能力,称为 **无法解决问题检测(UPD)**。多项选择题回答(MCQA)广泛用于评估LMMs的理解能力,但它并不能保证LMMs真正理解答案。UPD 评估LMM在遇到MCQA中的不可解问题时保持不作答的能力,验证模型是否真正理解了答案。UPD 包含三个问题:缺失答案检测(AAD)、不兼容答案集检测(IASD)和不兼容视觉问题检测(IVQD),涵盖了诸如答案缺乏或选择不兼容以及图像-问题不匹配等不可解情况。为了进行评估,我们引入了 MM-UPD 基准,这是一个用于评估多方面性能标准的基准。我们的实验表明,即使在现有基准测试中表现出良好性能的大多数LMMs,在 MM-UPD 方面仍然存在显著困难,突显出当前基准测试所忽视的一个新的值得信赖方面。详细的分析显示,LMMs 有不同的瓶颈,逻辑思维和自我反思改善了在 LLM 能力瓶颈中的 LMMs 的性能。我们希望我们的见解能够促进更广泛地了解和开发更可靠的LMMs。