LLM2D
不可解问题检测:大型多模态模型的稳健理解评估
Unsolvable Problem Detection: Robust Understanding Evaluation for Large Multimodal Models
作者: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu, Go Irie, Yixuan Li, Hai Li, Ziwei Liu, Kiyoharu Aizawa
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2403.20331v3

摘要

arXiv:2403.20331v3 宣布类型: replace-cross 摘要:本文介绍了一项新的任务,用于评估大型多模态模型(LMMs)的稳健理解能力,称为 **无法解答问题检测(UPD)**。多项选择题回答(MCQA)广泛用于评估LMMs的理解能力,但它并不确保LMMs真正理解答案。UPD 评估LMM在遇到MCQA中的无法解答问题时抑制回答的能力,验证模型是否真正理解答案。UPD 包含三个问题:缺席答案检测(AAD)、不兼容答案集检测(IASD)和不兼容视觉问题检测(IVQD),涵盖了如答案缺失或选择不兼容以及图像-问题不匹配等多种无法解答的情况。为了评估,我们引入了 MM-UPD 基准,这是一个评估不同能力维度上性能的基准。我们的实验显示,即使大多数LMM在现有基准上的表现不错,它们在MM-UPD 上仍然面临显著挑战,这揭示了一种信任度的新方面,这是现有基准所忽视的。详细分析显示,LMM面临着不同的瓶颈,逻辑思维和自我反思对于解决 LLM 能力瓶颈的LMM来说提高了其性能。我们希望我们的见解能够增强对更可靠LMM 的更广泛理解和开发。