LLM2D

摘要

arXiv:2403.20331v3 宣布类型: replace-cross 摘要：本文介绍了一项新的任务，用于评估大型多模态模型（LMMs）的稳健理解能力，称为 **无法解答问题检测（UPD）**。多项选择题回答（MCQA）广泛用于评估LMMs的理解能力，但它并不确保LMMs真正理解答案。UPD 评估LMM在遇到MCQA中的无法解答问题时抑制回答的能力，验证模型是否真正理解答案。UPD 包含三个问题：缺席答案检测（AAD）、不兼容答案集检测（IASD）和不兼容视觉问题检测（IVQD），涵盖了如答案缺失或选择不兼容以及图像-问题不匹配等多种无法解答的情况。为了评估，我们引入了 MM-UPD 基准，这是一个评估不同能力维度上性能的基准。我们的实验显示，即使大多数LMM在现有基准上的表现不错，它们在MM-UPD 上仍然面临显著挑战，这揭示了一种信任度的新方面，这是现有基准所忽视的。详细分析显示，LMM面临着不同的瓶颈，逻辑思维和自我反思对于解决 LLM 能力瓶颈的LMM来说提高了其性能。我们希望我们的见解能够增强对更可靠LMM 的更广泛理解和开发。