LLM2D

摘要

arXiv:2403.20331v2 宣布类型: replace-cross 摘要：本文介绍了一个新颖的任务，以评估大尺寸多模态模型（LMMs）的稳健理解能力，称为 **无法解决问题检测（UPD）**。多项选择题回答（MCQA）广泛用于评估LMMs的理解能力，但它并不能保证LMMs真正理解答案。UPD 评估LMM在遇到MCQA中的不可解问题时保持不作答的能力，验证模型是否真正理解了答案。UPD 包含三个问题：缺失答案检测（AAD）、不兼容答案集检测（IASD）和不兼容视觉问题检测（IVQD），涵盖了诸如答案缺乏或选择不兼容以及图像-问题不匹配等不可解情况。为了进行评估，我们引入了 MM-UPD 基准，这是一个用于评估多方面性能标准的基准。我们的实验表明，即使在现有基准测试中表现出良好性能的大多数LMMs，在 MM-UPD 方面仍然存在显著困难，突显出当前基准测试所忽视的一个新的值得信赖方面。详细的分析显示，LMMs 有不同的瓶颈，逻辑思维和自我反思改善了在 LLM 能力瓶颈中的 LMMs 的性能。我们希望我们的见解能够促进更广泛地了解和开发更可靠的LMMs。